Mide la calidad de respuestas de IA con un conjunto pequeño | GAUAB