La revolución de la inteligencia artificial generativa está transformando el panorama empresarial, ampliando las posibilidades de productividad a través de asistentes que pueden responder preguntas de manera efectiva. Estos sistemas pueden estar impulsados por diversas arquitecturas, incluyendo la Generación Aumentada por Recuperación (RAG), flujos de trabajo agentivos y modelos de lenguaje de gran escala. Sin embargo, la clave para construir y desplegar asistentes de IA confiables radica en contar con datos verídicos sólidos y un marco de evaluación adecuado.
Los datos de referencia en IA son aquellos que se consideran fácticos, definiendo el resultado esperado para el caso de uso del sistema modelado. Al ofrecer un resultado objetivo contra el cual se puede medir, estos datos permiten una evaluación determinística de la calidad del sistema, facilitando la creación de referencias personalizadas que son esenciales para monitorear el rendimiento a lo largo del tiempo y realizar comparaciones entre múltiples asistentes en tareas específicas.
La implementación de métricas de evaluación como las de Conocimiento Factual y Precisión de QA de FMEval está intrínsecamente ligada a la generación de datos verídicos. Para asegurar que se mida con la máxima calidad, es necesario que la métrica de evaluación informe la creación de estos datos. FMEval, una suite de evaluación proveniente de Amazon SageMaker Clarify, proporciona implementaciones estandarizadas para evaluar la calidad y la responsabilidad de los asistentes de IA.
Este artículo se centra en las mejores prácticas para utilizar modelos de lenguaje de gran escala en la generación de datos verídicos, con un enfoque en la evaluación de asistentes de respuesta a preguntas. Un método recomendando para comenzar es la curación humana de un conjunto reducido de datos de preguntas y respuestas, el cual debe ser enriquecido y revisado por expertos en la materia. Este enfoque no solo asegura que se aborden las preguntas más pertinentes para el negocio, sino que también promueve un alineamiento de datos desde el inicio del proceso de evaluación.
Para escalar la generación de datos verídicos, se sugiere aplicar un enfoque basado en riesgos junto a una estrategia de prompts utilizando modelos de lenguaje. Aunque los datos generados por estos modelos son útiles, no deben reemplazar la contribución de expertos humanos, quienes deben continuar identificando las preguntas clave que afectan al negocio y asegurando que los datos verídicos se alineen con el valor empresarial.
La generación de datos verídicos debe incluir una representación adecuada de las respuestas correctas, integrando entidades del sujeto que aseguren que las métricas de evaluación se ajusten a las expectativas y estándares del negocio. Esta metodología no solo proporciona un camino claro para las organizaciones que buscan construir y evaluar asistentes de inteligencia artificial generativa, sino que también asegura que cuentan con la información y los estándares necesarios para mantener su competitividad en un mercado en constante evolución.