Evaluación de Agentes de Amazon Bedrock: Ragas y LLM como Jueces

Elena Digital López

Los agentes de inteligencia artificial (IA) están adquiriendo un papel fundamental en los flujos de trabajo de atención al cliente en diversas industrias, facilitando la automatización de tareas complejas y mejorando la toma de decisiones. Sin embargo, su integración en sistemas productivos requiere de pipelines de evaluación escalables que permitan medir su desempeño en acciones específicas. Esta evaluación es crucial, ya que proporciona información valiosa que mejora la seguridad, el control, la confianza, la transparencia y la optimización del rendimiento de estos sistemas.

Amazon Bedrock Agents se beneficia de los modelos de base (FMs) disponibles en Amazon Bedrock, junto con APIs y datos, para desgranar las solicitudes de los usuarios, recopilar información relevante y ejecutar tareas de manera eficiente. Esto significa que los equipos pueden concentrarse en actividades de mayor valor, al automatizar procesos que requieren múltiples pasos.

En este contexto, Ragas, una librería de código abierto, se ha diseñado para probar y evaluar aplicaciones de modelos de lenguaje grande (LLM) en distintos casos de uso, como la generación aumentada por recuperación (RAG). Este marco permite medir cuantitativamente la efectividad de la implementación de RAG, y en estudios recientes ha sido utilizado para evaluar la capacidad RAG de Amazon Bedrock Agents.

La metodología conocida como LLM-as-a-judge consiste en emplear LLMs para evaluar la calidad de las salidas generadas por la IA, actuando como un evaluador imparcial. Este enfoque se ha utilizado para analizar y puntuar las capacidades de conversión de texto a SQL y de razonamiento en cadena de los agentes de Amazon Bedrock.

Por su parte, Langfuse, otra plataforma de ingeniería de código abierto para LLM, ofrece características como trazas, evaluaciones, gestión de solicitudes y métricas que ayudan a depurar y mejorar aplicaciones basadas en LLM. Recientemente, se ha presentado un marco de evaluación de agentes Bedrock que permite evaluar su rendimiento en tareas de RAG, conversión de texto a SQL y uso de herramientas personalizadas. Un aspecto significativo de este avance es la posibilidad de visualizar resultados y datos de trazas a través de paneles integrados en Langfuse.

La evaluación de agentes presenta varios desafíos técnicos. Los desarrolladores deben enfrentarse a la dificultad de realizar una evaluación integral que contemple métricas específicas y gestionar experimentos debido a las múltiples configuraciones posibles de los agentes. Para simplificar este proceso, el marco de Open Source Bedrock Agent Evaluation permite que los usuarios especifiquen un ID de agente y ejecuten trabajos de evaluación que convocan agentes en Amazon Bedrock. Este procedimiento genera trazas de invocaciones que se analizan y evalúan, enviando los resultados a Langfuse para obtener información y métricas agregadas.

La relevancia de esta evaluación se hace especialmente notable en el ámbito de la investigación farmacéutica, donde se han diseñado agentes que colaboran y analizan datos relacionados con biomarcadores. Estos agentes, utilizando una metodología colaborativa, facilitan el descubrimiento de información clave en la investigación médica, por lo que la integración y evaluación de sus capacidades resulta fundamental para asegurar su rendimiento. Esto subraya la necesidad de contar con herramientas efectivas para la evaluación de agentes de IA, que no solo mejoren su eficacia, sino que también garanticen su confianza y seguridad en entornos críticos.