Evaluación de Modelos RAG con Amazon Bedrock: Disponibilidad General

Elena Digital López

Las organizaciones que están implementando aplicaciones de inteligencia artificial generativa enfrentan el desafío de evaluar de manera efectiva el rendimiento y la fiabilidad de sus sistemas. Durante la reciente conferencia AWS re:Invent 2024, Amazon anunció nuevas capacidades de evaluación para modelos de lenguaje (LLM-as-a-judge, LLMaJ) y generación aumentada por recuperación (RAG), que ya están disponibles en una versión previa pública. A pesar de los avances, muchos clientes solicitaron una mayor flexibilidad más allá de lo que ofrecían los modelos de Amazon Bedrock y sus bases de conocimiento.

En respuesta a esta demanda, Amazon ha hecho pública una función de evaluación más completa en Amazon Bedrock Evaluations. Entre las mejoras significativas se incluye la funcionalidad «bring your own inference responses» (BYOI) que permite evaluar sistemas RAG y modelos operados no solo en Amazon Bedrock, sino también en otros proveedores de nube y entornos locales, siempre que se presenten los datos de evaluación en el formato adecuado. Esto abre nuevas posibilidades para que los equipos optimicen el rendimiento y garanticen la calidad de sus aplicaciones de IA generativa.

Las capacidades de evaluación se han ampliado, ahora incluyendo métricas de citación que refuerzan el conjunto de evaluaciones de RAG. Estas métricas, que miden la precisión y la cobertura de las citaciones, son cruciales para evaluar cómo los sistemas RAG utilizan la información recuperada, facilitando una evaluación más precisa. Asimismo, se ha actualizado el formato de entrada requerido para las evaluaciones, ahora incorporando identificadores de base de conocimiento y campos de metadatos que añaden mayor contexto a los datos evaluados.

Una de las innovaciones más esperadas es la introducción de estas métricas de citación, que permiten un análisis detallado de la precisión en las citaciones realizadas por el sistema RAG. Esto ayuda a identificar casos donde se incluyen citaciones no necesarias o irrelevantes, mejorando así la calidad de las salidas generadas.

Con estas mejoras, las empresas ahora tienen la posibilidad de establecer flujos de trabajo de evaluación regulares, lo que les permitirá mejorar continuamente sus modelos y sistemas RAG. Esta estrategia busca garantizar que las salidas que ofrecen sean de la más alta calidad, alineándose con casos de uso específicos y decisiones basadas en datos, lo que representa un avance significativo en el ámbito de la inteligencia artificial generativa.