Evaluación de Aplicaciones de IA Generativa en Salud con LLM como Juez en AWS

Elena Digital López

Recientemente, se ha llevado a cabo un análisis exhaustivo sobre la aplicación de técnicas de inteligencia artificial generativa en el ámbito de la salud, centrándose en el uso de modelos de lenguaje grande (LLM) y su potencial para transformar la forma en que se generan y analizan los informes médicos. En esta serie de artículos, se ha explorado el ajuste fino de estos modelos, así como la innovadora técnica de Generación Aumentada por Recuperación (RAG), utilizando Amazon Bedrock.

La primera parte del estudio se centró en el proceso de ajuste de modelos, mientras que la segunda parte introdujo la metodología RAG, que busca integrar modelos de lenguaje grandes con bases de conocimiento externas. Esta técnica se caracteriza por su capacidad para reducir las alucinaciones de los modelos y mejorar la precisión en el contexto médico, un área donde la fiabilidad de la información es fundamental. La recuperación en tiempo real de datos médicos relevantes permite a los sistemas basados en RAG ofrecer respuestas más adecuadas desde una perspectiva clínica, lo que resulta esencial en la práctica médica cotidiana.

En cuanto a la evaluación de estas aplicaciones, se utilizó de manera inicial la métrica ROUGE, que es tradicionalmente empleada para medir el rendimiento de resúmenes. Sin embargo, se identificó que esta métrica no era suficiente para valorar de manera adecuada la efectividad de los sistemas RAG en la integración de conocimiento médico, lo que llevó a la creación de un enfoque más específico.

En la tercera parte de la investigación, se presentó un nuevo marco de evaluación que utiliza el modelo LLM como juez. Esta metodología tiene como objetivo superar los retos que presentan los sistemas RAG en entornos médicos. Se enfatiza la necesidad de que tanto la recuperación del conocimiento médico como la calidad del contenido generado se alineen con estándares estrictos, como la claridad y precisión clínica. Gracias a esta innovación, es posible realizar una evaluación más completa de cuán efectivamente estos sistemas utilizan la información médica recuperada para ofrecer respuestas precisas y contextualizadas.

Este desarrollo en la metodología de evaluación resulta crucial a medida que las aplicaciones RAG ganan popularidad en los entornos clínicos. El enfoque de utilizar un LLM como juez aporta un nivel de análisis necesario para asegurar que se cumplen los requisitos de calidad y precisión dedicados al sector salud.

En esta publicación se demuestra cómo implementar el nuevo framework de evaluación con Amazon Bedrock, así como la comparación entre el rendimiento de distintos modelos generadores, incluyendo el Claude de Anthropic y el Nova de Amazon. También se muestra el uso de la nueva función de evaluación RAG para optimizar la base de conocimiento y evaluar la calidad de la recuperación de información. Este enfoque no solo establece nuevos estándares para la evaluación de aplicaciones médicas basadas en RAG, sino que también ofrece herramientas valiosas para profesionales que buscan construir soluciones de inteligencia artificial confiables en el sector salud.