Modelos De Fundación Multimodal En Amazon Bedrock: Aprende A Hablar Con Tu Presentación – Parte 3

Elena Digital López

Amazon Web Services (AWS) ha introducido recientemente dos enfoques vanguardistas para extraer información de datos multimodales, que incluyen texto, imágenes y gráficos. En una serie de artículos, AWS detalla cómo estos métodos innovadores permiten interactuar con presentaciones de manera más eficiente y precisa.

El primer método, denominado «embed primero, inferir después», aprovecha el modelo Amazon Titan Multimodal Embeddings para transformar las diapositivas de una presentación en embeddings vectoriales. Estos son almacenados en una base de datos vectorial. Posteriormente, el modelo Large Language-and-Vision Assistant (LLaVA 1.5-7b) genera respuestas textuales basadas en las diapositivas más similares recuperadas de esta base de datos.

Por otro lado, la segunda estrategia, llamada «inferir primero, embed después», utiliza el modelo Claude 3 Sonnet de Anthropic en Amazon Bedrock. Este modelo genera descripciones textuales de cada diapositiva, que luego son convertidas en embeddings textuales y almacenadas en una base de datos vectorial. Nuevamente, Claude 3 Sonnet se encarga de generar respuestas a partir de las descripciones textuales más relevantes extraídas de la base de datos.

Ambos enfoques fueron evaluados con SlideVQA, un conjunto de datos abierto de preguntas y respuestas visuales sobre documentos. Los resultados indicaron que la precisión de respuesta alcanzó el 50% o menos frente al conjunto de datos de muestra, proyectando un desafío continuo en la mejora de estas tecnologías.

En cuanto a los costos, el análisis reveló que el enfoque de «embed primero, inferir después» tiene un costo por pregunta de $0.00224. En comparación, el método «inferir primero, embed después» tiene un costo más elevado de $0.02108. Estos costos reflejan los cargos asociados al procesamiento en la nube de AWS.

La evaluación comparativa entre los dos métodos subraya la necesidad de elegir el enfoque adecuado en función de las características del dataset y del contenido. AWS sugiere implementar búsquedas híbridas y aplicar filtros para mejorar la precisión en la recuperación de información.

Finalmente, AWS ha liberado el código relacionado con estos enfoques en un repositorio de GitHub, alentando a los usuarios a experimentar y determinar cuál método se adapta mejor a sus requerimientos. A medida que la inteligencia artificial generativa avanza, AWS se compromete a continuar explorando y mejorando las técnicas para la investigación y extracción de datos multimodales.