Creación de un Chatbot Multimodal Personalizado para tu Conjunto de Datos Único con Amazon Bedrock FMs

Elena Digital López

En los últimos meses, ha habido un notable avance en el desarrollo de modelos de lenguaje de gran escala, lo que ha impulsado la adopción de asistentes virtuales en diversas empresas. Estas herramientas han demostrado ser valiosas para mejorar la atención al cliente y la eficiencia interna al utilizar modelos de generación aumentada por recuperación (RAG) que, mediante poderosos modelos de lenguaje, consultan documentos específicos de la empresa para responder preguntas relevantes.

Un avance significativo en este ámbito es la disponibilidad de modelos fundacionales multimodales, capaces de interpretar y generar texto a partir de imágenes. Aunque su utilidad es general, estos modelos están limitados por la información contenida en sus conjuntos de datos de entrenamiento.

En este contexto, Amazon Web Services (AWS) ha implementado un asistente de chat multimodal utilizando sus modelos de Amazon Bedrock. Este sistema permite a los usuarios enviar tanto imágenes como preguntas y recibir respuestas basadas en un conjunto específico de documentos propios de la empresa. Esta tecnología tiene aplicaciones potenciales en industrias como el comercio minorista, donde podría mejorar la venta de productos, o en la fabricación de equipos, facilitando su mantenimiento y reparación.

La solución de AWS comienza con la creación de una base de datos vectorial de documentos mediante Amazon OpenSearch Service. Posteriormente, el asistente de chat es desplegado usando una plantilla de AWS CloudFormation. El sistema se activa cuando un usuario sube una imagen y plantea una pregunta, las cuales son procesadas a través de Amazon API Gateway hacia una función de AWS Lambda. Esta función actúa como núcleo del procesamiento, almacenando la imagen en Amazon S3 para futuros análisis. Luego, Lambda coordina llamadas a modelos de Amazon Bedrock para describir la imagen, generar una representación de la pregunta y descripción, recuperar datos relevantes de OpenSearch y generar una respuesta fundamentada en los documentos. La consulta y la respuesta se almacenan en Amazon DynamoDB, junto con el ID de imagen en S3.

Esta implementación permite a las empresas obtener respuestas precisas y contextualizadas basadas en sus datos específicos, mejorando la experiencia del usuario y aumentando la eficiencia operativa. Además, la solución ofrece personalización y escalabilidad, permitiendo a las empresas adaptar el asistente a sus necesidades y explorar nuevas formas de interacción humano-máquina.

El caso de uso destacado es en un mercado de automóviles, donde los usuarios pueden subir imágenes de vehículos y realizar consultas basadas en una base de datos propia de listados de autos. Esto muestra la aplicabilidad diversa de la tecnología, con el potencial de transformar la manera en la que las empresas interactúan con sus clientes en diferentes sectores.