Deltek aprovecha Amazon Bedrock para mejorar preguntas y respuestas en licitaciones gubernamentales

Elena Digital López

El uso de preguntas y respuestas (Q&A) utilizando documentos es una aplicación común en diversos campos como chatbots de soporte al cliente, asistentes de investigación legal y asesores de salud. La Generación Aumentada por Recuperación (RAG) ha emergido como un método líder para emplear los modelos de lenguaje de gran tamaño (LLMs) en la interacción con documentos en lenguaje natural.

Este informe proporciona una visión general de una solución personalizada desarrollada por el AWS Generative AI Innovation Center (GenAIIC) para Deltek, una reconocida empresa enfocada en negocios basados en proyectos, tanto en contratos gubernamentales como en servicios profesionales. Deltek ofrece servicios a más de 30,000 clientes mediante soluciones de software e información específicas de la industria.

En esta colaboración, el equipo de AWS GenAIIC ha creado una solución basada en RAG para Deltek, que facilita la función de Q&A en documentos de licitaciones gubernamentales, tanto individuales como múltiples. Esta solución hace uso de diversos servicios de AWS, entre los que se incluyen Amazon Textract, Amazon OpenSearch Service y Amazon Bedrock. Este último es un servicio totalmente gestionado que ofrece una selección de modelos de fundacionales (FMs) y LLMs de alto rendimiento de empresas líderes en inteligencia artificial.

Deltek se encuentra en constante trabajo para mejorar esta solución, adaptándola mejor a sus necesidades específicas, tales como el soporte para formatos de archivo adicionales al PDF y la implementación de métodos más económicos para su canal de ingestión de datos.

La RAG optimiza los resultados de los LLMs permitiéndoles referenciar bases de conocimiento autorizadas fuera de sus fuentes de datos de entrenamiento antes de generar una respuesta. Esta aproximación aborda desafíos asociados con los LLMs, como la presentación de información falsa, desactualizada o genérica, y posibles inexactitudes debido a la confusión terminológica.

Aplicar RAG para Q&A en un solo documento es sencillo, pero hacerlo en múltiples documentos relacionados presenta desafíos únicos, especialmente cuando los documentos evolucionan con el tiempo. El orden cronológico es importante cuando una pregunta se refiere a un concepto que ha evolucionado.

El proceso desarrollado por AWS y Deltek consta de dos pasos principales: la ingestión de datos y la Q&A. En el primer paso, se procesan los documentos PDF para extraer texto y tablas usando Amazon Textract. Luego, los fragmentos de texto se indexan en OpenSearch Service utilizando un modelo de incrustaciones de texto.

En el segundo paso, los usuarios pueden realizar preguntas sobre los documentos y recibir respuestas en lenguaje natural. El sistema utiliza Amazon Bedrock para generar una respuesta después de una búsqueda semántica que encuentra fragmentos de texto relevantes.

El uso de Amazon Textract permite convertir archivos PDF, PNG, JPEG y TIFF en texto legible por máquina. OpenSearch facilita la indexación y recuperación eficiente de grandes volúmenes de datos mediante una estructura de base de datos vectorial. El sistema usa modelos de incrustaciones de texto que mapear palabras o frases a representaciones vectoriales densas para efectuar búsquedas semánticas.

En un caso de uso específico, se lleva a cabo la Q&A sobre un borrador de solicitud de propuestas (RFP) y una respuesta a una solicitud de información (RFI), proporcionando información adicional y revisada. Amazon Textract convierte los documentos en texto, que luego se divide en fragmentos y se procesa para extraer incrustaciones vectoriales. Estos fragmentos se almacenan en una base de datos OpenSearch con metadatos, como el nombre de la sección y la fecha de publicación del documento.

Durante la fase de Q&A, se realiza una búsqueda semántica para encontrar fragmentos de texto relevantes y se crea un contexto que se utiliza para generar una respuesta en lenguaje natural utilizando Amazon Bedrock. Este enfoque asegura que las respuestas sean precisas y contextualmente relevantes, considerando la evolución cronológica de la información en los documentos.

En conclusión, la solución propuesta permite una Q&A eficiente en documentos complejos y extensos, mejorando la precisión y relevancia de las respuestas generadas por los LLMs. La colaboración entre AWS y Deltek muestra cómo la tecnología de inteligencia artificial puede optimizar la revisión de documentos complejos y sus iteraciones, aportando un valor significativo para las empresas basadas en proyectos. Deltek sigue perfeccionando esta solución para satisfacer mejor sus necesidades y explorar nuevas eficiencias en la ingestión de datos.