Un laboratorio nacional en Estados Unidos ha lanzado una plataforma innovadora para abordar los problemas de accesibilidad y localización de documentos en sus archivos históricos. A pesar de que estas instituciones cuentan con valiosa información, gran parte de ella permanece oculta debido a la falta de metadatos y un etiquetado inconsistente de documentos. Los métodos tradicionales de búsqueda, que se basan en palabras clave, suelen resultar ineficaces, lo que lleva a exhaustivas revisiones manuales para extraer datos relevantes.
Para hacer frente a estos desafíos, el laboratorio ha desarrollado una solución de procesamiento de documentos impulsada por inteligencia artificial. Esta plataforma combina el reconocimiento de entidades nombradas (NER) y modelos de lenguaje de gran escala (LLM) utilizando Amazon SageMaker. Gracias a esta tecnología, el acceso a los registros archivados se moderniza mediante la automatización del enriquecimiento de metadatos, la clasificación de documentos y la generación de resúmenes. El sistema utiliza el modelo Mixtral-8x7B para facilitar la creación de resúmenes y títulos, así como un modelo NER basado en BERT para la extracción de metadatos estructurados, mejorando considerablemente la organización y recuperación de documentos escaneados.
La arquitectura de la plataforma es sin servidor y está optimizada en términos de costos, lo que permite una utilización eficiente de los recursos mediante la provisión dinámica de endpoints de SageMaker, garantizando escalabilidad. Al integrar tecnologías avanzadas de procesamiento de lenguaje natural y modelos de lenguaje de gran escala, la herramienta mejora la precisión en la generación de metadatos, permitiendo búsquedas más efectivas y una gestión documental más ágil. Este enfoque no solo respalda la transformación digital, sino que también asegura que los datos archivados sean utilizados de manera eficaz en investigaciones, el desarrollo de políticas y la preservación del conocimiento institucional.
Denominada NER & LLM Gen AI Application, la plataforma combina los beneficios del NER y los LLM para automatizar el análisis de documentos a gran escala. Emplea un enfoque modular con diferentes componentes que gestionan aspectos variados del procesamiento documental, desde la creación de resúmenes hasta la identificación de autores. El sistema se activa cuando detecta documentos en el bucket de extracciones, evitando redundancias al orquestar la creación de endpoints necesarios para el procesamiento por lotes, lo que asegura una operativa más eficiente.
Lo más destacado de esta solución es su capacidad para procesar hasta 100,000 documentos en un lapso de 12 horas, lo que subraya su eficacia en términos de coste y rendimiento. La implementación de resúmenes extractivos como primer paso permite reducir la carga de trabajo entre un 75 y un 90%, traduciendo estos resultados en un procesamiento más rápido y un menor costo operativo. Esta plataforma se perfila como una respuesta robusta a las crecientes demandas de procesamiento documental eficiente en el ámbito de la investigación y la gestión del conocimiento.