Mejoras en la Obtención de Información Visual de Documentos Bancarios con Modelos Multimodales y LLaMA-Factory en Amazon SageMaker HyperPod

Elena Digital López

La industria bancaria enfrenta desafíos significativos en el manejo de procesos repetitivos que impactan en operaciones vitales como la extracción de información, revisión de documentos y auditorías. Estas tareas no solo requieren un gran número de recursos humanos, sino que también afectan el cumplimiento de normativas críticas como el Conozca a Su Cliente (KYC) y los procesos de solicitud de préstamos y análisis de crédito. Como consecuencia, las instituciones financieras experimentan limitaciones operativas, que incluyen pobre escalabilidad, prolongados tiempos de procesamiento y altos costos relacionados con la formación y rotación del personal.

Para abordar estas dificultades, la implementación de sistemas avanzados de extracción de información resulta crucial. Estos sistemas permiten recuperar rápidamente datos de documentos financieros, tales como declaraciones bancarias y formularios KYC. Al hacerlo, se minimizan tanto los errores manuales como los tiempos de procesamiento, facilitando así la incorporación de nuevos clientes, asegurando el cumplimiento normativo y promoviendo la transformación digital en el sector. Esto es especialmente pertinente para el procesamiento de documentos de alto volumen.

La complejidad de los documentos que los bancos deben manejar exige soluciones especializadas que ofrezcan alta precisión mientras gestionan datos financieros sensibles. En este contexto, Apoidea Group, una empresa independiente de software centrada en inteligencia artificial en Hong Kong, ha desarrollado innovaciones que atienden las necesidades de los bancos multinacionales. Su producto, SuperAcc, es un servicio avanzado que ofrece modelos de comprensión de documentos patentados, capaces de gestionar diversas categorías de documentos.

El impacto de SuperAcc en el sector bancario ha sido notable. Por ejemplo, la expansión financiera, que antes tomaba entre cuatro y seis horas, ahora se realiza en apenas diez minutos. Además, el personal solo necesita treinta minutos para revisar los resultados. En el ámbito de pequeñas y medianas empresas, la revisión de estados de cuenta bancarios de seis meses se ha acortado a diez minutos. Esta considerable reducción de tiempos no solo acelera los flujos de trabajo, sino que también disminuye el riesgo de errores humanos.

Sin embargo, a pesar de su eficacia, la transformación digital en la banca enfrenta retos relacionados con la seguridad y el cumplimiento regulatorio. Las instituciones financieras requieren estándares de seguridad propios del sector, como ISO 9001 e ISO 27001. Además, la integración con sistemas heredados representa un obstáculo, dado que muchas de estas infraestructuras son anticuadas en comparación con las demandas tecnológicas actuales.

Para mejorar aún más la capacidad de las soluciones de extracción de información, es vital contar con una infraestructura avanzada de aprendizaje automático. Amazon SageMaker HyperPod ofrece un ambiente eficaz para ejecutar cargas de trabajo de aprendizaje automático, permitiendo desarrollar modelos de alta tecnología y acelerar su implementación.

Los últimos avances en modelos multimodales han demostrado una notable habilidad para procesar información visual y textual compleja. Esto representa un cambio de paradigma en la comprensión de documentos, al combinar procesamiento textural robusto con una comprensión visual avanzada. Esta integración permite un análisis más preciso de los documentos, reduciendo errores y optimizando la eficiencia.

Con este progreso, se ha iniciado una colaboración para investigar el uso de modelos de lenguaje visual de gran tamaño junto con las capacidades de SageMaker HyperPod. Los experimentos realizados han evidenciado que estos modelos pueden mejorar significativamente el reconocimiento de estructuras tabulares en documentos financieros.

La adaptación de modelos de lenguaje y visión a tareas específicas de comprensión documental ofrece beneficios considerables. Su habilidad para procesar tanto datos visuales como textuales los convierte en herramientas poderosas para avanzar en la tecnología de comprensión de documentos, transformando la manera en que las instituciones financieras gestionan y procesan la vasta cantidad de documentación necesaria en sus operaciones diarias.