En la actualidad, el análisis de datos tabulares ha experimentado un avance significativo gracias a la irrupción de los modelos de lenguaje grandes (LLMs), los cuales han transformado múltiples sectores. Un reciente enfoque denominado Aprendizaje Generativo Tabular (GTL) ha surgido como una propuesta innovadora que permite realizar análisis precisos y pertinentes de datos estructurados, hablando el lenguaje particular de cada industria.
El GTL destaca por ofrecer resultados comparables al ajuste fino de modelos de LLM, pero sin la complejidad que estos suelen implicar. Esta técnica posibilita la utilización de modelos de lenguaje preentrenados para examinar conjuntos de datos tabulares al proporcionar ejemplos de contexto en las indicaciones, lo cual aumenta la comprensión y relevancia del análisis generado.
El desarrollo de este método se fundamentó en un documento técnico titulado «From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models». El proceso se lleva a cabo utilizando JupyterLabs totalmente gestionados en Amazon SageMaker, interactuando con los modelos Meta Llama alojados en plataformas como Amazon SageMaker y Amazon Bedrock. Además, los usuarios pueden acceder a cuadernos de referencia adicionales mediante la plataforma GitHub, facilitando así la implementación de estos modelos.
Para aplicar esta estrategia, es esencial contar con acceso a modelos LLM, como los Llama de Meta, configuraciones específicas de Amazon SageMaker, así como tener conocimientos en la ingeniería de indicaciones generativas y técnicas de evaluación de la precisión de los resultados generados.
Especialmente en el sector financiero, esta tecnología puede tener un impacto considerable. Los datos de este sector suelen estar organizados en tablas, ya sea en archivos PDF o bases de datos estructuradas. Por ejemplo, uno de los conjuntos de datos utilizados en las pruebas de esta solución contenía información pormenorizada sobre fondos cotizados en bolsa (ETFs).
Una característica sobresaliente del enfoque GTL es su capacidad para permitir que los usuarios formulen preguntas relacionadas con el negocio o el sector, a las que el modelo LLM puede responder adecuadamente utilizando lenguajes específicos del sector. Por ejemplo, responde a consultas sobre los ETFs más seguros con mayores rendimientos de dividendos y menor volatilidad, analizando datos de rendimiento y volatilidad a cinco, tres y un año.
La introducción del marco GTL como una solución intermedia antes de considerar el ajuste fino de los modelos ofrece un camino más sencillo y potencialmente más económico. Permite a las organizaciones generar salidas más especializadas de la industria a partir de los LLM mediante la creación de conjuntos curados de instrucciones GTL que detallan características y etiquetas relevantes.
Este enfoque es particularmente valioso para desarrollar aplicaciones interactivas que permiten a los usuarios comerciales, que quizás no sean expertos en la manipulación de grandes datasets, obtener información significativa mediante preguntas en lenguaje natural.
En resumen, aunque los modelos de lenguaje grandes siguen mejorando, aún existe un margen considerable para optimizar el análisis de datos estructurados. Las técnicas como el GTL permiten a las organizaciones cumplir con sus necesidades específicas de análisis sin recurrir a los costosos y laboriosos procesos de ajuste fino de modelos.