Las empresas actualmente se enfrentan a un reto significativo al gestionar conjuntos de datos complejos que abarcan múltiples áreas como finanzas, recursos humanos y seguridad. Estos datos, a menudo almacenados en diversas plataformas, requieren de conocimientos especializados para su recuperación efectiva. Sin embargo, gracias a los avances en inteligencia artificial generativa, se ha desarrollado una innovadora tecnología de conversión de lenguaje natural a SQL (NL2SQL) que busca facilitar el acceso a estas bases de datos. No obstante, un análisis más detallado ha mostrado que la conversión precisa de consultas en lenguaje natural a SQL complejo aún representa un desafío considerable.
Una de las principales dificultades radica en que los esquemas de las bases de datos están optimizados más para el almacenamiento que para la recuperación, lo que implica que las consultas suelen ser intrincadas y pueden involucrar estructuras anidadas y datos multidimensionales. Para mitigar estos problemas, los equipos de AWS y Cisco han implementado un enfoque que reduce el procesamiento necesario para la generación de SQL. Esto posibilita el uso de modelos generativos más simples y económicos, mejorando así la facilidad de acceso a la información empresarial.
Los retos específicos de NL2SQL a nivel empresarial abarcan la complejidad de los esquemas de bases de datos, la variabilidad de las consultas en lenguaje natural y las limitaciones inherentes al conocimiento de los modelos de lenguaje. Además, la atención demandada por estos modelos puede agravar los tiempos de latencia en la generación de consultas, lo que conlleva a un problema adicional de inexactitud en los resultados.
La metodología propuesta por los equipos de AWS y Cisco se centra en restringir su enfoque a dominios de datos específicos, lo que simplifica la construcción de prompts para los modelos generativos. Este enfoque permite optimizar el uso de los recursos de la base de datos al identificar correctamente las entidades mencionadas en las consultas de los usuarios, transformándolas en identificadores únicos. De esta manera, se facilita la generación de consultas SQL más precisas y menos complejas.
Las pruebas realizadas con este nuevo enfoque han demostrado que es posible alcanzar altos niveles de precisión y consistencia en la generación de SQL, así como una escalabilidad mejorada. Este avance representa un cambio significativo en la forma en que las empresas pueden manejar y recuperar datos valiosos de manera eficiente. En resumen, el desarrollo de esta metodología tiene el potencial de transformar el acceso a la información dentro de las organizaciones, haciéndolo más seguro y eficaz.