La latencia y el costo continúan siendo desafíos significativos en el campo de la inteligencia artificial generativa, especialmente cuando se trabaja con modelos de lenguaje de gran tamaño (LLMs, por sus siglas en inglés). Estos modelos, que operan secuencialmente al predecir un token a la vez, pueden introducir demoras que afectan negativamente la experiencia del usuario. Adicionalmente, la creciente demanda de aplicaciones de inteligencia artificial ha elevado el número de llamadas a estos modelos, poniendo en riesgo los límites presupuestarios de muchas organizaciones y generando presiones financieras.
Para combatir estos problemas, se ha desarrollado una nueva estrategia para optimizar aplicaciones que utilizan LLMs. Con el aumento del interés en soluciones de IA eficientes y económicas, se propone un esquema de almacenamiento en caché de lectura intermedia sin servidor que aprovecha patrones de datos repetidos. Esta solución permite a los desarrolladores guardar y acceder eficientemente a respuestas similares, lo cual mejora la eficiencia y los tiempos de respuesta de sus sistemas. La solución se apoya en Amazon OpenSearch Serverless y Amazon Bedrock, un servicio totalmente gestionado que facilita el acceso a modelos de IA generativa de alto rendimiento con una única API, asegurando seguridad, privacidad y responsabilidad.
En esta estrategia, la caché actúa como un buffer que intercepta las solicitudes en lenguaje natural antes de que alcancen al modelo principal. Almacena consultas que son semánticamente similares, permitiendo una rápida recuperación sin la necesidad de enviar la solicitud al LLM para una nueva generación de respuesta. Esto resulta clave para equilibrar entre aumentar los aciertos de caché y reducir las colisiones.
Por ejemplo, un asistente de IA desarrollado para una empresa de viajes puede enfocarse en maximizar el recuerdo, almacenando más respuestas incluso si hay ocasionales superposiciones de solicitudes. Por otro lado, un asistente utilizado para consultas de agentes requeriría asignaciones precisas para cada solicitud, reduciendo al mínimo los errores.
El sistema de caché implementa una metodología de almacenamiento de incrustaciones vectoriales numéricas para consultas de texto, transformándolas en vectores antes de ser almacenadas. Utilizando modelos de incrustación gestionados por Amazon Bedrock, es posible establecer bases de datos vectoriales con OpenSearch Serverless para mantener un sistema de caché sólido.
La implementación de esta solución no solo mejora los tiempos de respuesta, sino que también reduce significativamente los costos. Los modelos de incrustación suelen ser más asequibles comparados con los modelos de generación, garantizando así una eficiencia de costos en diversos casos de uso.
Esta innovación no solo mejora la eficiencia de los sistemas que utilizan LLMs, sino que también optimiza la experiencia del usuario, permitiendo ajustar umbrales de similitud para equilibrar adecuadamente los aciertos y colisiones en la caché.