Hoy se ha anunciado el esperado lanzamiento de la versión 15 del contenedor de Amazon SageMaker Large Model Inference (LMI), que incorpora la versión 0.8.4 de vLLM y añade soporte para el motor vLLM V1. Esta actualización incluye la compatibilidad con los modelos de código abierto más recientes, tales como Llama 4 de Meta, Scout y Maverick, Gemma 3 de Google, Qwen de Alibaba, Mistral AI y DeepSeek-R, entre otros. Con esta evolución, Amazon SageMaker AI busca satisfacer la creciente demanda en rendimiento y grandes capacidades de inferencia en inteligencia artificial generativa.
Entre las mejoras destacadas se encuentra un notable aumento en el rendimiento y una mayor compatibilidad con modelos multimodales, lo que significa que el sistema es capaz de entender y analizar eficientemente datos de texto a texto, de imágenes a texto y viceversa. La integración incorporada con vLLM facilita no solo el despliegue, sino también el servicio de modelos de lenguaje de gran tamaño (LLMs) con un rendimiento óptimo a gran escala.
El lanzamiento introduce un nuevo modo asíncrono que se conecta directamente con el motor AsyncLLMEngine de vLLM, mejorando significativamente el manejo de solicitudes. Esta funcionalidad permite gestionar múltiples solicitudes concurrentes y transmitir salidas con un rendimiento superior al de la implementación de Rolling-Batch que ofrecía la versión 14.
El motor vLLM V1 promete un aumento de rendimiento de hasta un 111% en comparación con su predecesor V0, especialmente en situaciones de alta concurrencia y modelos más pequeños. Esto se ha logrado mediante la reducción de la carga de CPU, la optimización de los caminos de ejecución y un uso más eficiente de los recursos del sistema. Aunque la versión 15 de LMI ya está configurada para utilizar el motor V1 por defecto, los usuarios tienen la opción de regresar al V0 si así lo requieren.
Además, se ha ampliado el soporte de esquemas de API, ofreciendo tres opciones flexibles para facilitar la integración con aplicaciones que utilizan patrones de API populares. También se han implementado optimizaciones específicas para modelos que combinan visión y lenguaje, incluyendo un eficiente almacenamiento en caché multiplataforma.
La lista de modelos soportados en LMI v15 abarca, entre otros, a Llama 4 y Gemma 3, que pueden desplegarse especificando su ID correspondiente. Las pruebas comparativas del motor V1 han demostrado ventajas de rendimiento que varían entre el 24% y el 111%, dependiendo del modelo utilizado.
Este nuevo contenedor de Amazon SageMaker LMI representa un avance significativo en las capacidades de inferencia de grandes modelos. Con el renovado motor vLLM V1, el nuevo modo de operación asíncrono y un mayor soporte para modelos, se invita a los usuarios interesados a explorar las nuevas posibilidades que ofrece esta actualización para el despliegue de sus modelos de inteligencia artificial generativa.