En el evento AWS re:Invent 2024, Amazon Web Services ha presentado una innovadora funcionalidad para su plataforma Amazon SageMaker: Container Caching. Esta nueva herramienta ha sido desarrollada para optimizar la velocidad de escalado de modelos de inteligencia artificial generativa durante la fase de inferencia, un área que se ha vuelto cada vez más compleja debido al incremento en tamaño y complejidad de dichos modelos y los contenedores en los que se alojan. Con esta innovación, AWS afronta el desafío de maximizar la eficiencia en el despliegue y escalado de estos potentes sistemas de inteligencia artificial.
El Container Caching promete reducir significativamente la latencia asociada al autoescalado de modelos de IA. Las proyecciones indican una disminución de hasta un 56% en el tiempo de latencia para el escalado de una copia de un modelo existente y hasta un 30% al incorporar un modelo a una nueva instancia. Estos beneficios pueden observarse en diversos tipos de contenedores de aprendizaje profundo ofrecidos por SageMaker, como son los contenedores de Inferencia de Modelos Grandes (LMI), PyTorch, NVIDIA Triton y Hugging Face TGI.
Es crucial entender el impacto de optimizar los tiempos de inicio de los contenedores, ya que de esta manera se asegura que los usuarios finales no enfrenten problemas de rendimiento ante un aumento en la demanda de inferencia. Anteriormente, el proceso de descarga de imágenes de contenedores desde Amazon Elastic Container Registry podía tardar varios minutos, un tiempo de espera inaceptable durante picos de tráfico. Con la nueva función de pre-almacenamiento en caché, se elimina esta espera, permitiendo un escalado mucho más rápido durante eventos de demanda alta y favoreciendo un uso más eficiente de los recursos computacionales, entre ellos los valiosos y limitados recursos de GPU.
Las pruebas realizadas con esta innovación han mostrado mejoras significativas y constantes. Por ejemplo, al desplegar el modelo Llama3.1 70B, el tiempo total de escalado se redujo de 379 segundos (6.32 minutos) a solo 166 segundos (2.77 minutos), representando una mejora del 56%. Este avance permite gestionar los picos de tráfico de manera más eficiente y predecible, reduciendo el impacto en la latencia para el usuario final en toda la infraestructura de aprendizaje automático que ofrece AWS.
Container Caching se activa automáticamente para los Contenedores de Aprendizaje Profundo compatibles con SageMaker, garantizando a los usuarios un acceso inmediato a los entornos más recientes y optimizados para sus modelos. Esto se traduce no solo en una mejora considerable en la agilidad del escalado sino también en una potencial reducción de costos debido a la disminución del tiempo de inactividad y un uso más racional de los recursos. Con esta mejora, AWS reafirma su posición de liderazgo en el soporte a la inferencia de IA generativa, facilitando no solo su implementación sino también su operación continua bajo la infraestructura de SageMaker.