Amazon SageMaker Amplía Capacidades de Inferencia con Soporte para Instancias G6e

X (Twitter) Facebook Pinterest Email WhatsApp

En el mundo de la inteligencia artificial, la demanda por herramientas más avanzadas y eficientes continúa creciendo a un ritmo vertiginoso. En respuesta a esta necesidad, Amazon SageMaker ha lanzado recientemente las instancias G6e, que incorporan las potentes GPUs NVIDIA L40S Tensor Core. Este avance permite a las organizaciones acceder a nodos equipados con 1, 4 y hasta 8 GPUs, cada una con 48 GB de memoria de alta capacidad de datos (HBM). Esta nueva oferta promete ser una solución más flexible y económica para quienes buscan obtener un rendimiento óptimo en tareas de inferencia sin comprometer el presupuesto.

Las instancias G6e ofrecen el doble de memoria GPU en comparación con sus predecesoras G5 y G6, lo que amplía significativamente las capacidades de despliegue de modelos de lenguaje grande. Ahora, es posible ejecutar un modelo de 14 mil millones de parámetros en un solo nodo de GPU, uno de 72 mil millones en un nodo de 4 GPUs, y hasta 90 mil millones de parámetros en un nodo de 8 GPUs. La mejora no se limita a la memoria, ya que estas instancias también proporcionan un rendimiento de red de hasta 400 Gbps y hasta 384 GB de memoria GPU, lo que se traduce en una capacidad y velocidad que marcan la diferencia.

Diseñadas para ajustar y desplegar modelos de lenguaje grandes, las instancias G6e se destacan por su eficacia en costos y su aptitud para aplicaciones de baja latencia y en tiempo real, como en el caso de chatbots y modelos de visión e inteligencia artificial conversacional. Comparadas con las instancias anteriores, las G6e han demostrado ofrecer hasta un 37% mejor latencia y un 60% mejor rendimiento en pruebas con modelos como el Llama 3.1 8B, manejando eficientemente longitudes de contexto extensas.

Un aspecto destacable es su capacidad para administrar modelos de gran escala sin los problemas de memoria que afectaban a modelos anteriores, como quedó evidenciado en el despliegue del modelo LLama 3.2 11B Vision. Además, las G6e proveen un ahorro significativo en costes por cada 1000 tokens procesados de un modelo de gran capacidad como el Llama 3.1 70b.

En resumen, las instancias G6e de Amazon SageMaker presentan una propuesta convincente para empresas que necesitan escalar aplicaciones de inteligencia artificial al tiempo que optimizan rendimiento y costos. Con sus mejoras en memoria, superioridad en rendimiento y enfoque económico, estas instancias se convierten en un recurso valioso para el avance de aplicaciones de inteligencia artificial modernas.