Durante la conferencia AWS re:Invent 2024, Amazon Web Services (AWS) presentó una mejora significativa en Amazon SageMaker HyperPod, que ahora opera en conjunto con Amazon Elastic Kubernetes Service (EKS). Gracias a esta integración, las empresas podrán llevar a cabo tareas de desarrollo de inteligencia artificial generativa de manera más eficiente, utilizando recursos de computación acelerada compartidos, lo que podría traducirse en un ahorro de costos de hasta el 40%.
La nueva gobernanza de tareas de SageMaker HyperPod permite a los administradores gestionar la asignación de dichos recursos a diferentes equipos y proyectos, además de establecer políticas que prioricen diversas tareas. De este modo, las organizaciones pueden concentrarse en impulsar la innovación en inteligencia artificial generativa y acelerar el tiempo para llevar productos al mercado, eliminando la necesidad de lidiar con la complejidad que implica coordinar la distribución de recursos.
AWS también compartió mejores prácticas para maximizar el valor de SageMaker HyperPod, asegurando que tanto la experiencia de administración como la de los científicos de datos sea óptima. Uno de los aspectos más destacados es la capacidad de administración del cómputo, donde los administradores tienen la flexibilidad de establecer asignaciones específicas para cada equipo, determinando las tareas que realizan y su prioridad respecto a otros grupos. La implementación de estrategias de peso y cuota permite gestionar de manera efectiva el uso del recurso compartido.
La observabilidad del sistema se ha mejorado significativamente gracias a un nuevo tablero que muestra la utilización de recursos, otorgando a los administradores una visión clara del rendimiento del cluster. Además, es posible integrar herramientas como Amazon Managed Prometheus y Grafana para realizar análisis más profundos.
Por su parte, los científicos de datos podrán asegurarse de tener un acceso adecuado y un mayor control dentro de esta infraestructura. Con la introducción de roles basados en control de acceso, los equipos podrán gestionar mejor sus permisos, lo que les permitirá enviar tareas con las priorizaciones adecuadas. Asimismo, se han presentado herramientas como HyperPod CLI, que simplifican la interacción con el sistema y permiten a los usuarios experimentar y ajustar sus tareas de forma más ágil.
SageMaker HyperPod no solo mejora la eficiencia en el uso de recursos, sino que también ofrece escenarios prácticos que ilustran cómo empresas y startups pueden optimizar la utilización de sus recursos y disminuir los tiempos de espera en las tareas. Diseñado con escalabilidad y eficiencia en mente, este sistema se perfila como un gran aliado para quienes desarrollan soluciones avanzadas de inteligencia artificial en la nube.