Optimiza tus Costes de Entrenamiento de ML con Amazon SageMaker HyperPod

Elena Digital López

El entrenamiento de modelos avanzados de inteligencia artificial, como el Llama 3 con 70 mil millones de parámetros, representa un reto significativo para la computación contemporánea. Este proceso, que exige grandes recursos, necesita de sistemas distribuidos capaces de integrar cientos o incluso miles de instancias, funcionando durante semanas o meses para completar un único proyecto. Por ejemplo, el preentrenamiento del modelo Llama 3 requirió 6.5 millones de horas de GPU H100 y 15 billones de tokens de entrenamiento. En un sistema que use 256 instancias de Amazon EC2 P5, cada una con 8 GPUs NVIDIA H100, el tiempo estimado para completar el entrenamiento sería de aproximadamente 132 días.

En este contexto, los trabajos de entrenamiento distribuidos requieren que todos los participantes realicen sus cálculos de manera sincrónica, lo que implica que el fallo de una sola instancia puede frenar todo el proceso. Con el aumento del tamaño del clúster, la probabilidad de fallos también crece, dado que hay más componentes de hardware involucrados. Cada fallo no solo provoca la pérdida de horas de GPU, sino que también consume un tiempo valioso de ingeniería para identificar y solucionar el problema, lo que conlleva a períodos de inactividad que obstaculizan el avance.

Los ingenieros suelen basar su evaluación de fiabilidad en métricas como el tiempo medio entre fallos (MTBF), que estima el tiempo promedio de operación entre fallos de hardware. Para entender la MTBF típica en el entrenamiento de modelos de gran escala, se han documentado casos representativos. Por ejemplo, durante el entrenamiento del modelo OPT-175B por parte de Meta AI, se registraron 35 reinicios manuales y más de 70 reinicios automáticos en dos meses, resultando en una tasa de fallo de 0.0588% por hora. En otro caso, el entrenamiento del Llama 3.1 en 16,000 GPUs H100 experimentó 417 fallos no programados en 54 días, con una tasa aproximada de 0.0161% por hora.

La fiabilidad también se ve afectada por el tamaño del clúster; a medida que aumenta, la entropía del sistema crece y el MTBF tiende a disminuir. Con una tasa de fallo de 0.04% por hora, un sistema de 512 instancias podría esperar un fallo aproximadamente cada cinco horas, un desafío considerable para los equipos de ingeniería.

Cuando ocurre un fallo, el proceso de resolución puede ser extenso. Se inicia con un análisis de la causa raíz, seguido de reparaciones o reemplazos del hardware y la recuperación del sistema. La detección rápida de fallos y tiempos de sustitución cortos son fundamentales para minimizar el tiempo total de entrenamiento. Aquí es donde Amazon SageMaker HyperPod se presenta como una solución efectiva, ya que reduce las interrupciones y costos asociados en estos entornos complejos. Esta plataforma optimiza la detección y sustitución de instancias defectuosas, permitiendo reanudar el entrenamiento desde el último punto guardado, lo que mejora significativamente la eficiencia operativa.

Estudios empíricos muestran que SageMaker HyperPod podría disminuir el tiempo total de entrenamiento en un 32% en un clúster de 256 instancias con una tasa de fallo del 0.05%, lo cual se traduce en un ahorro aproximado de 25 millones de dólares en costos de entrenamiento para proyectos que requieren 10 millones de horas de GPU.

Dada la complejidad y los recursos imprescindibles para entrenar modelos avanzados, es crucial que las empresas hallen soluciones eficientes que les permitan enfocarse en la innovación y no en la gestión de infraestructura. SageMaker HyperPod proporciona a los equipos de inteligencia artificial la confianza necesaria para llevar a cabo entrenamientos prolongados, sabiendo que cualquier fallo de hardware será detectado y solucionado automáticamente, minimizando interrupciones en sus cargas de trabajo de aprendizaje automático.