El entrenamiento de grandes modelos de lenguaje (LLMs) se ha convertido en una de las principales preocupaciones para las empresas, debido al alto costo que representa. Ante esta situación, cada vez más organizaciones están optando por adaptar modelos fundacionales a sus necesidades específicas de datos, pero muchas descubren que el ajuste fino completo de estos modelos resulta poco rentable. Para abordar esta problemática y continuar beneficiándose de la inteligencia artificial, las empresas están adoptando técnicas de Ajuste Fino Eficiente en Parámetros (PEFT). Estas metodologías permiten afinar modelos LLM preentrenados para tareas concretas, actualizando únicamente un número limitado de parámetros, lo que reduce significativamente los descartes económicos.
Entre las estrategias más efectivas se encuentran la Adaptación de Bajo Rango (LoRA) y la Adaptación de Bajo Rango Descompuesta Ponderada (DoRA), las cuales han demostrado ser claves en la optimización del entrenamiento, ya que permiten que se reduzca el número de parámetros requeridos para el ajuste, disminuyendo así los costos asociados. Sin embargo, los retos técnicos que presentan el ajuste fino de LLM a gran escala son considerables. La complejidad de establecer un entorno de entrenamiento distribuido requiere habilidades especializadas en gestión de servidores y redes, lo que frecuentemente puede desviar recursos valiosos del desarrollo de inteligencia artificial.
Para simplificar este proceso, Amazon Web Services (AWS) lanzó Amazon SageMaker HyperPod a finales de 2023, una herramienta diseñada específicamente para acelerar el entrenamiento de modelos generativos a gran escala. SageMaker HyperPod facilita el entrenamiento distribuido al supervisar automáticamente la salud de los clústeres, reemplazando nodos defectuosos y reanudando el proceso de entrenamiento desde puntos de control. Su infraestructura preconfigurada incluye bibliotecas de entrenamiento distribuido, permitiendo que el modelo y los datos se dividan entre miles de nodos, aprovechando al máximo la capacidad de computación del clúster.
Además, los chips Trainium de AWS, creados para el entrenamiento de modelos de más de 100 mil millones de parámetros, junto con el Neuron SDK, ofrecen herramientas que facilitan un aprendizaje profundo eficiente y rentable. La integración de estos chips con modelos existentes se logra a través del paquete Optimum-Neuron de Hugging Face, que permite la aplicación de técnicas como LoRA para el ajuste fino.
A diferencia del ajuste fino tradicional, que requiere modificar todos los parámetros de un modelo, los enfoques PEFT como LoRA introducen un número mucho menor de parámetros entrenables. Esto se realiza frecuentemente en forma de matrices de bajo rango que ajustan el comportamiento del modelo, manteniendo la mayoría de los parámetros sin cambios. Esta estrategia permite conservar el rendimiento del modelo original mientras se minimizan las necesidades computacionales y de memoria.
Para implementar un ajuste fino de un modelo Meta Llama 3 empleando PEFT en Trainium y SageMaker HyperPod, es necesario seguir varios pasos, que comprenden la configuración de un clúster HyperPod para el entrenamiento distribuido, el ajuste del modelo sobre un conjunto de datos y la posterior consolidación e inferencia de los pesos del modelo. Los resultados revelan que al utilizar LoRA, las empresas pueden reducir sus costos hasta en un 50% y disminuir hasta un 70% el tiempo de entrenamiento, ofreciendo una propuesta económica atractiva que optimiza el uso de tecnologías avanzadas en el aprendizaje profundo.