Personalización de Modelos Destilados DeepSeek-R1 con Recetas de HyperPod en Amazon SageMaker: Introducción a la Parte 1

Elena Digital López

Cada vez más, las organizaciones de diversas industrias están optando por modelos de inteligencia artificial generativa (IA), como los modelos de fundación (FMs), para mejorar sus aplicaciones. La necesidad de personalizar estos modelos según requisitos específicos de su dominio se ha vuelto crucial, especialmente con la aparición de nuevos modelos como los lanzados por DeepSeek.

Sin embargo, la personalización efectiva de estos modelos de DeepSeek, mientras se gestionan recursos computacionales, representa un desafío significativo. Ajustar la arquitectura del modelo requiere una considerable pericia técnica y habilidades para entrenar y ajustar parámetros, lo que a menudo obliga a las empresas a elegir entre el rendimiento del modelo y las limitaciones prácticas de implementación. Esto ha derivado en una demanda crítica por soluciones más accesibles y simplificadas para la personalización de modelos.

Recientemente, se ha discutido en una serie de dos partes cómo reducir la complejidad de la personalización de modelos de DeepSeek utilizando flujos de trabajo de ajuste fino preconstruidos, conocidos como «recetas», disponibles para el modelo DeepSeek-R1 y sus variaciones destiladas, en el contexto de Amazon SageMaker HyperPod. En la primera entrega, se presenta una arquitectura de solución para el ajuste fino de modelos destilados de DeepSeek-R1, mostrando un ejemplo detallado de personalización utilizando el modelo DeepSeek-R1 Distill Qwen 7b. Este proceso ha logrado un promedio del 25% en todas las puntuaciones ROUGE, alcanzando un impresionante 49% en la puntuación ROUGE-2, gracias al uso de Amazon SageMaker HyperPod y los trabajos de formación de SageMaker.

La disponibilidad de las recetas de Amazon SageMaker HyperPod está democratizando el acceso a estas herramientas avanzadas, permitiendo a científicos de datos y desarrolladores de diversas habilidades comenzar a entrenar y ajustar modelos de IA generativa en minutos. Estas recetas facilitan tareas críticas, como la carga de conjuntos de datos de entrenamiento y la aplicación de técnicas de entrenamiento distribuidas, eliminando así gran parte del trabajo tedioso que tradicionalmente acompaña a los experimentos con configuraciones de modelos.

El diseño modular de la arquitectura también permite la escalabilidad y la flexibilidad, lo que la hace particularmente eficaz para entrenar modelos de lenguaje de gran tamaño que requieren capacidades de computación distribuidas. Se han liberado nuevas recetas que permiten ajustar seis modelos de DeepSeek, implementando técnicas de ajuste fino supervisado y adaptaciones de bajo rango.

En un caso práctico del sector salud, se plantea un uso innovador para crear una aplicación de asistencia médica que explique información compleja de forma amigable al paciente. El ajuste fino del modelo DeepSeek-R1 Distill Qwen 7b, utilizando un conjunto de datos médico específico, resulta vital para lograr que las respuestas se mantengan alineadas con el rigor clínico necesario.

Al final del ciclo de ajuste, se observa un notable incremento en la eficiencia del modelo adaptado, alcanzando mejores puntuaciones en las métricas ROUGE, lo que sugiere que futuras extensiones en la duración del entrenamiento podrían generar aún mayores ganancias en rendimiento. Esta serie subraya no solo la innovación en la personalización de IA, sino también el potencial de optimizar el uso de recursos computacionales en entornos empresariales.