Ejecutar Qwen 2.5 en Chips de IA de AWS con Bibliotecas de Hugging Face

Elena Digital López

En un avance notable en el ámbito de los modelos de lenguaje, se han introducido los modelos Qwen 2.5, una colección de modelos generativos preentrenados diseñados para seguir instrucciones, disponibles en diversas configuraciones que oscilan entre 0.5B y 72B de parámetros. Estos modelos están optimizados para aplicaciones de diálogos multilingües, superando tanto a sus predecesores en la serie Qwen como a muchos modelos de chat actualmente disponibles en el mercado, según los estándares establecidos por la industria.

La arquitectura de los modelos Qwen 2.5 se basa en un enfoque autorregresivo que utiliza una arquitectura de transformador optimizada. Esta nueva colección es capaz de atender más de 29 idiomas y ha incrementado sus habilidades en la interpretación de roles y el establecimiento de condiciones, lo que aumenta su aplicabilidad en el desarrollo de chatbots.

Para facilitar la implementación de estos modelos, se han elaborado guías detalladas que explican cómo desplegarlos utilizando instancias de Inferentia a través de Amazon Elastic Compute Cloud (Amazon EC2) y Amazon SageMaker. Estas guías integran la herramienta Text Generation Inference (TGI) de Hugging Face y la biblioteca Optimum Neuron, que actúa como intermediario entre la biblioteca Transformers y los aceleradores Inferentia y Trainium de AWS.

Los despliegues pueden realizarse en instancias EC2 inf2 o en SageMaker. En el caso de EC2, se recomienda que los usuarios se conecten a la instancia mediante SSH y establezcan archivos de configuración que definan constantes y parámetros de entorno, asegurando el funcionamiento óptimo del modelo. Por su parte, SageMaker permite una implementación más ágil directamente desde su consola de gestión.

Ambas opciones incluyen procesos para verificar que el modelo opere correctamente, lo que incluye realizar solicitudes de prueba en diferentes idiomas para evidenciar su capacidad multilingüe.

Es crucial que las empresas que utilicen estas instancias y servicios los terminen tras su uso para evitar costos adicionales. AWS proporciona también documentación exhaustiva para ayudar a los usuarios a gestionar de forma efectiva los recursos y llevar a cabo implementaciones exitosas con estos modelos avanzados.

Con la llegada de Qwen 2.5, se abre un abanico de posibilidades para el desarrollo de aplicaciones de inteligencia artificial, especialmente en contextos que requieren una interacción multilingüe y diálogos complejos, lo que contribuye a la evolución continua del procesamiento del lenguaje natural en el panorama tecnológico actual.