La transformación digital impulsada por la inteligencia artificial (IA) ha comenzado a marcar un nuevo rumbo en múltiples sectores, siendo las telecomunicaciones uno de los más beneficiados. Fastweb, un destacado operador de telecomunicaciones en Italia, ha comprendido el potencial de las tecnologías de IA desde 2019, año en que se embarcó en una ambiciosa inversión en este ámbito. La compañía se propuso desarrollar un modelo de lenguaje extenso (LLM) entrenado con datos en italiano, buscando proporcionar esta capacidad de IA a terceros.
El proceso de formación de un LLM es intensivo en recursos computacionales y complejo, lo que llevó a Fastweb a optar por los servicios de IA generativa y aprendizaje automático de Amazon Web Services (AWS), específicamente Amazon SageMaker HyperPod. Esta solución permite la provisión y mantenimiento de clústeres de computación de gran escala, utilizando miles de aceleradores, como AWS Trainium y unidades de procesamiento gráfico (GPU) de NVIDIA. Esta tecnología ofrece la flexibilidad de implantar clústeres pequeños que optimizan la utilización de recursos y gestionan costos de manera efectiva.
Un desafío clave que enfrentó Fastweb fue la escasez de conjuntos de datos de calidad en italiano. Para superar este obstáculo, la compañía desarrolló un extenso conjunto de datos a partir de fuentes públicas y mediante la adquisición de datos licenciados de editoriales y medios de comunicación. En su primer experimento de ajuste con el modelo Mistral 7B, Fastweb logró adaptar este modelo de referencia en el mercado para realizar tareas como la resumición, la respuesta a preguntas y la escritura creativa en italiano, todo ello manteniendo un entendimiento matizado de la cultura italiana.
La estrategia de ajuste fino se llevó a cabo en AWS por diversas razones, destacando la eficiencia en la preparación de datos y la posibilidad de obtener resultados tempranos que brindan información valiosa para el desarrollo de modelos en italiano. Fastweb utilizó una combinación de traducción de datasets de inglés a italiano y la generación de datos sintéticos mediante modelos de IA, lo que permitió enriquecer su conjunto de datos, asegurando calidad y diversidad mientras enfrentaban limitaciones en recursos.
El costo computacional de entrenar estos modelos varía según el número de parámetros y la cantidad de datos utilizados. En el caso del Mistral 7B, se necesitaban más de 156 GB de memoria de hardware para su ajuste, sin considerar la memoria adicional para cargar los datos de entrenamiento. Para gestionar esta carga, Fastweb implementó técnicas de entrenamiento distribuido que optimizan el uso de múltiples GPU, facilitando así un procesamiento paralelo que reduce considerablemente el tiempo de entrenamiento.
Una vez completado el proceso, el modelo de lenguaje refinado de Fastweb mostró una mejora notable, con un aumento del 20% en precisión en tareas relacionadas con el italiano y un dominio significativo en áreas como la respuesta a preguntas y el razonamiento básico. Las expectativas para el futuro son altas, ya que Fastweb planea desplegar sus próximos modelos en Amazon Bedrock, lo que les permitirá construir y escalar nuevas soluciones de IA generativa de manera ágil y efectiva.
Al aprovechar las capacidades de Amazon Bedrock, Fastweb no solo busca mejorar su oferta de servicios, sino también liderar la transformación digital en diversas industrias, impulsando así la adopción de soluciones innovadoras basadas en IA. Este enfoque subraya su compromiso con la tecnología, la eficiencia de procesos y el impulso de oportunidades en un entorno cada vez más digitalizado.