Innovación en Creación Automática de Vídeos Doblados Utilizando Amazon Translate, Bedrock y Polly

Video auto-dubbing using Amazon Translate, Amazon Bedrock, and Amazon Polly

El proceso de doblaje de video o la localización de contenidos consiste en reemplazar el idioma original hablado en un video por otro idioma, sincronizando audio y video. Este método se ha convertido en una herramienta esencial para superar barreras lingüísticas, aumentar la participación de la audiencia y expandir el alcance del mercado. Sin embargo, los métodos tradicionales de doblaje son costosos y requieren mucho tiempo, con un costo aproximado de $20 por minuto con la intervención de un revisor humano. Aquí es donde el doblaje automático mediante inteligencia artificial generativa encuentra su utilidad, proporcionando una solución asequible y eficiente para los creadores.

En este contexto, se ha desarrollado una solución económica para el doblaje automático de video. Utilizando Amazon Translate para la traducción inicial de los subtítulos del video y Amazon Bedrock para la post-edición, se mejora significativamente la calidad de la traducción. Amazon Translate, un servicio de traducción automática neuronal, ofrece traducciones rápidas, de alta calidad y asequibles. Por otro lado, Amazon Bedrock es un servicio de gestión que proporciona una selección de modelos fundacionales de alto rendimiento de empresas líderes en IA mediante una API única. Estos modelos facilitan la creación de aplicaciones de IA generativa con seguridad, privacidad y responsabilidad.

MagellanTV, una plataforma líder de transmisión de documentales, está tratando de ampliar su presencia global a través de la internacionalización de sus contenidos. Ante los desafíos del doblaje manual y los altos costos, MagellanTV recurrió a Mission Cloud, un socio del nivel Premier de AWS, para una solución innovadora.

La solución de Mission Cloud destaca por su detección idiomática y reemplazo automático, escalado de tiempo automático sin interrupciones y capacidades de procesamiento por lotes eficientes y escalables. El proceso comienza con la especificación de entradas por parte del usuario en una plantilla de Excel que se carga en un bucket de Amazon S3 designado, desencadenando así toda la tubería. Los resultados finales incluyen un archivo de video doblado y un archivo de subtítulos traducidos.

Amazon Translate se utiliza para traducir los subtítulos del video y Amazon Bedrock mejora la calidad de la traducción y habilita el escalado de tiempo automático para sincronizar audio y video. Amazon Augmented AI se emplea para que los editores revisen el contenido, el cual se envía luego a Amazon Polly para generar voces sintéticas para el video. Además, se desarrolló un modelo para predecir la expresión de género del hablante y asignar una expresión de género que coincida con el orador.

En el backend, AWS Step Functions orquesta los pasos anteriores como una tubería, y cada paso se ejecuta en AWS Lambda o AWS Batch. Gracias a la herramienta de infraestructura como código (IaC) AWS CloudFormation, la tubería se vuelve reutilizable para el doblaje de nuevos idiomas extranjeros.

Amazon Translate fue seleccionado por tres factores clave: su soporte para más de 75 idiomas, la buena precisión de la traducción validada por profesionales y sus beneficios únicos como la capacidad de agregar glosarios terminológicos personalizados.

Amazon Bedrock se utiliza para la post-edición, mejorando la calidad de los subtítulos del video después de la traducción inicial de Amazon Translate. La detección y reemplazo de expresiones idiomáticas son especialmente útiles en géneros con más conversación casual. Por ejemplo, para géneros científicos que tienen menos idioms, se puede desactivar esta función. Para géneros más informales, esta función se activa.

El algoritmo de acortamiento de oraciones desarrollado con Amazon Bedrock mejora significativamente el rendimiento del doblaje de video y reduce el esfuerzo de revisión humana, resultando en un ahorro de costos.

Esta nueva y en constante desarrollo tubería ha sido un avance revolucionario para MagellanTV, ya que ha resuelto eficazmente algunos desafíos comunes dentro de las empresas de medios y entretenimiento. La tubería única desarrollada por Mission Cloud crea nuevas oportunidades para distribuir contenido a nivel mundial, ahorrando costos mediante el uso de IA generativa en conjunto con soluciones brillantes para la detección y resolución de idioms, acortamiento de oraciones y terminología y tono personalizados.