Activación de Funcionalidades Multimodales para Phi Silica

Silvia Pastor

Microsoft ha presentado una nueva funcionalidad multimodal para su modelo de lenguaje pequeño, Phi Silica. Este avance está destinado a mejorar la accesibilidad y la productividad en dispositivos Copilot+ que utilizan procesadores Snapdragon, así como en futuros modelos de Intel y AMD. La innovación cuenta con capacidades de comprensión visual, lo que permite que el modelo no solo procese texto, sino que también interprete imágenes, generando descripciones que pueden ser utilizadas por tecnologías de asistencia como lectores de pantalla.

La actualización aprovecha un enfoque eficiente que elimina la necesidad de implementar un modelo de visión dedicado, optimizando así el uso de recursos como el espacio en disco y la memoria. En lugar de ello, la integración se realiza con componentes existentes, incorporando un modelo proyector de 80 millones de parámetros, lo que asegura que el sistema funcione eficazmente sin comprometer el rendimiento de otros modelos ya establecidos.

La nueva funcionalidad multimodal permite generar descripciones de imágenes con diferentes niveles de detalle, lo cual resulta especialmente beneficioso para personas con discapacidades visuales. Este avance no se basa únicamente en modelos en la nube; también realiza uso de capacidades locales, ofreciendo descripciones que son más rápidas y accesibles. En pruebas reales, un modelo de Phi Silica optimizado puede proporcionar descripciones cortas en aproximadamente cuatro segundos y descripciones más detalladas en torno a siete segundos.

Para evaluar la calidad de las descripciones generadas, Microsoft aplica metodologías que comparan la efectividad de este nuevo enfoque con otros modelos de referencia, como Florence. Los resultados han mostrado que las descripciones generadas por Phi Silica son más precisas y completas, ampliando así su utilidad para quienes dependen de estas herramientas.

A medida que se despliega esta funcionalidad, se espera que se añadan más idiomas para mejorar aún más la accesibilidad. Con esta evolución, Microsoft reafirma su compromiso de hacer la tecnología más inclusiva y accesible para todos, especialmente para aquellos que enfrentan barreras en el uso de tecnologías digitales.