Ejecutar Modelos DeepSeek R1 de Running Distilled Localmente en PCs Copilot+ con el Impulso de Windows Copilot Runtime

X (Twitter) Facebook Pinterest Email WhatsApp

La inteligencia artificial sigue marcando un camino de innovación y transformación en el ámbito de la tecnología, especialmente con el advenimiento de los PCs Copilot+. Estos dispositivos se están equipando con la última versión de DeepSeek R1, ahora disponible en Azure AI Foundry. Este avance incluye modelos optimizados específicamente para funcionar con unidades de procesamiento neural (NPU), comenzando con el Qualcomm Snapdragon X y en camino a incluir versiones para Intel Core Ultra 200V, entre otros.

El modelo inicial que se podrá utilizar es el DeepSeek-R1-Distill-Qwen-1.5B, accesible a través del AI Toolkit. En poco tiempo, se incorporarán variaciones de 7B y 14B, ampliando las opciones para desarrolladores que buscan integrar inteligencia artificial en sus aplicaciones. Estos modelos están diseñados para ofrecer un rendimiento excepcional en los dispositivos, aprovechando la capacidad de las NPUs para realizar inferencias de manera eficaz. Esto representa un paso hacia un nuevo paradigma en el que la IA generativa puede funcionar de manera semi-contínua, brindando servicios sin la necesidad de activarse exclusivamente bajo demanda.

El desarrollo de Phi Silica ha sido clave en este contexto, propiciando un reconocimiento más eficiente que permite tiempos de respuesta competitivos y una notable reducción en el consumo de recursos, manteniendo al mismo tiempo una duración óptima de la batería. Al optimizar el DeepSeek para las NPUs, se han implementado técnicas como la separación de componentes del modelo y la cuantización de baja tasa de bits, equilibrando así el rendimiento y la eficiencia.

Los desarrolladores interesados pueden comenzar a experimentar con DeepSeek en sus PCs Copilot+ mediante la descarga de la extensión de AI Toolkit para Visual Studio Code. Además, tendrán acceso a un catálogo de modelos optimizados en formato ONNX QDQ, lo que facilitará su integración en proyectos de inteligencia artificial. También se brinda la opción de probar el modelo fuente a través de la nube en Azure Foundry.

El modelo Qwen 1.5B presenta características mejoradas, incluyendo un tokenizador, modelos de procesamiento de contexto y un esquema de cuantización avanzado. Esto permite que el modelo funcione de manera extremadamente rápida, con un tiempo de respuesta de solo 130 ms y una capacidad para generar 16 tokens por segundo en respuestas cortas. Estos logros son el resultado de un diseño ingenioso que utiliza una ventana deslizante y técnicas de cuantización que superan los métodos anteriores en términos de precisión.

Con estas innovaciones, los usuarios podrán interactuar con modelos de inteligencia artificial de última generación en sus dispositivos personales, transformando la forma en que las aplicaciones de IA se desarrollan y utilizan. Esta evolución promete redefinir la experiencia del usuario en el ámbito de la tecnología personal.