Anthropic ha lanzado una capacidad innovadora denominada «uso de computadoras», que permite a sus modelos fundamentales interpretar y entender visualmente interfaces digitales. Esta tecnología permite que los modelos Claude de Anthropic identifiquen lo que se muestra en una pantalla, reconociendo tanto el contexto de los elementos de la interfaz de usuario (UI) como las acciones que se pueden llevar a cabo, tales como hacer clic en botones, redactar texto o navegar entre distintas aplicaciones. No obstante, para llevar a cabo estas acciones, el modelo requiere de una capa de orquestación que garantice su implementación de manera segura.
Este nuevo soporte está disponible a través de Amazon Bedrock Agents, utilizando los modelos Claude 3.5 Sonnet V2 y Claude Sonnet 3.7. La alianza entre las capacidades de percepción visual de Anthropic y la gestión de Amazon Bedrock promete ofrecer una herramienta eficaz y trazable para la automatización de tareas en diversos flujos de trabajo.
Las empresas de distintos sectores enfrentan desafíos al intentar automatizar tareas repetitivas que involucran múltiples aplicaciones y sistemas. Actividades como el procesamiento de facturas o la actualización de registros de clientes a menudo requieren la transferencia manual de información, lo que consume tiempo y puede generar errores. Métodos tradicionales de automatización suelen requerir integraciones de API personalizadas, lo que representa una carga importante de desarrollo. Con la nueva funcionalidad de uso de computadoras, se abre un nuevo horizonte que permite a las máquinas percibir las interfaces tal como lo haría un ser humano.
Un ejemplo de esta innovación es la funcionalidad de un agente de uso de computadora, que muestra la necesidad de la capa de orquestación para convertir la capacidad perceptual en automatización operativa. Sin esta capa, el uso de computadora solo podría identificar acciones potenciales sin llevarlas a cabo. El demostrador de este agente ofrece un entorno de ejecución seguro, conserva un registro detallado de cada movimiento realizado y facilita la trazabilidad, además de simplificar el proceso de pruebas y experimentación.
Ahora, con la integración de esta funcionalidad en Amazon Bedrock Agents, es posible automatizar tareas utilizando acciones básicas de interfaces gráficas de usuario (GUI) y comandos de Linux. Un agente puede realizar capturas de pantalla, crear y editar documentos de texto, e incluso ejecutar comandos de Linux, lo que incluye herramientas para interactuar con interfaces de usuarios y comandos de Bash.
El flujo de trabajo de uso de computadoras implica crear un agente, definir sus interacciones, agregar acciones admitidas y activar el agente con una consulta del usuario que requiera estas herramientas. El agente evalúa las definiciones disponibles y decide la acción más adecuada a realizar, procesando y ejecutando dicha acción en un entorno seguro.
Con estos avances, los desarrolladores tienen la oportunidad no solo de automatizar tareas de manera más eficiente, sino también de hacerlo con una trazabilidad que potencia la optimización de flujos de trabajo empresariales. Utilizando Amazon Bedrock Agents, las organizaciones pueden abordar tareas complejas como la gestión de facturas y la documentación de recursos humanos con mayor eficacia.
En suma, la integración de la capacidad de uso de computadoras en Amazon Bedrock Agents promete revolucionar la forma en que las organizaciones automatizan flujos de trabajo complejos, eliminando la necesidad de desarrollar APIs personalizadas para cada aplicación y facilitando una rápida implementación de soluciones de automatización. Las perspectivas son amplias y prometedoras, llevando las operaciones empresariales hacia un nivel superior de eficiencia e innovación.