Libere la productividad:combine la automatización de la interfaz de usuario con la automatización basada en LLM

Recientemente, varias empresas líderes en inteligencia artificial han lanzado nuevas capacidades que aprovechan sus poderosos modelos de lenguaje grande (LLM) fundamentales para automatizar rápidamente muchas acciones que las personas realizan en las pantallas. Computer Use de Anthropic, Amazon Q Business y el próximo "Operador" OpenAI pueden comprender rápidamente las pantallas, operar el software que se utiliza y emular las acciones deseadas del usuario, sin necesidad de codificación ni capacitación en modelos.

La automatización basada en LLM es una nueva forma de automatizar. Es significativamente diferente de la automatización de la interfaz de usuario, que se basa en modelos entrenados y enfoques basados en reglas para extraer información e interactuar con pantallas, sistemas y software. Debido a que la automatización basada en LLM es mucho más sencilla de usar, algunos observadores de la industria han sugerido que podría reemplazar la automatización de la interfaz de usuario.

Hemos realizado una evaluación exhaustiva de estas nuevas tecnologías y estamos entusiasmados con su potencial para extender el impacto de la automatización entre empresas y usuarios. De hecho, estamos integrando lo mejor de ellos en nuestra plataforma. Debido a que permiten que la IA interactúe con el software de la misma manera que lo hacen los humanos, creemos que realmente pueden revolucionar las interacciones entre las personas y las pantallas. Tienen el potencial de impulsar la productividad personal a nuevas alturas y permitir que prácticamente cualquier persona se convierta en un desarrollador ciudadano para automatizar sus tareas tediosas y repetitivas.

Sin embargo, la automatización basada en LLM nunca reemplazará por completo la automatización de la interfaz de usuario en todos los procesos. Por ejemplo, la automatización de la interfaz de usuario es una opción mucho mejor para procesos automatizados de gran volumen y de misión crítica que implican acceder a múltiples sistemas y trabajar con datos confidenciales o propietarios. Este tipo de procesos abundan en todas las empresas y, en general, se manejan mejor mediante la automatización de la interfaz de usuario.

Para entender por qué es así, analicemos rápidamente cómo funciona cada enfoque.

La automatización de la interfaz de usuario y la automatización basada en LLM funcionan de manera diferente, y eso es importante

Los enfoques basados en LLM suelen emplear un LLM multimodal (comprensión de imágenes, palabras, audio, etc.) para "leer" una pantalla y actuar. El enfoque depende de que un LLM comprenda la información en la pantalla (datos, campos, etc.) alojada en la nube. Luego, el modelo predice las acciones que realizaría el ser humano y envía instrucciones para realizar la acción (copiar y pegar datos, etc.).

Por el contrario, en la automatización de la interfaz de usuario, los robots siguen un conjunto de instrucciones previamente desarrollado para completar tareas definidas. Pueden ejecutarse dentro del entorno del cliente y/o usuario. Los datos sólo se pueden interpretar localmente y los robots siguen un conjunto de instrucciones claras y deterministas. Los recientes avances impulsados por la IA han mejorado significativamente la estabilidad y la confiabilidad, solucionando muchos de los problemas iniciales de la automatización de la interfaz de usuario, como la fragilidad y las roturas.

Los claros beneficios de la automatización de la interfaz de usuario

Las diferencias entre estos dos enfoques marcan TODA la diferencia a la hora de automatizar procesos multisistema complejos, de gran volumen que requieren alta seguridad y precisión. Para este tipo de flujos de trabajo, la automatización de la interfaz de usuario es una opción mucho mejor. He aquí por qué:

Precisión e integridad:los procesos de misión crítica, como el pedido para cobrar, dependen de la extracción, el movimiento y la publicación precisos de datos de un lugar a otro, así como de la documentación y las comunicaciones que rodean estas actividades. En esta área, los enfoques basados en LLM no pueden igualar el rendimiento de la automatización de la interfaz de usuario.

Por ejemplo, un análisis de los datos de UiPath muestra que el 96,5 % de todas las automatizaciones de nuestros clientes se ejecutan correctamente con nuestros enfoques de automatización de UI. Los datos disponibles públicamente sobre la automatización basada en IA sugieren que es significativamente menos confiable. Por ejemplo, Anthropic informó una tasa de precisión del 14,9% en una prueba diseñada para evaluar los intentos de los desarrolladores de hacer que los modelos utilicen computadoras, muy por debajo del nivel de habilidad humana del 70-75%. Si bien la precisión seguramente mejorará con el tiempo, aún queda un largo camino por recorrer antes de lograr la paridad con la automatización de la interfaz de usuario.

También hay otras cuestiones. Todos los LLM son propensos a sufrir alucinaciones y pueden realizar acciones impredecibles. Por ejemplo, los investigadores de Anthropic observaron casos en los que su LLM de repente se desvió de su tarea:hacer clic en las pantallas equivocadas o descargar inexplicablemente fotografías de parques nacionales. Los robots deterministas de la automatización de la interfaz de usuario simplemente carecen de la capacidad de actuar de esa manera.

Luego está la cuestión de la integridad. Un enfoque que toma fotografías de la pantalla visible puede perder datos en las listas desplegables que se extienden por debajo de los márgenes. Y podría pasar por alto acciones de corta duración que no ocurrían cuando se tomaron las fotografías. La automatización de la interfaz de usuario no tiene estos problemas.

Seguridad y gobernanza:cuando se trata de garantizar la privacidad, bloquear incursiones maliciosas y mantener datos propietarios dentro de firewalls, la automatización de la interfaz de usuario es una opción significativamente menos riesgosa. Por ejemplo, con la automatización de la interfaz de usuario, solo se recopilan los datos necesarios. A diferencia de la automatización basada en LLM, la automatización de la interfaz de usuario no implica una extracción total de capturas de pantalla que puedan contener datos confidenciales sin darse cuenta. Además, los robots del software UiPath que realizan nuestra automatización de la interfaz de usuario pueden recibir credenciales y controlar su acceso a datos confidenciales. Ese nivel de seguridad no está disponible actualmente con la automatización basada en LLM.

Para nosotros, no es esto o lo otro, son ambos

Al mirar hacia el futuro, está claro que el auge de la automatización basada en LLM representa un gran avance para ciertos tipos de procesos y actividades. El mundo está cerca de hacer realidad el sueño de poner la automatización sobre la marcha, sin código y basada en avisos en manos de prácticamente todos los que usan pantallas y software, marcando el comienzo de una nueva era de productividad y rendimiento personal como nunca antes hemos visto.

Ya estamos tomando medidas para incorporar este tipo de capacidades a UiPath Platform™. En particular, pronto lo incorporaremos a nuestras experiencias de usuario final como Autopilot™ for Everyone, además de brindar automatización basada en LLM como una opción adicional para desarrolladores ciudadanos y expertos en automatización.

Sabemos que las empresas querrán aprovechar estas nuevas capacidades, pero hacerlo de forma segura y con control total. Por lo tanto, hemos estado ampliando las capacidades de nuestra plataforma para proporcionar la orquestación, gestión y gobernanza necesarias que las empresas requieren, independientemente del modelo o modelos que adopten.

Pero incluso a medida que ampliamos la funcionalidad y el soporte para la automatización basada en LLM, continuamos avanzando en nuestras capacidades de automatización de la interfaz de usuario, porque la automatización de la interfaz de usuario será la mejor solución para una amplia gama de procesos empresariales críticos. Continuaremos aprovechando los avances emergentes en IA para hacer que nuestra automatización de la interfaz de usuario sea aún más inteligente, más fácil de comprender y actuar sin necesidad de codificación ni capacitación significativa, y más resiliente. Un buen ejemplo:el nuevo UiPath Healing Agent (ahora en versión preliminar pública), que puede autocurar automatizaciones defectuosas.

En resumen, UiPath cree en un futuro de automatización impulsada por LLM en todas sus formas, incluidos los enfoques basados en UI y LLM. Cada uno tiene fortalezas únicas; cada uno es la mejor opción para un conjunto particular de oportunidades de automatización. Nuestro objetivo es hacer que ambos estén disponibles (junto con cualquier nuevo enfoque de IA que surja) a través de una plataforma empresarial que pueda orquestar, gobernar y gestionar toda la gama de opciones de automatización disponibles hoy y en el futuro.

Aprovechar la automatización agente:una guía para ejecutivos Maximice el ROI con automatización y GenAI:prepare su negocio para el futuro

Sistema de control de automatización

Proceso de manufactura

Impresión 3d

Sistema de control de automatización

Tecnología Industrial