Повысьте производительность:соедините автоматизацию пользовательского интерфейса с автоматизацией на основе LLM

Недавно ряд ведущих компаний, занимающихся искусственным интеллектом, запустили новые возможности, которые используют свои мощные базовые модели большого языка (LLM) для быстрой автоматизации многих действий, которые люди выполняют на экранах. Использование компьютеров от Anthropic, Amazon Q Business и предстоящий OpenAI «Оператор» позволяют быстро понимать экраны, управлять используемым программным обеспечением и имитировать желаемые действия пользователя — без какого-либо обучения программированию или моделированию.

Автоматизация на основе LLM — это новый способ автоматизации. Он существенно отличается от автоматизации пользовательского интерфейса, которая опирается на обученные модели и подходы, основанные на правилах, для извлечения информации и взаимодействия с экранами, системами и программным обеспечением. Поскольку автоматизация на основе LLM намного проще в использовании, некоторые отраслевые обозреватели предполагают, что она может заменить автоматизацию пользовательского интерфейса.

Мы провели обширную оценку этих новых технологий и воодушевлены их потенциалом по расширению влияния автоматизации на предприятия и пользователей. Фактически, мы интегрируем лучшие из них в нашу платформу. Поскольку они позволяют ИИ взаимодействовать с программным обеспечением так же, как это делают люди, мы считаем, что они могут по-настоящему революционизировать взаимодействие между людьми и экранами. Они обладают потенциалом поднять личную продуктивность на новый уровень и позволяют практически любому стать гражданским разработчиком, чтобы автоматизировать свои утомительные, повторяющиеся задачи.

Однако автоматизация на основе LLM никогда полностью не заменит автоматизацию пользовательского интерфейса в каждом процессе. Например, автоматизация пользовательского интерфейса — гораздо лучший выбор для крупномасштабных, критически важных автоматизированных процессов, которые требуют доступа к нескольким системам и работы с конфиденциальными или проприетарными данными. Эти типы процессов широко распространены на предприятиях, и, как правило, их лучше обрабатывать с помощью автоматизации пользовательского интерфейса.

Чтобы понять, почему это так, давайте кратко рассмотрим, как работает каждый подход.

Автоматизация пользовательского интерфейса и автоматизация на основе LLM работают по-разному — и это важно

Подходы, основанные на LLM, обычно используют мультимодальный LLM (понимание изображений, слов, звука и т. д.) для «чтения» экрана и принятия мер. Подход зависит от понимания LLM информации на экране (данные, поля и т. д.), размещенной в облаке. Затем модель прогнозирует действия, которые предпримет человек, и отправляет инструкции по их выполнению (копирование и вставка данных и т. д.).

И наоборот, при автоматизации пользовательского интерфейса роботы следуют заранее разработанному набору инструкций для выполнения определенных задач. Они могут работать в среде клиента и/или пользователя. Данные можно интерпретировать только локально, а роботы следуют четкому, детерминированному набору инструкций. Последние достижения в области искусственного интеллекта значительно повысили стабильность и надежность, решая многие первоначальные проблемы автоматизации пользовательского интерфейса, связанные с хрупкостью и поломкой.

Очевидные преимущества автоматизации пользовательского интерфейса

Различия между этими двумя подходами имеют ВСЕ значение при автоматизации сложных, объемных, мультисистемных процессов, требующих высокой безопасности и точности. Для таких типов рабочих процессов автоматизация пользовательского интерфейса — гораздо лучший вариант. И вот почему:

Точность и полнота. Критически важные процессы, такие как обработка заказа до оплаты, зависят от точного извлечения, перемещения и публикации данных из одного места в другое, а также от документации и коммуникаций, связанных с этой деятельностью. В этой области подходы на основе LLM не могут сравниться по эффективности с автоматизацией пользовательского интерфейса.

Например, анализ данных UiPath показывает, что 96,5% всех систем автоматизации наших клиентов успешно работают с нашими подходами к автоматизации пользовательского интерфейса. Общедоступные данные об автоматизации на основе искусственного интеллекта свидетельствуют о том, что она значительно менее надежна. Например, Anthropic сообщила о точности 14,9% в тесте, предназначенном для оценки попыток разработчиков заставить модели использовать компьютеры, что намного ниже уровня человеческих навыков в 70–75%. Хотя точность со временем, несомненно, улучшится, предстоит пройти долгий путь, прежде чем достичь равенства с автоматизацией пользовательского интерфейса.

Есть и другие проблемы. Все LLM склонны к галлюцинациям и могут совершать непредсказуемые действия. Например, исследователи Anthropic отметили случаи, когда их LLM внезапно отказывался от выполнения задач — нажимал не на те экраны или необъяснимым образом загружал фотографии национальных парков. Детерминированные роботы автоматизации пользовательского интерфейса просто не способны действовать подобным образом.

Тогда есть вопрос полноты. Подход, который делает снимки видимого экрана, может пропустить данные в раскрывающихся списках, выходящих за пределы полей. И он может упускать из виду кратковременные действия, которые не происходили во время съемки фотографий. У автоматизации пользовательского интерфейса подобных проблем нет.

Безопасность и управление. Когда дело доходит до обеспечения конфиденциальности, блокировки вредоносных вторжений и хранения конфиденциальных данных в межсетевых экранах, автоматизация пользовательского интерфейса является значительно менее рискованным выбором. Например, при автоматизации пользовательского интерфейса собираются только необходимые данные. В отличие от автоматизации на основе LLM, автоматизация пользовательского интерфейса не предполагает массового извлечения снимков экрана, которые могут случайно содержать конфиденциальные данные. Более того, программные роботы UiPath, выполняющие автоматизацию пользовательского интерфейса, могут быть сертифицированы, а их доступ к конфиденциальным данным можно контролировать. Такой уровень безопасности в настоящее время недоступен при автоматизации на основе LLM.

Для нас это не «или/или», а и то, и другое

Когда мы смотрим в будущее, становится ясно, что развитие автоматизации на основе LLM представляет собой большой шаг вперед для определенных типов процессов и видов деятельности. Мир близок к осуществлению мечты о том, чтобы предоставить оперативную автоматизацию без программирования и оперативного управления практически всем, кто использует экраны и программное обеспечение, что открывает новую эру личной продуктивности и производительности, не похожую ни на что, что мы видели раньше.

Мы уже предпринимаем шаги по внедрению этих типов возможностей в платформу UiPath Platform™. В частности, вскоре мы включим его в наши решения для конечных пользователей, такие как Autopilot™ для всех, а также предоставим автоматизацию на основе LLM в качестве дополнительной возможности для гражданских разработчиков и экспертов по автоматизации.

Мы знаем, что предприятия захотят воспользоваться этими новыми возможностями, но хотят делать это безопасно и с полным контролем. Поэтому мы расширяем возможности нашей платформы, чтобы обеспечить необходимую оркестрацию, управление и управление, необходимые предприятиям, независимо от того, какую модель или модели они принимают.

Но даже несмотря на то, что мы расширяем функциональность и поддержку автоматизации на основе LLM, мы продолжаем совершенствовать наши возможности автоматизации пользовательского интерфейса, поскольку автоматизация пользовательского интерфейса будет лучшим решением для широкого спектра критически важных корпоративных процессов. Мы продолжим использовать новые достижения в области искусственного интеллекта, чтобы сделать нашу автоматизацию пользовательского интерфейса еще более интеллектуальной, более простой в понимании и действии без необходимости значительного кодирования и обучения, а также более устойчивой. Яркий пример:новый агент восстановления UiPath (теперь в общедоступной предварительной версии), который может самостоятельно восстанавливать сбойные средства автоматизации.

Короче говоря, UiPath верит в будущее автоматизации на основе LLM во всех ее формах, включая подходы на основе пользовательского интерфейса и LLM. У каждого есть уникальные сильные стороны; каждый из них является лучшим выбором для определенного набора возможностей автоматизации. Наша цель — сделать оба подхода доступными (а также любые новые подходы к искусственному интеллекту) через корпоративную платформу, которая сможет организовывать, управлять и управлять полным набором вариантов автоматизации, доступных как сегодня, так и в будущем.

Использование агентской автоматизации:руководство для руководителей Максимизируйте окупаемость инвестиций с помощью автоматизации и GenAI:обеспечьте безопасность вашего бизнеса…

Система управления автоматикой

Производственный процесс

3D печать

Система управления автоматикой

Промышленные технологии