Между «прочитать сайт» и «сделать что-то на сайте» — пропасть. Большинство AI-агентов сегодня умеют первое: они скачивают страницу, разбирают её HTML и пересказывают вам содержимое. Это полезно, но это пассивное чтение. Совсем другая задача — когда нужно не просто узнать, что написано на странице, а реально нажать кнопку, заполнить поле, пройти несколько экранов и довести дело до результата. Вот тут на сцену выходит технология под названием Computer Use.
В этой статье разберём, что такое Computer Use (ИИ, который управляет браузером как человек), чем он принципиально отличается от обычного чтения страниц, в каких реальных сценариях он незаменим, почему вокруг него столько разговоров про безопасность и как этот инструмент устроен в EPIHEN.
Прочитать сайт против действовать на сайте
Чтобы понять ценность Computer Use, надо чётко развести две вещи.
Прочитать сайт — это получить текст. Агент идёт по ссылке, забирает HTML, вытаскивает из него содержимое: статью, цены, расписание, описание товара. Дальше он работает с этим текстом как с любыми данными — пересказывает, сравнивает, делает выводы. Страница для него — это документ, который он прочитал и закрыл.
Действовать на сайте — это совсем другой класс задач. Здесь агенту мало прочитать. Ему нужно нажать «Войти», ввести данные в форму, выбрать дату в календаре, прокрутить список, дождаться, пока подгрузится следующий экран, и нажать ещё раз. Это интерактивная работа с интерфейсом, который меняется в ответ на действия — ровно так, как с ним работает человек мышкой и клавиатурой.
Многие современные сайты невозможно «прочитать» в старом смысле. Контент подгружается через JavaScript только после клика, данные прячутся за фильтрами, форму нельзя обойти. Тут уже не помогает простое скачивание HTML — нужен агент, который видит экран и действует на нём. Это и есть автоматизация браузера на базе ИИ.
Разница принципиальная и в плане ответственности. Когда агент читает страницу, он ничего не меняет: ни на сайте, ни в вашем аккаунте, ни в реальном мире. Худшее, что может произойти, — он перескажет неточно, и вы это сразу заметите. А когда агент действует, последствия настоящие: отправленная форма уходит на сервер, нажатая кнопка может что-то запустить, заполненная заявка попадает к адресату. Поэтому к режиму действия предъявляются совсем другие требования — и по точности, и по безопасности, о которой подробно ниже.
Что такое Computer Use
Computer Use — это режим, в котором AI-агент получает доступ к настоящему браузеру и управляет им так же, как это делает человек. Агент видит, что отображается на экране, понимает, где находятся кнопки, поля и ссылки, и совершает над ними действия:
- Клик — нажимает на кнопки, ссылки, чекбоксы, пункты меню.
- Ввод текста — печатает в поля форм: имя, адрес, поисковый запрос, комментарий.
- Навигация — переходит между страницами, прокручивает, возвращается назад, открывает разделы.
Ключевая идея — агент работает с интерфейсом, а не с исходным кодом. Он не разбирает HTML по тегам; он смотрит на отрисованную страницу, как смотрели бы вы, и взаимодействует с тем, что на ней видно. Поэтому ИИ, который управляет браузером, справляется там, где обычное чтение бессильно: с динамическими интерфейсами, многошаговыми формами и сайтами, которые без действий не отдают данные.
Работает это циклично. Агент делает один шаг — например, нажимает кнопку, — затем заново смотрит на изменившийся экран, оценивает, что получилось, и решает, какое действие нужно следующим. Так он постепенно продвигается к цели, сверяясь с реальным состоянием страницы на каждом шаге, а не вслепую выполняя заранее заготовленный сценарий. Если интерфейс повёл себя не так, как ожидалось (выскочило окно, изменился порядок полей), агент это видит и подстраивается — ровно как подстроился бы человек.
Чем Computer Use отличается от browse_page
В EPIHEN есть отдельный инструмент для чтения страниц — browse_page. Их легко перепутать, но это разные вещи с разной стоимостью и назначением.
browse_page читает страницу. Он забирает HTML, извлекает из него текст и отдаёт агенту. Это быстро, дёшево и идеально подходит, когда нужно просто узнать, что написано: прочитать статью, проверить цену, посмотреть описание. browse_page ничего не нажимает и ничего не вводит — он только смотрит и пересказывает.
computer_use управляет браузером. Он не просто читает разметку, а видит отрисованный экран и совершает на нём действия — кликает, печатает, проходит сценарии из нескольких шагов. Это мощнее, но и дороже, и медленнее.
Правило простое: если задачу можно решить чтением — используется browse_page. Computer Use включается только тогда, когда без реальных действий не обойтись. Запускать тяжёлый интерактивный браузер ради того, чтобы просто прочитать абзац текста, — это всё равно что вызывать эвакуатор, чтобы перейти дорогу.
Реальные сценарии
Где Computer Use действительно нужен:
- Заполнить форму. На сайте есть форма заявки или анкета — нужно вписать данные в поля, выбрать опции из выпадающих списков, отметить чекбоксы и отправить. browse_page здесь не поможет: форма требует действий, а не чтения. Это классический пример того, как ИИ заполняет формы за вас.
- Многошаговая навигация по интерфейсу. Результат спрятан за несколькими экранами: нажать раздел → выбрать фильтр → открыть подкатегорию → нажать «Показать ещё». Каждый шаг меняет страницу, и пройти этот путь можно только последовательными действиями.
- Собрать данные с интерактивной страницы. Цифры или список появляются только после применения фильтров или нажатия на вкладку — в исходном HTML их просто нет. Агент должен сам совершить нужные действия, дождаться обновления и только тогда считать данные.
- Бронирование с возвратом ссылок. Пройти по шагам подбора (даты, параметры, варианты), дойти до экрана с результатами и вернуть вам конкретные ссылки на подходящие варианты. Финальное действие — само бронирование или оплата — всегда остаётся за вами.
Объединяет эти сценарии одно: результата не получить пассивным чтением. Нужен AI-агент в браузере, который проходит путь в интерфейсе шаг за шагом.
Стоит честно сказать и про обратное. Если вам нужно просто узнать цену, прочитать новость, проверить часы работы или сравнить характеристики товаров по их описанию — никакого Computer Use не требуется. Эти задачи решаются чтением, и тратить на них дорогой интерактивный браузер бессмысленно. Computer Use оправдан именно там, где между вами и нужным результатом стоит цепочка действий в чужом интерфейсе, которую кто-то должен пройти руками — и этот «кто-то» теперь может быть агентом.
Безопасность — главное в Computer Use
Агент, который сам кликает по сайтам и заполняет формы, — это мощно, но и потенциально опасно. Поэтому в EPIHEN Computer Use работает по жёстким правилам безопасности, которые нельзя обойти.
- Не вводит пароли, PIN, OTP и данные карт. Агент никогда не печатает в поля чувствительные секреты — пароли, ПИН-коды, одноразовые коды подтверждения, номера и CVC банковских карт. Если для шага требуется ввод таких данных, агент останавливается.
- Не делает платежи и удаления без явного подтверждения. Любое необратимое или денежное действие — оплата, удаление, отправка платной заявки — не выполняется само собой. Оно возможно только если вы явно поручили его в текущем сообщении. Никакой инициативы «я подумал, что вы хотите оплатить».
- Не ходит на банки, госуслуги и налоговую по своей инициативе. Сайты банков, государственных порталов и налоговой агент не открывает сам. Это зона повышенного риска, и решение туда идти всегда остаётся за вами.
- Останавливается на captcha. Если страница требует пройти captcha, агент не пытается её обойти — он останавливается и просит вас помочь. Обход проверок «я не робот» — это ровно то, чего безопасный агент делать не должен.
Логика тут простая: Computer Use — это помощник, который делает рутину, а не автопилот, которому отдают ключи от банковского счёта. Все границы выстроены так, чтобы вы контролировали именно те действия, цена ошибки в которых высока — деньги, доступы, персональные данные.
Практический вывод для вас как пользователя: поручайте агенту те шаги, которые не требуют ваших секретов и не приводят к необратимым последствиям, а финальное подтверждение — оплату, отправку важной заявки, ввод кода из СМС — оставляйте за собой. Агент с удовольствием доведёт вас до этого экрана и вернёт ссылку, но нажать решающую кнопку — это уже ваше осознанное действие. Так вы получаете и удобство автоматизации, и полный контроль над тем, что действительно важно.
Стоимость: почему это не для каждого запроса
Computer Use — дорогая операция. Запуск интерактивного браузера, обработка экрана и серия действий обходятся ощутимо дороже простого чтения страницы. Порядок стоимости одной задачи — примерно от 0,10 до 3 долларов в зависимости от того, сколько шагов агент совершает.
Именно поэтому в EPIHEN действует разделение: для чтения — browse_page, для действий — computer_use. Если задачу можно закрыть простым чтением HTML, агент так и сделает — это дешевле в десятки раз. Computer Use остаётся для случаев, где интерактивные действия реально необходимы и оправдывают свою цену.
Как Computer Use работает в EPIHEN
В EPIHEN эта возможность реализована как инструмент computer_use — интерактивный браузер, в котором агент кликает, вводит текст и навигирует по сайтам.
- Доступен на тарифе MAX и выше. Из-за высокой стоимости одной задачи инструмент открыт на тарифе MAX и старше. На младших тарифах для работы с сайтами используется обычное чтение через browse_page.
- Дневные лимиты. На тарифе MAX — до 5 задач Computer Use в день. У администраторов — до 20 задач в день. Лимиты защищают и от случайного перерасхода, и от непредвиденных счетов.
Остальные правила — безопасность, разделение с browse_page, остановка на captcha — работают одинаково и описаны выше. Агент сам решает, когда задача требует реального управления браузером, а когда хватит простого чтения.
Как поставить хорошую задачу
Computer Use тем полезнее, чем точнее вы формулируете задание. Расплывчатое «зайди куда-нибудь и что-нибудь там сделай» агент выполнит плохо — он не телепат. Хорошая задача состоит из трёх частей.
1. Конкретный URL
Дайте точный адрес страницы, с которой начинать. Не «найди сайт авиакомпании», а конкретную ссылку на нужный раздел. Чем меньше агенту приходится угадывать, куда идти, тем надёжнее результат и тем дешевле задача.
2. Что сделать
Опишите действия по шагам. Какие поля заполнить и какими значениями, на какие кнопки нажать, какие фильтры выбрать. Например: «в форме укажи город отправления Москва, дату 10 июня, нажми Найти». Конкретика убирает двусмысленность.
3. Что вернуть
Скажите, какой результат вы ждёте. Список ссылок? Цены первых трёх вариантов? Подтверждение, что форма отправлена? Без этого агент может остановиться не там, где вам нужно. «Верни мне ссылки на три самых дешёвых варианта с ценами» — это понятная цель.
Формула простая: конкретный URL + что сделать + что вернуть. Чем чётче вы зададите эти три вещи, тем точнее и дешевле отработает Computer Use.
Вывод
Computer Use — это шаг от AI, который читает интернет, к AI, который действует в интернете. Там, где обычное чтение страниц бессильно (динамические интерфейсы, многошаговые формы, данные за фильтрами), агент берёт управление браузером в свои руки: кликает, печатает, навигирует. Но мощь идёт в комплекте с дисциплиной — высокая стоимость операции означает, что для простого чтения остаётся дешёвый browse_page, а жёсткие правила безопасности гарантируют, что агент не введёт ваш пароль, не оплатит лишнего и не пойдёт на сайт банка по своей инициативе.
В EPIHEN эта автоматизация браузера на базе ИИ доступна на тарифе MAX и выше с дневными лимитами. Сформулируйте задачу по формуле «URL + что сделать + что вернуть» — и AI-агент пройдёт нужный путь в браузере за вас.