В последние месяцы компании, такие как @ perplexity_ai, @ browsercompany и теперь @ OpenAI, представили собственные агентные браузеры.
Для них логично взять под контроль браузерный слой, ведь это позволяет управлять всей операционной системой и пользовательским опытом.
Действия, доступные в этих браузерах, в основном сосредоточены на слое чтения — чтении, объяснении и суммировании отображаемой информации. Однако браузеры вроде comet позволяют запускать браузерных агентов, которые могут выполнять (write) действия за пользователя.

@ perplexity_ai comet с Reddit
Сейчас, если вы хотите, чтобы ваш агентный браузер торговал за вас, процесс выглядит так:

Этот процесс занимает около 10 секунд, из которых только примерно 2 секунды тратится на обработку обмена в блокчейне.
Браузерный агент постоянно делает скриншоты текущего экрана, анализирует их и затем выполняет действия через DOM. Если интерфейс приложения сложный, этот процесс замедляется.
В криптовалютной индустрии, где важна каждая миллисекунда, вы хотите, чтобы ваш агент действовал максимально быстро. Представьте, что вы не смогли купить токен вовремя, потому что ваш агент (в данном случае браузер) пытался разобраться в интерфейсе, похожем на Bloomberg Terminal.

Вид McD stats в 2016 году
Любой LLM столкнётся с трудностями при навигации по такому интерфейсу, а во многих криптопротоколах и приложениях интерфейсы далеки от идеала.
Агентный браузер не может использовать главное преимущество крипто — открытость данных и протоколов.
Любой агент, взаимодействующий с криптовалютой,
Каждый пользователь должен иметь базовое право на доступ к таким системам, которые позволяют создавать и выполнять сложные финансовые задачи без необходимости писать код, программировать или разворачивать собственную инфраструктуру — достаточно просто вводить запросы на простом английском языке.
Одна удачная подсказка ценнее тысячи строк кода.
В SendAI мы работаем над тем, чтобы предоставить это базовое право каждому пользователю.





