Nos últimos meses, empresas como @ perplexity_ai, @ browsercompany e agora @ OpenAI lançaram os seus próprios browsers agentivos.
Para estas empresas, é uma evolução natural controlar a camada do browser, pois passam a gerir todo o sistema operativo e a experiência do utilizador.
As ações disponíveis nestes browsers centram-se habitualmente na camada de leitura — ler, explicar e resumir o conteúdo do ecrã. Browsers como o Comet permitem criar agentes que executam ações (de escrita) em seu nome.

@ perplexity_ai Comet com Reddit
Atualmente, se quiser que o seu browser agentivo faça trading por si, o processo decorre assim:

O processo acima demora cerca de 10 segundos, dos quais apenas cerca de 2 segundos são necessários para processar o swap on-chain.
O agente do browser tira continuamente capturas de ecrã da vista atual, processa-as e executa ações via DOM. Este processo torna-se mais lento se a interface da aplicação for complexa.
No universo cripto, onde cada milissegundo é importante, o ideal é que o agente execute ações tão rápido quanto a física permite. Imagine não conseguir comprar um token no momento certo porque o seu agente (neste caso, o browser) estava a tentar decifrar uma interface como o terminal Bloomberg.

Visualização das estatísticas da McD em 2016
Qualquer LLM teria dificuldade em navegar pela interface acima e, no mundo cripto, muitos protocolos e aplicações apresentam interfaces pouco intuitivas.
O browser agentivo não consegue tirar partido do aspeto mais poderoso da cripto: a natureza pública dos dados e dos protocolos.
Qualquer agente que interaja com cripto
É um direito fundamental de qualquer utilizador aceder a sistemas que permitam criar e executar tarefas financeiras complexas sem necessidade de escrever scripts, programar ou alojar a sua própria infraestrutura — bastando escrever prompts em inglês simples.
Um bom prompt vale mais do que mil linhas de código.
Na SendAI, estamos a trabalhar para garantir este direito fundamental a todos os utilizadores.





