# Google Lança Capacidade de Uso de Computador para Gemini 3.5 Flash
O Google lançou oficialmente a capacidade de uso de computador integrada ao Gemini 3.5 Flash, funcionalidade que permite ao modelo de inteligência artificial interagir diretamente com interfaces gráficas de sistemas operacionais — clicando em botões, navegando em menus, preenchendo formulários e executando sequências completas de tarefas na tela. Com uma pontuação de 78,4 no benchmark OSWorld-Verified, o modelo estabelece o melhor resultado público registrado até o momento nessa categoria de avaliação, superando soluções concorrentes que vinham disputando a liderança em automação computacional orientada por IA.
O Que É a Capacidade de Uso de Computador do Gemini 3.5 Flash
A funcionalidade de *computer use* (uso de computador) representa uma evolução distinta em relação aos modelos de linguagem tradicionais. Em vez de apenas gerar texto ou código, o Gemini 3.5 Flash passa a operar interfaces gráficas de forma autônoma, interpretando capturas de tela em tempo real e executando ações como um usuário humano faria.
Na prática, isso significa que o modelo consegue:
- Navegar em aplicativos desktop e web identificando elementos visuais na tela.
- Executar fluxos de trabalho completos, como preencher planilhas, organizar arquivos ou configurar softwares.
- Tomar decisões contextuais sobre qual próximo passo executar com base no estado atual da interface.
Essa abordagem difere fundamentalmente de automações baseadas em scripts, pois o modelo não depende de APIs ou comandos pré-programados — ele literalmente "enxerga" a tela e age sobre ela.
Desempenho no OSWorld-Verified: O Que a Pontuação de 78,4 Significa
O OSWorld é um benchmark projetado especificamente para avaliar a capacidade de agentes de IA em realizar tarefas reais em ambientes de sistemas operacionais completos, incluindo Linux, Windows e macOS. A variante OSWorld-Verified utiliza um subconjunto de tarefas com critérios de avaliação rigorosamente validados por humanos, o que torna os resultados mais confiáveis como indicador de desempenho prático.
A pontuação de 78,4 obtida pelo Gemini 3.5 Flash representa o maior resultado público nesse benchmark até a data do anúncio. Para contextualizar, modelos anteriores — incluindo versões do próprio Gemini e soluções de concorrentes como o Claude 3.5 Sonnet da Anthropic, que foi pioneiro em oferecer *computer use* — operavam com pontuações significativamente inferiores nessa mesma avaliação.
Esse salto de desempenho indica que o modelo não apenas identifica elementos na tela com maior precisão, mas também planeja e executa sequências de ações mais longas sem perder o contexto da tarefa original.
Impacto Prático na Automação de Tarefas
A introdução dessa capacidade no Gemini 3.5 Flash tem implicações diretas para diversos cenários de uso profissional e pessoal.
Para desenvolvedores e equipes de TI, a funcionalidade abre caminho para a criação de agentes que realizam testes de interface, configuram ambientes de desenvolvimento ou executam procedimentos operacionais padronizados sem intervenção humana constante.
Para profissionais de negócios, tarefas repetitivas como extração de dados entre sistemas que não possuem integração nativa, geração de relatórios a partir de múltiplas ferramentas ou organização de informações em plataformas distintas podem ser delegadas ao modelo.
Para o ecossistema de IA do Google, o lançamento posiciona o Gemini 3.5 Flash como uma peça central na estratégia de agentes autônomos da empresa, complementando outras iniciativas como o Project Mariner, voltado para automação de tarefas no navegador Chrome.
Contexto Competitivo e Posicionamento Estratégico
O mercado de modelos com capacidade de uso de computador ganhou tração acelerada a partir do segundo semestre de 2024, quando a **Anthropic lançou a funcionalidade de *computer use* no Claude 3.5 Sonnet. Desde então, empresas como OpenAI, com o desenvolvimento do Operator, e o próprio Google intensificaram investimentos nessa frente.
Com o resultado de 78,4 no OSWorld-Verified, o Google não apenas responde à concorrência, mas assume a liderança mensurável em pelo menos um dos benchmarks mais relevantes para essa categoria. O fato de essa capacidade estar integrada ao Gemini 3.5 Flash — um modelo otimizado para velocidade e eficiência de custo, e não ao modelo mais pesado da família — sugere que a estratégia do Google prioriza acessibilidade e escalabilidade**, tornando a funcionalidade viável para aplicações de alto volume.
O lançamento reforça a posição do Google como protagonista na corrida por agentes de IA verdadeiramente autônomos, capazes de operar no mundo digital com a mesma fluência que um usuário humano experiente.