SWEN.AI
NotíciasFerramentas500+BenchmarkTutoriaisRankingGitHub RadarArtigosPatrocine
CtrlK
NotíciasFerramentasBenchmarkTutoriaisRanking
SWEN.AI
NotíciasFerramentas500+BenchmarkTutoriaisRankingGitHub RadarArtigosPatrocine
CtrlK
NotíciasFerramentasBenchmarkTutoriaisRanking
  1. Início
  2. Inteligência Artificial
  3. Modelo 35B MoE supera Kimi-K2.6 e DeepSeek-V4-pro em agen...
Inteligência Artificial

Modelo 35B MoE supera Kimi-K2.6 e DeepSeek-V4-pro em agentes de longo prazo

Um novo modelo de 35 bilhões de parâmetros, chamado MoE, demonstrou desempenho superior em comparação com Kimi-K2.6 e DeepSeek-V4-pro em tarefas de longo prazo. O estudo pode ser encontrado no arXiv.

MS
Marina Santos1 de julho de 2026, 12:34 Atualizado em há 22 minutos
2 min
Twitter Radar
x.com
Ver original
Compartilhar:
Modelo 35B MoE supera Kimi-K2.6 e DeepSeek-V4-pro em agentes de longo prazo
Toque duas vezes para ampliar

# Modelo 35B MoE supera Kimi-K2.6 e DeepSeek-V4-pro em agentes de longo prazo

O modelo 35B MoE, conhecido como Agents-A1, demonstrou desempenho superior ao Kimi-K2.6 e ao DeepSeek-V4-pro em tarefas de agentes de longo prazo, conforme estudo publicado no arXiv (2506.30616). Este resultado é notável devido à diferença de escala entre os modelos comparados.

O que é o Agents-A1 e por que ele se destaca

O Agents-A1 é um modelo de linguagem com arquitetura Mixture of Experts (MoE) de 35 bilhões de parâmetros. Apesar de ser significativamente menor que seus concorrentes, ele demonstrou desempenho superior em benchmarks voltados para agentes autônomos de longo prazo. Este tipo de tarefa exige que o modelo mantenha coerência, planejamento e execução ao longo de interações prolongadas, cenários onde modelos maiores geralmente têm vantagem devido à sua capacidade de reter contexto e raciocinar em múltiplas etapas.

Como o modelo MoE de 35B venceu rivais maiores

A arquitetura MoE ativa apenas uma fração dos parâmetros totais a cada inferência. Isso permite que o Agents-A1 combine eficiência computacional com capacidade de raciocínio especializado. Na prática, o modelo seleciona dinamicamente quais "especialistas" internos acionar para cada parte da tarefa, reduzindo o custo de processamento sem sacrificar a qualidade das respostas.

Resultados frente ao Kimi-K2.6 e DeepSeek-V4-pro

Os testes mostraram que o Agents-A1 superou tanto o Kimi-K2.6 quanto o DeepSeek-V4-pro em cenários de agentes de longo prazo. Ambos os modelos concorrentes possuem arquiteturas com escala consideravelmente maior. O desempenho superior em tarefas prolongadas sugere que a estratégia de treinamento e a seleção de especialistas do MoE de 35B foram otimizadas especificamente para manter consistência ao longo de sequências extensas de ações.

Implicações para o desenvolvimento de agentes autônomos

O resultado do Agents-A1 reforça uma tendência crescente na pesquisa em inteligência artificial: modelos menores e mais eficientes podem competir — e até superar — modelos massivos quando a arquitetura e o treinamento são direcionados para tarefas específicas. Para o campo de agentes de longo prazo, isso significa que soluções mais acessíveis em termos de infraestrutura podem se tornar viáveis. Empresas e pesquisadores com recursos computacionais limitados ganham uma alternativa competitiva.

O estudo completo está disponível no arXiv sob o identificador 2506.30616 e pode influenciar futuras decisões de design em modelos voltados para agentes autônomos.

Ver no Ranking SWEN.AI →

DeepSeek — por ELO, preço e velocidade

Abrir Benchmark
Compartilhar:

Benchmark de IA

Compare GPT, Claude, Gemini e mais: preços, velocidade e benchmarks.

Ver Ranking GeralComparar ModelosTop LLMs 2026

Explore outras categorias

Relacionadas

  • lançamento do Voice Agent Builder, plataforma sem código para criar agentes de voz
  • Claude-Fable-5-v2 é removido do modo de batalha da Arena
  • Anthropic lança Claude Science, app para pesquisa científica
  • Google testa novo checkpoint do Gemini Flash no LM Arena