SWEN.AI
NotíciasFerramentas500+BenchmarkTutoriaisRankingGitHub RadarArtigos
CtrlK
NotíciasFerramentasBenchmarkTutoriaisRanking
SWEN.AI
NotíciasFerramentas500+BenchmarkTutoriaisRankingGitHub RadarArtigos
CtrlK
NotíciasFerramentasBenchmarkTutoriaisRanking
  1. Início
  2. Inteligência Artificial
  3. Modelo VibeThinker-3B supera desafio que modelos de 1,6 t...
Inteligência Artificial

Modelo VibeThinker-3B supera desafio que modelos de 1,6 trilhões não conseguiram

O modelo VibeThinker-3B conseguiu resolver um quebra-cabeça que modelos maiores não conseguiram. Enquanto modelos como DeepSeek V4 Flash e Kimi K2.6 falharam em profundidades mais altas, o VibeThinker-3B manteve a performance.

JB
Juliana Barros24 de junho de 2026, 16:22 Atualizado em há 21 minutos
2 min
Twitter Radar
x.com
Ver original
Compartilhar:
Modelo VibeThinker-3B supera desafio que modelos de 1,6 trilhões não conseguiram
Toque duas vezes para ampliar

# Modelo VibeThinker-3B supera desafio que modelos de 1,6 trilhão não conseguiram

O modelo VibeThinker-3B resolveu um quebra-cabeça deslizante que modelos com até 1,6 trilhão de parâmetros não conseguiram completar. Enquanto gigantes como DeepSeek V4 Pro e Kimi K2.6 falharam em profundidades mais altas, o pequeno modelo de 3 bilhões de parâmetros manteve a performance intacta.

VibeThinker-3B vence modelos até 500 vezes maiores em teste de raciocínio

O benchmark utilizado foi o teste de quebra-cabeça deslizante — o mesmo aplicado anteriormente aos modelos Kimi e DeepSeek. A novidade desta rodada: a inclusão do VibeThinker-3B para uma comparação direta.

Os modelos testados e seus tamanhos:

  • VibeThinker → 3B de parâmetros
  • DeepSeek V4 Flash → 284B de parâmetros
  • Kimi K2.6 → 1T de parâmetros
  • DeepSeek V4 Pro → 1,6T de parâmetros

Profundidades de embaralhamento e resultados

As profundidades de embaralhamento foram 5, 10, 12, 15, 18 e 22. Um único movimento errado embaralha todo o tabuleiro, exigindo raciocínio de longa cadeia puro.

✅ VibeThinker-3B: resolveu todos os seis níveis. Nunca perdeu o fio da meada em nenhuma profundidade.

⚠️ Os modelos gigantes começaram a falhar na profundidade 15. DeepSeek V4 Flash, DeepSeek V4 Pro e Kimi K2.6 — cada um teve ao menos uma execução falha, embaralhando o tabuleiro além do limite de movimentos permitidos.

Como o teste foi conduzido

Como o VibeThinker-3B não foi treinado para chamadas de ferramentas, a solução foi fazê-lo emitir `X` a cada jogada. O movimento era então executado externamente. Essa adaptação simples bastou para que o modelo pequeno superasse rivais centenas de vezes maiores.

Tamanho não garante inteligência em raciocínio complexo

O resultado reforça uma tendência crescente na pesquisa de inteligência artificial: modelos generalistas maiores não são necessariamente mais inteligentes em tarefas que exigem raciocínio estruturado. O VibeThinker-3B demonstrou que arquitetura e método de treinamento podem compensar — e até superar — a vantagem bruta de escala em parâmetros.

Ver no Ranking SWEN.AI →

DeepSeek — por ELO, preço e velocidade

Abrir Benchmark
Compartilhar:

Benchmark de IA

Compare GPT, Claude, Gemini e mais: preços, velocidade e benchmarks.

Ver Ranking GeralComparar ModelosTop LLMs 2026

Explore outras categorias

Relacionadas

  • Google lança capacidade de uso de computador para Gemini 3.5 Flash
  • GLM-5.2 da Zai org apresenta desempenho no ARC-AGI
  • Alibaba lança modelo de agente de IA open source que supera concorrentes
  • AKOOL Canvas permite criar conteúdo em 30 segundos com IA