Google lança novos chips de IA para treinamento e inferência visando competir com a Nvidia

Novos processadores contam com alta capacidade de memória SRAM para otimizar a execução de modelos de inteligência artificial.

Enquanto o mundo inteiro olhava para as placas de vídeo da Nvidia, uma jogada silenciosa estava sendo preparada nos laboratórios de Mountain View.

O Google acaba de mudar as regras do jogo no mercado de semicondutores.

E essa decisão pode mudar como você usa inteligência artificial nos próximos anos.

A gigante das buscas anunciou a oitava geração de sua Tensor Processing Unit (TPU), trazendo uma mudança radical na estratégia de hardware.

Agora, em vez de um chip que faz tudo, teremos processadores especializados para tarefas distintas.

Segundo informações da training-and-inference-tpus-in-latest-shot-at-nvidia.html" target="_blank" rel="noopener noreferrer" class="text-primary hover:underline">fonte original, o Google está separando o treinamento da inferência.

Mas será que isso é o suficiente para desbancar o domínio absoluto da Nvidia?

A nova estratégia do Google

> "Com a ascensão dos agentes de IA, determinamos que a comunidade se beneficiaria de chips individualmente especializados."

Essa frase de Amin Vahdat, vice-presidente do Google, resume o novo momento da empresa.

Até agora, as TPUs eram projetadas para serem versáteis, lidando com o aprendizado dos modelos e sua execução diária.

Com a oitava geração, o Google divide essas funções em dois silícios diferentes.

Um chip será focado exclusivamente em treinar modelos massivos, como o Gemini.

O outro será otimizado para a inferência, que é o processo de responder às perguntas dos usuários.

Essa abordagem permite que cada processador seja muito mais eficiente em sua função específica.

Treinamento vs. Inferência

No mundo da IA, o treinamento exige um poder bruto de processamento para digerir trilhões de dados.

Já a inferência precisa de velocidade e baixa latência para que o chatbot não demore a responder.

Ao separar essas tarefas, o Google consegue reduzir custos operacionais e aumentar a performance.

De acordo com análises do AI Insights, essa especialização é uma tendência crescente no Vale do Silício.

O segredo está na memória SRAM

Um dos grandes diferenciais técnicos dessa nova geração é o uso massivo de SRAM (Static Random Access Memory).

A SRAM é um tipo de memória muito mais rápida que a memória convencional usada em computadores.

Ela fica localizada diretamente dentro do chip, permitindo que os dados circulem quase instantaneamente.

Isso é crucial para rodar modelos de linguagem que precisam acessar informações em milissegundos.

A Nvidia também já sinalizou que seus próximos chips seguirão esse mesmo caminho de alta densidade de memória.

Por que a SRAM importa tanto?

Velocidade: O acesso aos dados é quase imediato.
Eficiência: Menos energia é gasta movendo informações entre componentes.
Latência: Respostas mais rápidas para aplicações de tempo real.
Custo: Embora cara, ela reduz o tempo total de processamento na nuvem.

Essa configuração técnica coloca o Google em uma posição de vantagem para suportar a próxima onda de agentes autônomos.

Conforme destacado no programa Squawk Box, o hardware agora dita o ritmo da inovação de software.

A guerra do silício customizado

O Google não está sozinho nessa corrida contra a Nvidia.

A Amazon também vem investindo pesado em seus próprios chips, como o Trainium e o Inferentia.

A ideia das Big Techs é simples: parar de depender exclusivamente de terceiros.

Ao fabricar seu próprio silício, o Google consegue otimizar o hardware para seus algoritmos específicos.

Isso cria o que os especialistas chamam de "integração vertical perfeita".

Como aponta o jornalista especializado @in/jordannovet/, essa estratégia protege as margens de lucro das gigantes da nuvem.

> "O Google está construindo um ecossistema onde o hardware e o software falam a mesma língua nativa."

Isso significa que, no futuro, rodar o Gemini no Google Cloud pode ser muito mais barato do que rodar modelos concorrentes.

O impacto para desenvolvedores

Para quem cria aplicativos de IA, essa mudança traz mais opções de escolha.

Os desenvolvedores poderão escolher instâncias de nuvem otimizadas para o que realmente precisam.

Se você está apenas testando um modelo, usará os chips de inferência.

Se está criando uma nova inteligência do zero, usará o poder bruto dos chips de treinamento.

Essa flexibilidade deve baratear o custo de desenvolvimento de novas startups de tecnologia.

O contexto histórico das TPUs

A jornada do Google com chips próprios começou há mais de uma década.

Naquela época, a empresa percebeu que, se todos usassem reconhecimento de voz, eles precisariam dobrar seus data centers.

A solução foi criar a primeira TPU, lançada em 2016.

Desde então, cada geração trouxe saltos de performance que permitiram o surgimento de tecnologias como o Google Tradutor moderno.

A v8 representa o amadurecimento total dessa visão de hardware proprietário.

Segundo o AI Age, estamos entrando em uma era onde o chip é tão importante quanto o código.

O fator econômico e o mercado global

A Nvidia ainda detém cerca de 80% do mercado de chips de IA de alta performance.

Mas o Google tem uma vantagem que a Nvidia não possui: ele é seu próprio maior cliente.

Ao equipar seus data centers com TPUs v8, o Google economiza bilhões de dólares que seriam pagos à concorrência.

Além disso, ele oferece esse poder de processamento para outras empresas via Google Cloud.

Essa movimentação financeira é acompanhada de perto por investidores no Buffett Archive.

O mercado financeiro vê com bons olhos a redução da dependência de um único fornecedor de hardware.

Comparativo de mercado

Nvidia: Líder em versatilidade e ecossistema de software (CUDA).
Google: Líder em integração com modelos próprios e eficiência em escala.
Amazon: Foco em custo-benefício para usuários de nuvem AWS.

O veredito: O Google pode vencer?

A chegada da oitava geração das TPUs prova que o Google não vai entregar o mercado de IA de bandeja.

A especialização entre treinamento e inferência é um passo lógico para uma tecnologia que se tornou complexa demais.

O uso de SRAM de alta capacidade mostra que o Google está disposto a investir no que há de mais caro para garantir performance.

No entanto, o sucesso final dependerá da facilidade de uso para os desenvolvedores que hoje estão acostumados com o ecossistema da Nvidia.

O cenário é desafiador, mas quem se mover rápido e com silício próprio sai na frente.

Não é apenas uma questão de potência — é uma questão de eficiência econômica e técnica.

Qual dessas mudanças você acha que terá o maior impacto na sua produtividade diária?