Memória Intel Optane permite rodar LLM de 1 trilhão de parâmetros em GPU única

768 GB de memória. Esse é o volume impressionante que um entusiasta utilizou para quebrar uma barreira técnica que parecia intransponível para usuários comuns.

Ele conseguiu rodar um modelo de IA com 1 trilhão de parâmetros em uma única placa de vídeo doméstica.

O segredo dessa façanha? Uma tecnologia que a Intel decidiu abandonar há algum tempo, mas que ganhou vida nova nas mãos da comunidade de IA.

A volta dos que não foram

> "O sistema alcançou a marca de 4 tokens por segundo, provando que hardware antigo ainda tem fôlego para grandes modelos."

Segundo a tokens-per-second" target="_blank" rel="noopener noreferrer" class="text-primary hover:underline">fonte original, o usuário APFrisco compartilhou seu feito no Reddit, gerando discussões sobre hardware alternativo.

Ele utilizou módulos de memória Intel Optane Persistent Memory para alimentar o modelo Kimi K2.5.

O resultado desafia a lógica atual de que você precisa de supercomputadores caros para rodar modelos tão gigantescos localmente.

O que é a memória Optane e por que ela importa?

Para entender o feito, precisamos olhar para o passado recente da Intel.

A linha Optane foi criada para ser um meio-termo ideal entre a memória RAM comum (DRAM) e o armazenamento SSD.

Ela oferece uma latência muito menor que a dos melhores SSDs NVMe do mercado.

O custo-benefício do hardware usado

Embora seja duas ou três vezes mais lenta que a DRAM, a Optane é significativamente mais barata no mercado de usados.

Como a Intel descontinuou o formato, entusiastas estão comprando esses módulos por uma fração do preço original.

Isso permite carregar modelos imensos que, de outra forma, exigiriam dezenas de milhares de dólares em placas de vídeo profissionais.

A ficha técnica do sistema

O hardware utilizado não é o que você esperaria de um servidor de elite da OpenAI ou do Google.

Na verdade, o sistema é baseado em uma workstation Xeon com componentes que podem ser encontrados em sites de revenda.

Confira as especificações principais do projeto:

Processador: Intel Xeon Gold 6246
Placa-mãe: Tyan S5630GMRE-CGN
Placa de vídeo: Asus Dual GeForce RTX 3060 OC 12GB
Memória RAM: 6x 32GB Samsung 2666MHz DDR4 ECC
Memória Persistente: 6x 128GB Intel Optane DCPMM
Armazenamento: SSD Western Digital SN850X 2TB NVMe
Fonte: ASRock Steel Legend 850W 80 PLUS Gold

Como rodar 1 trilhão de parâmetros em casa?

Rodar o modelo Kimi K2.5 exigiu uma engenharia de software bastante específica e criativa.

O modelo utiliza uma arquitetura chamada Mixture-of-Experts (MoE), que ativa apenas partes do cérebro digital por vez.

O papel do software llama.cpp

O usuário utilizou o llama.cpp, uma ferramenta essencial para quem deseja rodar IAs em hardware limitado.

Ele configurou a memória Optane no chamado "Modo Memória". Nesse estado, a CPU enxerga a Optane como RAM principal.

A memória DDR4 comum, que é mais rápida, passa a funcionar como um cache de alta velocidade para o sistema.

> "A latência da Optane é muito menor que a de SSDs, o que é crucial para manter a fluidez da IA."

A placa de vídeo RTX 3060, com seus modestos 12 GB, cuidou apenas das partes mais pesadas do processamento matemático.

Desafios e limitações práticas

Apesar do sucesso visual, nem tudo são flores nessa configuração exótica de hardware.

A velocidade de 4 tokens por segundo é aceitável para leitura humana em tempo real, mas lenta para automações.

Além disso, a tecnologia Optane exige placas-mãe e processadores Xeon específicos para funcionar de forma persistente.

O fim de uma era tecnológica

Como a Intel encerrou oficialmente a linha Optane, encontrar esses módulos se tornará um desafio logístico no futuro.

Isso torna a solução um "hack" brilhante para o momento atual, mas com data de validade para o mercado de massa.

Mesmo assim, o experimento prova que a barreira para a IA de alto nível está diminuindo.

O veredito: vale a pena tentar?

O experimento mostra que não precisamos ficar presos aos preços proibitivos das placas de vídeo corporativas da Nvidia.

Existe um caminho alternativo que utiliza hardware de nicho e otimização de software inteligente para democratizar o acesso.

Talvez a solução para rodar IAs gigantescas não esteja apenas em chips novos e caros.

O reaproveitamento criativo de tecnologias descontinuadas pode ser a chave para muitos pesquisadores independentes.

Qual será o próximo componente "esquecido" que vai impulsionar a inteligência artificial na sua casa?