Técnica que reduz o tamanho de um modelo de IA comprimindo seus parâmetros de ponto flutuante de 32 ou 16 bits para 8, 4 ou até 1 bit. Permite rodar modelos grandes em hardware mais simples com pequena perda de qualidade.
Navegar por letra: