Parâmetros são os valores numéricos internos de um modelo de IA que são aprendidos durante o treinamento e definem como o modelo processa informações. Em redes neurais, parâmetros incluem os pesos (weights) das conexões entre neurônios e os vieses (biases) de cada neurônio. O número de parâmetros é frequentemente usado como proxy para a capacidade do modelo — mais parâmetros geralmente significam mais capacidade de aprender padrões complexos, mas também mais custo computacional para treinar e rodar. Modelos modernos são medidos em bilhões de parâmetros: o GPT-2 tinha 1,5 bilhão; estima-se que modelos como o GPT-4 tenham mais de 1 trilhão. Porém, parâmetros não são tudo — a qualidade dos dados de treinamento e as técnicas de alinhamento são igualmente determinantes. A expressão "modelos de bilhões de parâmetros" tornou-se sinônimo de LLMs na linguagem popular. Modelos menores e eficientes (como o Mistral 7B com apenas 7 bilhões de parâmetros) demonstraram que quantidade não é o único determinante de qualidade — arquitetura e dados de alta qualidade podem superar modelos maiores treinados com menos cuidado. No contexto prático, mais parâmetros significa maior custo de inferência e necessidade de hardware mais potente para rodar o modelo localmente.
Navegar por letra: