Glossário de IA

Token

Letra T

Definição

Token é a unidade básica de processamento usada pelos modelos de linguagem. Um token pode ser uma palavra completa, parte de uma palavra (subpalavra), um número, um sinal de pontuação, ou até um espaço em branco — dependendo do algoritmo de tokenização usado. O GPT da OpenAI usa o BPE (Byte Pair Encoding), onde palavras comuns são tokens únicos ("casa" = 1 token) e palavras raras são divididas em subpalavras ("tokenização" pode virar 3-4 tokens). Entender tokens é fundamental para usar APIs de IA de forma econômica. A maioria das APIs cobra por token processado (input + output). Em português, textos geralmente usam 15-25% mais tokens que o equivalente em inglês, porque palavras portuguesas são mais longas e os vocabulários dos modelos foram treinados predominantemente em inglês. Regra prática: 1.000 tokens ≈ 750 palavras em inglês ou ≈ 600 palavras em português. A janela de contexto de um modelo (ex: 128k tokens) determina o máximo que ele pode processar em uma chamada — para o Claude com 200k tokens, isso equivale a aproximadamente 120.000 palavras em português, suficiente para um livro inteiro.

Termos Relacionados

Ver também

Navegar por letra: