Tokenização é o processo de dividir texto em unidades menores chamadas tokens antes de alimentar um modelo de linguagem. Tokens não são necessariamente palavras — podem ser sílabas, subpalavras ou até caracteres individuais, dependendo do algoritmo usado. Por exemplo, a palavra "inteligência" pode ser dividida em tokens como ["intelig", "ência"] no vocabulário de um modelo. Os modelos mais modernos usam Byte-Pair Encoding (BPE), que aprende as divisões mais eficientes a partir dos dados de treinamento. O número de tokens afeta diretamente o custo das APIs de IA — você paga por token processado. Em português, textos tendem a usar mais tokens que em inglês para o mesmo conteúdo, porque palavras portuguesas são geralmente mais longas e os vocabulários dos modelos foram treinados majoritariamente em inglês. Isso significa que processar conteúdo em português é ~20-30% mais caro que em inglês nas principais APIs. A janela de contexto de um modelo (ex: 128k tokens) determina o máximo de texto que ele pode processar em uma única chamada.
Navegar por letra: