Dicionário completo de inteligência artificial em português brasileiro. Definições claras de LLM, RAG, embeddings, tokens, fine-tuning e centenas de outros termos técnicos.
99 termos catalogados • 22 letras • Última atualização: maio de 2026
Sistema de inteligência artificial capaz de perceber o ambiente, tomar decisões e executar ações de forma autônoma para atingir um objetivo. Agentes modernos combinam LLMs com ferramentas externas, memória e planejamento.
Sistema hipotético de IA com capacidades cognitivas comparáveis ou superiores às humanas em qualquer tarefa intelectual. Diferente da IA atual (estreita), AGI poderia aprender, raciocinar e adaptar-se como um ser humano.
Conjunto de instruções ou regras definidas que um computador segue para resolver um problema ou realizar uma tarefa. Em IA, algoritmos processam dados para encontrar padrões e fazer previsões.
Quando um modelo de linguagem gera informações falsas, inventadas ou incorretas com aparência de serem verdadeiras. É um problema comum em LLMs que requer verificação das respostas.
Empresa de segurança e pesquisa em IA fundada em 2021 por ex-membros da OpenAI, incluindo Dario e Daniela Amodei. Criadora da família de modelos Claude. Pioneira em interpretabilidade mecanicista e alinhamento de IA.
Interface que permite que diferentes softwares se comuniquem entre si. APIs de IA como a da OpenAI permitem integrar modelos de linguagem em aplicações.
Tipo de Machine Learning onde um agente aprende a tomar decisões através de tentativa e erro, recebendo recompensas ou penalidades. Usado em jogos, robótica e sistemas de recomendação.
Técnica em redes neurais que permite ao modelo focar em partes relevantes dos dados de entrada. É a base da arquitetura Transformer usada em GPT, BERT e outros LLMs.
Rede neural que aprende a comprimir dados em uma representação compacta e depois reconstruí-los. Usado para redução de dimensionalidade, detecção de anomalias e geração de dados.
Algoritmo fundamental para treinar redes neurais. Calcula como cada peso contribui para o erro e os ajusta para minimizar esse erro, propagando o gradiente de trás para frente.
Conjunto padronizado de tarefas e métricas usado para avaliar e comparar o desempenho de modelos de IA. Exemplos incluem MMLU, HumanEval, GPQA e Chatbot Arena. Benchmarks permitem comparações objetivas entre modelos.
Bidirectional Encoder Representations from Transformers. Modelo de linguagem do Google que revolucionou o NLP ao considerar contexto bidirecional, melhorando compreensão de texto.
Em IA, refere-se a preconceitos ou distorções nos resultados de modelos, geralmente originados de dados de treinamento enviesados. Pode causar discriminação em sistemas de decisão.
Conjuntos de dados extremamente grandes e complexos que requerem ferramentas especiais para processamento. Caracterizado pelos 5 Vs: Volume, Velocidade, Variedade, Veracidade e Valor.
Técnica de prompt que instrui o modelo a "pensar passo a passo" antes de dar a resposta final. Melhora significativamente o desempenho em tarefas de raciocínio matemático e lógico. Abreviada como CoT.
Programa de computador que simula conversas humanas através de texto ou voz. Chatbots modernos usam IA para entender linguagem natural e fornecer respostas contextuais.
Modelo de linguagem conversacional da OpenAI baseado na arquitetura GPT. Capaz de gerar texto, responder perguntas, escrever código e realizar diversas tarefas de linguagem.
Claude é o assistente de inteligência artificial desenvolvido pela Anthropic, empresa americana fundada em 2021 por ex-pesquisadores da OpenAI. É considerado um dos modelos mais capazes do mundo em raciocínio, escrita e análise de documentos longos. A família Claude inclui versões como Haiku (rápida e econômica), Sonnet (equilíbrio entre velocidade e inteligência) e Opus (máxima capacidade). Um diferencial técnico é a enorme janela de contexto — até 200.000 tokens, equivalente a um livro inteiro — permitindo análise de documentos extensos em uma única sessão. A Anthropic é conhecida por sua pesquisa em segurança de IA (AI safety) e desenvolveu a abordagem Constitutional AI para alinhar o modelo a valores humanos. Claude tende a se destacar em escrita em português de alta qualidade, análise de textos jurídicos e técnicos, e programação. No Brasil, é amplamente usado por profissionais que precisam de qualidade superior na língua portuguesa. Disponível em plano gratuito (com limites) e Claude Pro (USD 20/mês). A API é oferecida via Anthropic Console para desenvolvedores que querem integrar Claude em aplicações.
Tipo de rede neural especializada em processar dados com estrutura de grade, como imagens. Usa convoluções para detectar padrões como bordas, texturas e objetos.
Campo da IA que treina computadores para interpretar e entender informações visuais. Aplicações incluem reconhecimento facial, carros autônomos e diagnóstico médico por imagem.
Quantidade máxima de tokens (palavras/caracteres) que um modelo de linguagem pode processar de uma vez. GPT-4 tem contexto de 128k tokens, Claude 3 tem 200k tokens.
Modelo de IA da OpenAI que gera imagens a partir de descrições textuais. DALL-E 3 produz imagens de alta qualidade com compreensão avançada de prompts.
Técnica para aumentar artificialmente o conjunto de dados de treinamento através de transformações (rotação, zoom, ruído). Melhora a generalização e robustez dos modelos.
Ciência de Dados é a disciplina que combina estatística, programação e conhecimento de domínio para extrair insights e valor a partir de dados. Um cientista de dados coleta, limpa, analisa e visualiza dados para apoiar decisões de negócio ou construir modelos preditivos. As habilidades centrais incluem programação em Python ou R, estatística descritiva e inferencial, SQL para manipulação de bancos de dados, e ferramentas de visualização como Tableau, Power BI ou matplotlib. Com a ascensão da IA generativa, a fronteira entre ciência de dados e engenharia de IA ficou mais porosa — muitos data scientists hoje trabalham com LLMs, fine-tuning e RAG, além das tarefas tradicionais. No Brasil, ciência de dados é uma das carreiras de tecnologia com maior demanda e salários mais altos — profissionais sêniors chegam a R$ 15.000-25.000/mês em 2026. Setores como fintech, agronegócio, saúde e varejo estão entre os maiores contratantes. A formação pode ser em estatística, computação, engenharia, ou via bootcamps e cursos online — há um ecossistema rico de formação em português, com comunidades ativas como a Data Hackers e PyData Brasil.
Subcampo de Machine Learning que usa redes neurais com múltiplas camadas para aprender representações hierárquicas de dados. Base de avanços em visão, linguagem e áudio.
Laboratório de IA chinês e família de modelos de linguagem. O DeepSeek-R1 chamou atenção global em 2025 por alcançar desempenho comparável ao GPT-4 com treinamento muito mais econômico. Modelos disponíveis open-source.
Modelos generativos que criam dados (especialmente imagens) aprendendo a reverter um processo de adição de ruído. Base do Stable Diffusion, Midjourney e DALL-E 3.
Sistema de pontuação derivado do xadrez, adaptado para comparar modelos de IA com base em confrontos diretos avaliados por humanos. Usado pelo Chatbot Arena (LMSYS) para criar rankings de preferência humana.
Representação numérica (vetor) de dados como palavras, imagens ou conceitos em um espaço de alta dimensão. Captura significado semântico e permite operações matemáticas.
Uma passagem completa pelos dados de treinamento durante o treino de um modelo. Múltiplos epochs são necessários para o modelo aprender padrões adequadamente.
Técnica onde modelos aprendem tarefas novas com poucos exemplos. LLMs demonstram few-shot learning quando recebem exemplos no prompt para guiar suas respostas.
Fine-tuning (ajuste fino) é o processo de continuar o treinamento de um modelo pré-treinado com um conjunto de dados específico para adaptar seu comportamento a uma tarefa ou domínio particular. Em vez de treinar um modelo do zero — o que exige recursos computacionais enormes — o fine-tuning parte de um modelo que já aprendeu representações ricas da linguagem e o especializa com exemplos relevantes. Por exemplo: um LLM genérico pode ser fine-tuned com contratos jurídicos brasileiros para melhorar sua precisão em terminologia legal; um modelo de atendimento ao cliente pode ser fine-tuned com histórico de conversas da empresa para adotar seu tom e política. O resultado é um modelo customizado que combina o conhecimento geral do modelo base com expertise no domínio específico. Técnicas modernas como LoRA e QLoRA tornaram o fine-tuning acessível: é possível adaptar modelos de dezenas de bilhões de parâmetros em GPUs de consumo, em poucas horas, com conjuntos de treinamento de centenas a poucos milhares de exemplos. Para empresas brasileiras, o fine-tuning é a diferença entre um assistente genérico e um especialista no produto, no mercado e na linguagem específica do negócio.
Modelo de IA treinado em dados massivos que serve como base para diversas aplicações. Exemplos: GPT-4, Claude, Llama. Podem ser adaptados para tarefas específicas.
Capacidade de um LLM de identificar quando deve chamar uma função externa e gerar os parâmetros necessários em formato estruturado (JSON). Permite integrar modelos com APIs, bancos de dados e ferramentas em tempo real.
Arquitetura com duas redes neurais competindo: um gerador cria dados falsos e um discriminador tenta distingui-los dos reais. Usado para gerar imagens realistas.
Gemini é a família de modelos de linguagem multimodais desenvolvida pelo Google DeepMind, lançada em dezembro de 2023 como resposta direta ao ChatGPT. Os modelos Gemini são nativamente multimodais — treinados conjuntamente em texto, imagem, áudio e vídeo desde o início, diferente de abordagens que adicionam modalidades separadamente. A família inclui versões como Flash (rápida e econômica), Pro (equilíbrio geral) e Ultra/Exp (máxima capacidade). Um diferencial técnico é a enorme janela de contexto — chegando a 2 milhões de tokens em versões recentes — que permite processar livros inteiros, repositórios de código e longas gravações em uma única sessão. O Gemini é integrado ao ecossistema Google: disponível no Google AI Studio, no Workspace (Docs, Sheets, Gmail), no Android e no Search. Para usuários brasileiros que já usam Google Workspace em suas empresas, o Gemini Advanced (incluído no Google One AI Premium) é a integração mais natural. O Gemini Flash se destaca como o modelo de melhor custo-benefício por token entre os grandes provedores — ideal para aplicações de alto volume.
Arquitetura de modelo de linguagem da OpenAI treinada para prever a próxima palavra. GPT-4 e GPT-5 são os modelos mais avançados, capazes de raciocínio complexo.
Algoritmo de otimização usado para minimizar a função de erro ajustando parâmetros do modelo. Move-se na direção de maior redução do erro iterativamente.
Modelo de linguagem da xAI (empresa de Elon Musk), integrado ao X (Twitter). Conhecido por tom irreverente e acesso a informações em tempo real da plataforma.
Técnica que ancora as respostas de um LLM em fontes de informação verificáveis e atuais, como resultados de busca ou documentos específicos. Reduz alucinações ao conectar o modelo a dados do mundo real.
Alucinação é o fenômeno em que um modelo de linguagem gera informações incorretas, inventadas ou sem base factual com aparente confiança. O modelo não "sabe" que está errando — ele produz o texto mais provável estatisticamente, independentemente de ser verdadeiro. Exemplos comuns incluem citar artigos científicos inexistentes, inventar datas e nomes de pessoas reais, ou descrever eventos que nunca aconteceram. As causas são múltiplas: lacunas no dado de treinamento, ambiguidade na pergunta do usuário, ou o próprio mecanismo de geração probabilística. Para minimizar alucinações, são usadas técnicas como RAG (Retrieval Augmented Generation), que ancora o modelo em documentos reais, e RLHF, que penaliza respostas incorretas durante o treinamento. No contexto empresarial brasileiro, a alucinação é um risco crítico em aplicações jurídicas, médicas e financeiras — onde uma informação inventada pode causar dano real. A verificação humana continua sendo essencial em qualquer fluxo de trabalho crítico que utilize IA generativa.
Plataforma líder para compartilhamento de modelos de IA, datasets e ferramentas. Hub da comunidade open source de ML com biblioteca Transformers muito popular.
Campo da ciência da computação dedicado a criar sistemas que executam tarefas que normalmente requerem inteligência humana: aprendizado, raciocínio, percepção e linguagem.
Sistemas de IA capazes de criar conteúdo novo: texto, imagens, código, música, vídeos. Inclui LLMs (ChatGPT), modelos de imagem (Midjourney) e áudio (Suno).
Capacidade de um LLM de aprender um novo padrão ou tarefa a partir de exemplos fornecidos diretamente no prompt, sem atualizar os pesos do modelo. Base do few-shot prompting.
Processo de usar um modelo treinado para fazer previsões em novos dados. Diferente do treinamento, inferência não atualiza os pesos do modelo.
Framework open-source em Python e JavaScript para construir aplicações com LLMs. Oferece abstrações para chains, agentes, memória, recuperação de documentos e integrações com dezenas de provedores de IA.
Espaço Latente é a representação interna comprimida que um modelo de IA aprende para codificar dados complexos. Em vez de trabalhar diretamente com pixels de uma imagem ou palavras de um texto, o modelo cria um mapa de coordenadas de menor dimensão onde exemplos similares ficam próximos. Por exemplo, em um modelo de geração de imagens, o espaço latente pode ter 512 dimensões — cada ponto nesse espaço corresponde a uma possível imagem. Imagens de rostos ficariam agrupadas numa região; paisagens, em outra. O poder do espaço latente está na continuidade: mover-se gradualmente entre dois pontos gera exemplos intermediários coerentes (interpolação), o que não seria possível com os dados brutos. Modelos de difusão como o Stable Diffusion operam no espaço latente (latent diffusion), o que os torna mais eficientes que modelos que operam diretamente em pixels. O conceito é central em autoencoders, VAEs, GANs e modelos de difusão. No contexto de LLMs, as representações internas das camadas intermediárias do Transformer formam um espaço latente de linguagem.
Família de LLMs open source da Meta (Facebook). Llama 3 compete com modelos proprietários, permitindo uso comercial e pesquisa em IA de linguagem.
Modelos de IA treinados em bilhões de parâmetros usando textos massivos. Capazes de gerar, traduzir, resumir e raciocinar sobre texto. Ex: GPT-4, Claude, Gemini.
LoRA (Low-Rank Adaptation) é uma técnica de fine-tuning eficiente que permite adaptar modelos de linguagem grandes a tarefas específicas sem precisar atualizar todos os bilhões de parâmetros originais. Em vez de modificar os pesos completos do modelo, LoRA injeta pares de matrizes de baixo rank nas camadas do Transformer — apenas essas matrizes menores são treinadas. O resultado é que um fine-tuning que normalmente exigiria 80GB de VRAM pode ser feito com 8GB, e os arquivos de pesos adaptados ficam na ordem de megabytes em vez de gigabytes. Isso democratizou o fine-tuning de LLMs para laboratórios menores e desenvolvedores individuais. LoRA é a tecnologia por trás da proliferação de modelos customizados no Hugging Face — estilos artísticos específicos no Stable Diffusion, personagens, tons de voz. Variantes como QLoRA (que combina quantização 4-bit com LoRA) permitem fine-tuning de modelos de 70B parâmetros em uma única GPU de consumo. Para empresas brasileiras, LoRA é a forma prática de criar modelos especializados — um escritório jurídico pode criar um assistente treinado em sua base de jurisprudência com investimento modesto.
Subcampo da IA onde sistemas aprendem padrões a partir de dados sem serem explicitamente programados. Tipos: supervisionado, não supervisionado e por reforço.
Protocolo aberto criado pela Anthropic para padronizar a comunicação entre LLMs e ferramentas externas. Permite que modelos se conectem a bancos de dados, APIs e serviços de forma segura e padronizada.
Midjourney é uma ferramenta de geração de imagens por inteligência artificial, fundada em 2022 e acessada via Discord ou aplicativo web. Dado um prompt de texto, o Midjourney gera imagens de alta qualidade artística que rapidamente se tornaram referência em design, ilustração e visualização criativa. O modelo passou por várias versões — da v1 à v7 — com melhoras progressivas em realismo, coerência e controle. Diferente de concorrentes como o Stable Diffusion (open source) e o DALL-E da OpenAI, o Midjourney é proprietário e focado em estética — suas imagens frequentemente possuem qualidade artística superior para fins criativos. É muito usado por designers, publicitários, criadores de conteúdo e game developers no Brasil para criar assets visuais rapidamente. A versão gratuita foi descontinuada em 2023 — o serviço opera por assinatura (a partir de USD 10/mês, ~R$ 58 em 2026). Para profissionais brasileiros de criação, o Midjourney é uma das ferramentas de IA com ROI mais imediato: uma hora de uso pode gerar dezenas de imagens que substituem dias de trabalho de ilustração tradicional.
Mistral é uma empresa francesa de inteligência artificial fundada em 2023 por ex-pesquisadores do Google DeepMind e Meta. Tornou-se rapidamente referência em modelos open source de alta eficiência. Seu primeiro modelo, o Mistral 7B, surpreendeu ao superar modelos muito maiores em benchmarks — demonstrando que parâmetros não são tudo. A empresa adotou uma estratégia de transparência: seus modelos menores são lançados com licença permissiva (Apache 2.0), enquanto modelos maiores (como Mistral Large) são disponibilizados via API paga. A arquitetura do Mistral usa técnicas como Grouped Query Attention (GQA) e Sliding Window Attention para ser mais eficiente que modelos comparáveis. O Mixtral 8x7B, um Mixture of Experts (MoE), foi outro marco: com performance comparável ao GPT-4 em alguns benchmarks, roda com a eficiência de um modelo 7B ativo por vez. No contexto europeu, o Mistral é visto como a alternativa europeia aos modelos americanos e chineses, relevante para compliance com regulação da UE (GDPR, AI Act). Para desenvolvedores brasileiros, o Mistral 7B e suas derivações são populares para rodar localmente via Ollama, sem custo de API e com boa qualidade em português.
MLOps (Machine Learning Operations) é o conjunto de práticas, ferramentas e processos que permitem desenvolver, implantar e manter modelos de aprendizado de máquina em produção de forma confiável e eficiente. É a fusão dos princípios de DevOps com as particularidades do ciclo de vida de modelos de IA. As etapas do MLOps incluem: versionamento de dados e modelos, pipelines automatizados de treinamento, monitoramento de performance em produção, detecção de data drift (mudança na distribuição dos dados ao longo do tempo) e retreinamento automático. Ferramentas populares incluem MLflow, Kubeflow, Weights & Biases e o SageMaker da AWS. No Brasil, a adoção de MLOps ainda é incipiente — muitas empresas treinam modelos mas não têm infraestrutura para monitorar sua degradação em produção. Um modelo de detecção de fraude bancária, por exemplo, pode se tornar ineficaz em meses se os padrões de fraude evoluírem e não houver retreinamento. MLOps é o que transforma um experimento de data science em um produto de software robusto e sustentável.
Representação matemática treinada para fazer previsões ou gerar outputs a partir de inputs. Modelos de IA aprendem padrões dos dados durante o treinamento.
Multimodal refere-se a sistemas de IA capazes de processar e gerar múltiplos tipos de dados — texto, imagens, áudio e vídeo — em uma única arquitetura integrada. Um modelo multimodal não apenas entende cada modalidade isoladamente, mas consegue relacioná-las: interpretar uma imagem e responder perguntas sobre ela em texto, gerar uma imagem a partir de uma descrição, ou transcrever e resumir um vídeo. Os modelos multimodais mais relevantes em 2026 incluem o GPT-4o (texto, imagem, áudio), o Gemini (texto, imagem, vídeo, áudio) e o Claude com visão (texto e imagens). A arquitetura geralmente envolve encoders especializados para cada modalidade que convertem os dados em representações no mesmo espaço vetorial, possibilitando o raciocínio conjunto. Para o mercado brasileiro, o multimodal abre casos de uso antes impossíveis: análise automática de notas fiscais digitalizadas, interpretação de exames de imagem médica com geração de laudos em português, assistência visual para pessoas com deficiência, e análise de contratos que misturem texto e tabelas. A tendência é que a fronteira entre modalidades continue se dissolvendo, com modelos cada vez mais capazes de raciocinar sobre o mundo como humanos fazem — integrando visão, linguagem e som de forma fluida.
Plataforma open-source de automação de workflows com interface visual low-code. Permite integrar centenas de serviços, incluindo LLMs, sem necessidade de programação avançada. Alternativa self-hosted ao Zapier.
Rede Neural Artificial é um sistema computacional inspirado na estrutura do cérebro humano, composto por camadas de nós (neurônios artificiais) interconectados por pesos ajustáveis. A informação flui da camada de entrada, passa por camadas ocultas onde é transformada, e produz uma saída. Cada neurônio recebe sinais ponderados, aplica uma função de ativação não-linear (como ReLU ou sigmoid) e transmite o resultado adiante. O aprendizado ocorre pelo ajuste iterativo dos pesos via backpropagation: o erro na saída é propagado de volta pela rede, e os pesos são atualizados para minimizar esse erro. Redes neurais são a base de praticamente toda a IA moderna: redes convolucionais (CNNs) para visão computacional, Transformers para linguagem, e redes recorrentes (RNNs) para sequências temporais. A profundidade — número de camadas ocultas — é o que distingue o deep learning das redes neurais superficiais. Mais camadas permitem aprender representações mais abstratas e complexas, ao custo de maior necessidade de dados e poder computacional para treinar.
Processamento de Linguagem Natural (PLN ou NLP, do inglês Natural Language Processing) é o campo da inteligência artificial que lida com a compreensão e geração de linguagem humana por computadores. Abrange tarefas como análise de sentimentos, tradução automática, resumo de textos, extração de informações, chatbots e reconhecimento de voz. O PLN teve um salto qualitativo enorme com a introdução dos Transformers em 2017 (artigo "Attention is All You Need") e depois com modelos pré-treinados em larga escala como o BERT e o GPT. Para o contexto brasileiro, o PLN em português tem desafios específicos: o idioma tem rica morfologia (flexões, conjugações), variações regionais significativas, e os grandes modelos foram majoritariamente treinados em inglês. Isso motivou iniciativas como o BERTimbau (BERT treinado em corpus português) e o Sabiá (LLM brasileiro da Maritaca AI). Hoje, ferramentas de PLN são usadas no Brasil em atendimento ao cliente, análise de contratos jurídicos, monitoramento de redes sociais e compliance regulatório.
OCR (Optical Character Recognition, ou Reconhecimento Óptico de Caracteres) é a tecnologia que converte imagens de texto — como documentos escaneados, fotos de placas ou páginas de livros — em texto digital editável e pesquisável. O processo analisa os padrões visuais de cada caractere e os mapeia para o código de texto correspondente. A evolução do OCR seguiu a evolução da IA: as primeiras soluções usavam padrões fixos; soluções modernas usam redes neurais convolucionais e Transformers, com desempenho muito superior em fontes variadas, documentos danificados e textos manuscritos. No Brasil, o OCR é tecnologia crítica para a digitalização de documentos públicos, cartórios e arquivos históricos. É também fundamental em processos de onboarding digital de clientes em bancos e fintechs — extraindo dados de RG, CPF e comprovantes de renda automaticamente. Ferramentas como o Tesseract (open source), o Google Cloud Vision, o Azure Document Intelligence e o Amazon Textract são as mais usadas. Para documentos jurídicos e médicos manuscritos em português, soluções especializadas são necessárias, pois a caligrafia e terminologia técnica apresentam desafios adicionais que os modelos genéricos ainda não resolvem completamente.
Ferramenta open-source que permite rodar modelos de linguagem localmente, sem enviar dados para a nuvem. Suporta modelos como Llama, Mistral e Phi com instalação simples via terminal.
Open Source em IA refere-se a modelos, ferramentas e datasets cujo código-fonte, pesos ou ambos são disponibilizados publicamente, permitindo inspeção, uso e modificação. Na prática, existem gradações: alguns projetos liberam apenas o código de treinamento sem os pesos (open code); outros liberam os pesos mas com restrições de uso comercial (como versões anteriores do Llama); e outros são verdadeiramente abertos (como o Mistral 7B, que usa licença Apache 2.0). Os benefícios do open source incluem privacidade (modelo roda localmente, sem enviar dados a terceiros), custo (sem taxa por token), customização (fine-tuning para domínio específico) e independência de fornecedor. Para empresas brasileiras com dados sensíveis — saúde, jurídico, financeiro — a possibilidade de rodar IA internamente é frequentemente decisiva. Os modelos open source mais relevantes em 2026 incluem o Llama 4 (Meta), Mistral Medium (Mistral AI), Gemma 3 (Google) e Sabiá-3 (Maritaca AI, único brasileiro). A comunidade Hugging Face é o principal repositório e ponto de encontro do ecossistema open source de IA.
OpenAI é a empresa americana de inteligência artificial fundada em 2015 como organização sem fins lucrativos, com missão de garantir que a IA geral beneficie a humanidade. Em 2019, criou uma estrutura "capped profit" para atrair investimentos, recebendo aportes bilionários da Microsoft. É responsável pelo ChatGPT, o assistente de IA mais usado do mundo, e pelos modelos da família GPT, além do gerador de imagens DALL-E e do modelo de voz Whisper. A OpenAI iniciou a corrida comercial dos LLMs ao lançar o ChatGPT em novembro de 2022, alcançando 100 milhões de usuários em dois meses — o crescimento mais rápido da história de um aplicativo de consumo. No Brasil, o ChatGPT é a ferramenta de IA mais conhecida e usada por consumidores e empresas. A OpenAI possui acordos comerciais com Microsoft (integração ao Office 365, Azure) e compete com Google (Gemini), Anthropic (Claude) e Meta (Llama). Sua estratégia de API permite que desenvolvedores e empresas integrem os modelos OpenAI em seus produtos, gerando uma receita significativa além das assinaturas diretas.
Overfitting (sobreajuste) é o problema em que um modelo de aprendizado de máquina aprende os dados de treinamento "de cor" — incluindo ruídos e particularidades aleatórias — e falha em generalizar para dados novos. É análogo a um aluno que decora as respostas do gabarito em vez de entender os conceitos: vai bem na prova específica, mas falha em questões novas. Os sintomas são claros: performance excelente no conjunto de treinamento, mas significativamente inferior no conjunto de teste. Causas comuns incluem modelo muito complexo para a quantidade de dados disponíveis, treinamento por muitas épocas sem monitoramento, ou dados de treinamento insuficientes. As principais técnicas para combater overfitting são: regularização (L1, L2, Dropout), data augmentation (criar variações artificiais dos dados de treino), early stopping (parar o treinamento quando a performance no conjunto de validação para de melhorar), e cross-validation para monitorar a generalização. O oposto do overfitting é o underfitting — quando o modelo é simples demais para capturar os padrões dos dados. O objetivo é encontrar o equilíbrio: um modelo complexo o suficiente para aprender os padrões relevantes, mas não tanto a ponto de memorizar ruído.
Parâmetros são os valores numéricos internos de um modelo de IA que são aprendidos durante o treinamento e definem como o modelo processa informações. Em redes neurais, parâmetros incluem os pesos (weights) das conexões entre neurônios e os vieses (biases) de cada neurônio. O número de parâmetros é frequentemente usado como proxy para a capacidade do modelo — mais parâmetros geralmente significam mais capacidade de aprender padrões complexos, mas também mais custo computacional para treinar e rodar. Modelos modernos são medidos em bilhões de parâmetros: o GPT-2 tinha 1,5 bilhão; estima-se que modelos como o GPT-4 tenham mais de 1 trilhão. Porém, parâmetros não são tudo — a qualidade dos dados de treinamento e as técnicas de alinhamento são igualmente determinantes. A expressão "modelos de bilhões de parâmetros" tornou-se sinônimo de LLMs na linguagem popular. Modelos menores e eficientes (como o Mistral 7B com apenas 7 bilhões de parâmetros) demonstraram que quantidade não é o único determinante de qualidade — arquitetura e dados de alta qualidade podem superar modelos maiores treinados com menos cuidado. No contexto prático, mais parâmetros significa maior custo de inferência e necessidade de hardware mais potente para rodar o modelo localmente.
Perceptron é a unidade computacional mais básica de uma rede neural artificial, proposta por Frank Rosenblatt em 1958. Inspirado no neurônio biológico, o perceptron recebe múltiplas entradas numéricas, multiplica cada uma por um peso, soma os resultados com um viés, e passa o total por uma função de ativação que determina sua saída. Na forma mais simples, a função de ativação é um degrau: se a soma ponderada ultrapassar um limiar, o perceptron "dispara" (saída 1); caso contrário, permanece inativo (saída 0). O perceptron pode aprender a classificar dados linearmente separáveis — por exemplo, distinguir dois grupos de pontos separados por uma linha reta. Sua limitação fundamental, demonstrada por Minsky e Papert em 1969, é que não consegue resolver problemas não-linearmente separáveis como o XOR. A solução foi empilhar múltiplos perceptrons em camadas (Multilayer Perceptron, MLP) com funções de ativação não-lineares, que superam qualquer limitação linear. Hoje, os perceptrons são a unidade conceitual fundamental para entender redes neurais modernas — bilhões de neurônios artificiais com estrutura similar ao perceptron, mas com funções de ativação mais sofisticadas como ReLU e GELU, formam os LLMs que potencializam toda a IA atual.
Instrução ou texto de entrada fornecido a um modelo de linguagem para guiar sua resposta. A qualidade do prompt afeta significativamente a qualidade do output.
Engenharia de Prompt é a prática de formular instruções para modelos de linguagem de forma a obter as melhores saídas possíveis. Assim como saber pesquisar bem no Google é uma habilidade, saber instruir uma IA é uma disciplina em si. As técnicas incluem: Chain-of-Thought (pedir ao modelo para "pensar passo a passo"), Few-Shot (fornecer exemplos no prompt), Role Prompting (atribuir um papel: "você é um advogado especialista em LGPD"), e estruturação clara de contexto, tarefa e formato de saída esperado. A qualidade do prompt afeta dramaticamente o resultado — o mesmo modelo pode dar respostas excelentes ou medíocres dependendo de como é instruído. No contexto profissional brasileiro, prompt engineering é cada vez mais uma competência valorizada em marketing, direito, RH e desenvolvimento de produto. Há debate sobre se a necessidade de prompt engineering diminuirá à medida que os modelos ficam melhores em entender intenção — modelos mais recentes já requerem prompts menos elaborados. Mas para casos de uso específicos e aplicações empresariais, o refinamento de prompts continua sendo uma das formas mais eficientes de melhorar resultados sem custo adicional de treinamento.
PyTorch é uma biblioteca open source de aprendizado de máquina desenvolvida pelo Facebook (Meta) e lançada em 2016. É a plataforma dominante na pesquisa acadêmica e na maioria das startups de IA. Sua principal característica é o modo de execução dinâmico (eager execution): os grafos computacionais são criados em tempo de execução, o que facilita o debug e a experimentação — você pode inspecionar e modificar tensores em qualquer ponto com ferramentas padrão de Python. Quase todos os grandes modelos publicados em papers acadêmicos são implementados em PyTorch: GPT, BERT, Diffusion Models, Llama, Mistral. O ecossistema inclui: torchvision (visão computacional), torchaudio (processamento de áudio), torchtext (PLN), e a integração nativa com Hugging Face Transformers, que é a biblioteca padrão para trabalhar com modelos pré-treinados. Para desenvolvedores brasileiros que querem entrar na área de IA, PyTorch é geralmente o ponto de entrada recomendado — a curva de aprendizado é mais suave que TensorFlow e há mais recursos e comunidade ativa.
Técnica que reduz o tamanho de um modelo de IA comprimindo seus parâmetros de ponto flutuante de 32 ou 16 bits para 8, 4 ou até 1 bit. Permite rodar modelos grandes em hardware mais simples com pequena perda de qualidade.
RAG (Retrieval-Augmented Generation) é uma técnica que combina recuperação de informação com geração de texto para produzir respostas fundamentadas em documentos reais. O processo funciona em duas etapas: primeiro, o sistema busca documentos relevantes em uma base de conhecimento (usando busca semântica por embeddings); depois, esses documentos são incluídos no contexto do modelo de linguagem, que gera uma resposta baseada nas informações recuperadas. RAG resolve o principal problema dos LLMs: o conhecimento estático limitado à data de corte do treinamento e a tendência a alucinar. Com RAG, o modelo pode responder sobre documentos que nunca viu durante o treinamento — contratos da empresa, documentação técnica, notícias recentes. Para o mercado brasileiro, RAG é a base de assistentes jurídicos (que consultam jurisprudência em tempo real), sistemas de atendimento ao cliente (que consultam base de conhecimento interna) e assistentes de compliance (que verificam regulamentos atualizados). Ferramentas como LangChain, LlamaIndex e o próprio Supabase com pgvector facilitam a implementação de RAG em produção. É considerada a técnica mais impactante para aplicações empresariais de IA em 2024-2026.
Tipo de LLM treinado especificamente para raciocínio passo a passo complexo, geralmente com uma fase de "pensamento" interna antes da resposta final. Exemplos: o1, o3 (OpenAI), DeepSeek-R1, Claude 3.7 Sonnet.
Regularização é um conjunto de técnicas usadas durante o treinamento de modelos de aprendizado de máquina para evitar o overfitting — a situação em que o modelo aprende os dados de treinamento "de cor", mas falha em generalizar para dados novos. As abordagens mais comuns incluem L1 (Lasso), que força alguns pesos do modelo a zero simplificando a estrutura; L2 (Ridge), que penaliza pesos muito grandes; e Dropout, que desativa aleatoriamente neurônios durante o treinamento, forçando a rede a aprender representações mais robustas. A regularização é analogamente uma forma de "ensinar o modelo a não colar na prova" — em vez de memorizar respostas específicas, ele aprende princípios mais gerais. A intensidade da regularização é controlada por um hiperparâmetro: regularização demais resulta em underfitting (modelo muito simples); regularização de menos resulta em overfitting. O ajuste correto é um dos desafios centrais do treinamento de modelos de IA modernos.
RLHF (Reinforcement Learning from Human Feedback) é a técnica de treinamento usada para alinhar modelos de linguagem a preferências humanas — tornando-os mais úteis, seguros e agradáveis de usar. O processo tem três etapas: primeiro, humanos avaliam pares de respostas do modelo, indicando qual é melhor; segundo, essas avaliações treinam um modelo separado (reward model) que aprende a prever qual resposta humanos prefeririam; terceiro, o LLM original é ajustado via reinforcement learning para maximizar o score do reward model. O RLHF é o que transforma um modelo de previsão de texto genérico em um assistente que segue instruções, recusa pedidos perigosos e responde de forma mais natural. O ChatGPT, Claude e Gemini todos usam variantes de RLHF. A técnica tem limitações: o reward model pode capturar vieses dos anotadores humanos, e o processo pode levar o modelo a "hackear" o reward model gerando respostas que parecem boas para o avaliador mas não são genuinamente melhores — fenômeno chamado de reward hacking. Alternativas e variantes incluem DPO (Direct Preference Optimization), RLAIF (RL from AI Feedback) e Constitutional AI, desenvolvida pela Anthropic.
RNN (Rede Neural Recorrente) é uma arquitetura de rede neural projetada para processar dados sequenciais, como texto, áudio e séries temporais. Diferente das redes feedforward tradicionais, as RNNs possuem conexões cíclicas que permitem que informações de passos anteriores influenciem o processamento do passo atual — a rede tem uma forma de "memória" de curto prazo. O estado oculto da RNN é atualizado a cada passo da sequência, acumulando contexto. As variantes mais importantes incluem LSTM (Long Short-Term Memory), que resolve o problema do gradiente que desaparece em sequências longas usando portões de memória, e GRU (Gated Recurrent Unit), uma versão simplificada do LSTM. As RNNs foram a arquitetura dominante em PLN antes do surgimento dos Transformers em 2017. Hoje, os Transformers substituíram as RNNs na maioria das tarefas de linguagem, pois processam sequências em paralelo (mais eficientes em hardware moderno) e capturam dependências de longo alcance melhor. As RNNs ainda são usadas em algumas aplicações de séries temporais e processamento de áudio em tempo real onde o processamento passo-a-passo é necessário, mas perderam dominância nos benchmarks de NLP.
Self-Attention (ou auto-atenção) é o mecanismo central da arquitetura Transformer que permite ao modelo pesar a importância de cada palavra em relação a todas as outras palavras em uma sequência, simultaneamente. Para cada token, o mecanismo calcula três vetores: Query (o que estou procurando?), Key (o que eu ofereço?) e Value (o que eu carrego de informação?). A atenção de um token para os demais é calculada pelo produto interno de sua Query com as Keys de todos os outros tokens, normalizado por softmax. O resultado é uma soma ponderada dos Values — o modelo aprende a "focar" nos tokens mais relevantes para cada posição. Isso resolve uma limitação crítica das RNNs: nestas, a informação do início de uma frase longa precisava percorrer muitos passos para influenciar o final, perdendo força. Com self-attention, qualquer token pode "ver" qualquer outro diretamente, independente da distância. A complexidade é quadrática em relação ao comprimento da sequência (O(n²)), o que motivou variantes mais eficientes como Sparse Attention e Flash Attention usadas em modelos com contextos longos.
Busca semântica é uma abordagem de recuperação de informação que entende o significado e a intenção por trás de uma consulta, em vez de apenas procurar palavras-chave exatas. Diferente da busca tradicional (que retorna documentos contendo os termos pesquisados), a busca semântica pode encontrar textos relacionados mesmo que não compartilhem nenhuma palavra com a query. Isso é possível porque textos são convertidos em vetores numéricos (embeddings) que capturam o significado semântico — textos com sentidos próximos ficam próximos no espaço vetorial. Na prática brasileira, a busca semântica é fundamental em sistemas de atendimento ao cliente, onde o usuário pode perguntar "meu pedido não chegou" e o sistema encontra artigos sobre "rastreamento de entrega" mesmo sem correspondência de palavras. É também a tecnologia base do RAG, de sistemas de busca jurídica e de plataformas de e-commerce inteligente. Modelos como o text-embedding-ada-002 da OpenAI e os da família Sentence Transformers são amplamente usados para criar esses embeddings.
Modelo de geração de vídeo da OpenAI que cria vídeos realistas a partir de prompts de texto. Revolucionário em qualidade e consistência temporal.
Stable Diffusion é um modelo de geração de imagens por IA, open source, lançado pela Stability AI em 2022. Funciona por difusão latente: começa com ruído aleatório em um espaço latente comprimido e iterativamente o refina, guiado por um prompt de texto, até gerar uma imagem coerente. Por ser open source e relativamente eficiente computacionalmente (roda em GPUs de consumo com 4-8GB de VRAM), o Stable Diffusion gerou um ecossistema enorme de ferramentas, interfaces e modelos customizados. Interfaces como o AUTOMATIC1111 e o ComfyUI permitem controle granular sobre o processo de geração. O conceito de LoRA se popularizou principalmente via Stable Diffusion, onde usuários criam e compartilham adaptações para estilos artísticos específicos, personagens ou fotografias realistas. Em 2026, o Stable Diffusion continua relevante como alternativa open source aos serviços pagos como Midjourney e Adobe Firefly. Para profissionais criativos brasileiros que precisam de volume alto de imagens sem custo de assinatura, ou que precisam de controle total sobre o processo criativo, o Stable Diffusion é a escolha natural.
Aprendizado Supervisionado é o paradigma mais comum de treinamento de modelos de IA, no qual o modelo aprende a partir de pares de exemplos rotulados: entrada e saída esperada. O modelo ajusta seus parâmetros para minimizar a diferença entre suas previsões e os rótulos corretos fornecidos por humanos. Exemplos práticos incluem: classificação de e-mails como spam ou não-spam (entrada: e-mail; saída: spam/não-spam), previsão de preços de imóveis (entrada: características do imóvel; saída: preço), detecção de fraudes bancárias (entrada: transação; saída: fraude/legítima), e modelos de visão que identificam doenças em exames médicos. A qualidade do aprendizado supervisionado depende diretamente da qualidade e quantidade dos dados rotulados — que são caros e trabalhosos de produzir. Por isso, RLHF (Reinforcement Learning from Human Feedback) e técnicas de aprendizado semi-supervisionado ganharam relevância para reduzir a necessidade de anotação humana extensiva. No Brasil, há crescente demanda por serviços de anotação de dados em português, tanto de texto quanto de imagem e vídeo, o que criou oportunidades para freelancers e empresas especializadas.
Instrução inicial enviada ao modelo antes da conversa do usuário, geralmente invisível ao usuário final. Define a personalidade, regras, restrições e contexto de comportamento do modelo em uma aplicação específica.
Temperature (temperatura) é um parâmetro que controla o grau de aleatoriedade nas respostas geradas por modelos de linguagem. Em termos técnicos, modifica a distribuição de probabilidade sobre os possíveis próximos tokens antes da amostragem. Com temperature = 0, o modelo sempre escolhe o token mais provável, tornando as respostas determinísticas e previsíveis. Com temperature = 1 (padrão), o modelo segue a distribuição aprendida. Com temperature > 1, a distribuição é "achatada" — tokens menos prováveis ganham mais chance, gerando respostas mais criativas, diversas e às vezes surpreendentes. Na prática: use temperature baixa (0 a 0,3) para tarefas que exigem precisão, como extração de dados estruturados, classificação ou código. Use temperature alta (0,7 a 1) para criatividade, como geração de ideias, escrita criativa ou brainstorming. Temperature é frequentemente confundida com "inteligência" do modelo — não é: ela apenas controla a variabilidade. Um modelo rodado com temperature 0 pode parecer mais inteligente porque erra menos, mas pode ser menos útil em tarefas criativas.
TensorFlow é uma biblioteca open source de aprendizado de máquina desenvolvida pelo Google e lançada em 2015. É uma das duas plataformas dominantes para desenvolvimento de modelos de IA (junto com o PyTorch). O TensorFlow usa grafos computacionais estáticos — você define toda a estrutura do cálculo antes de executá-lo, o que permite otimizações eficientes e implantação em produção. Com a introdução do modo eager execution e do Keras como API de alto nível, o TensorFlow tornou-se mais acessível. O ecossistema TensorFlow é vasto: TensorFlow Lite para dispositivos móveis, TensorFlow.js para rodar modelos no navegador, TensorFlow Extended (TFX) para pipelines de produção, e TensorFlow Hub para reutilização de modelos pré-treinados. Historicamente, o TensorFlow dominou a produção industrial enquanto o PyTorch dominava a pesquisa acadêmica. Hoje, o gap diminuiu. No Brasil, ambas são usadas — PyTorch ganhou terreno em pesquisa e startups, enquanto TensorFlow permanece forte em times com herança de sistemas Google Cloud ou legados corporativos.
Token é a unidade básica de processamento usada pelos modelos de linguagem. Um token pode ser uma palavra completa, parte de uma palavra (subpalavra), um número, um sinal de pontuação, ou até um espaço em branco — dependendo do algoritmo de tokenização usado. O GPT da OpenAI usa o BPE (Byte Pair Encoding), onde palavras comuns são tokens únicos ("casa" = 1 token) e palavras raras são divididas em subpalavras ("tokenização" pode virar 3-4 tokens). Entender tokens é fundamental para usar APIs de IA de forma econômica. A maioria das APIs cobra por token processado (input + output). Em português, textos geralmente usam 15-25% mais tokens que o equivalente em inglês, porque palavras portuguesas são mais longas e os vocabulários dos modelos foram treinados predominantemente em inglês. Regra prática: 1.000 tokens ≈ 750 palavras em inglês ou ≈ 600 palavras em português. A janela de contexto de um modelo (ex: 128k tokens) determina o máximo que ele pode processar em uma chamada — para o Claude com 200k tokens, isso equivale a aproximadamente 120.000 palavras em português, suficiente para um livro inteiro.
Tokenização é o processo de dividir texto em unidades menores chamadas tokens antes de alimentar um modelo de linguagem. Tokens não são necessariamente palavras — podem ser sílabas, subpalavras ou até caracteres individuais, dependendo do algoritmo usado. Por exemplo, a palavra "inteligência" pode ser dividida em tokens como ["intelig", "ência"] no vocabulário de um modelo. Os modelos mais modernos usam Byte-Pair Encoding (BPE), que aprende as divisões mais eficientes a partir dos dados de treinamento. O número de tokens afeta diretamente o custo das APIs de IA — você paga por token processado. Em português, textos tendem a usar mais tokens que em inglês para o mesmo conteúdo, porque palavras portuguesas são geralmente mais longas e os vocabulários dos modelos foram treinados majoritariamente em inglês. Isso significa que processar conteúdo em português é ~20-30% mais caro que em inglês nas principais APIs. A janela de contexto de um modelo (ex: 128k tokens) determina o máximo de texto que ele pode processar em uma única chamada.
Capacidade de um LLM de decidir quando e como usar ferramentas externas (buscas, calculadoras, APIs) para completar uma tarefa. Termo mais amplo que Function Calling, engloba qualquer interação com sistemas externos.
Transfer Learning (aprendizado por transferência) é a técnica de usar um modelo pré-treinado em uma tarefa grande como ponto de partida para uma tarefa diferente ou mais específica. Em vez de treinar um modelo do zero — o que exige enormes volumes de dados e poder computacional — você parte de um modelo que já aprendeu representações ricas do mundo (idioma, imagens, conceitos) e o adapta com muito menos dados. Isso é o que acontece quando você usa o ChatGPT ou o Claude: eles foram pré-treinados em trilhões de tokens de texto, e depois foram fine-tuned para seguir instruções. O conceito se tornou o paradigma dominante na IA moderna — treinar do zero é raro e caro. Para empresas brasileiras, o transfer learning é especialmente relevante porque permite criar soluções customizadas sem investimento em infraestrutura massiva. Por exemplo: uma clínica pode pegar um modelo médico base e fazer fine-tuning com seus próprios protocolos; um banco pode adaptar um modelo de linguagem para o vocabulário específico de seus contratos. A diferença de custo entre treinar do zero e fazer transfer learning pode ser de 100x a 10.000x.
Arquitetura de rede neural introduzida em 2017 que usa attention para processar sequências em paralelo. Base de GPT, BERT, Gemini e todos os LLMs modernos.
Teste proposto por Alan Turing onde um avaliador tenta distinguir respostas de máquina e humano. Se não conseguir, a máquina passa no teste.
Aprendizado Não-Supervisionado é o paradigma de treinamento em que o modelo aprende a partir de dados sem rótulos — sem que alguém precise indicar a resposta correta para cada exemplo. O modelo descobre por conta própria estruturas, padrões e agrupamentos nos dados. As técnicas principais incluem: clustering (agrupamento), onde o modelo agrupa dados similares (ex: K-means, DBSCAN); redução de dimensionalidade, que comprime dados de alta dimensão preservando estrutura relevante (ex: PCA, t-SNE, UMAP); e modelos generativos, que aprendem a distribuição dos dados para gerar novas amostras (ex: VAEs, GANs). O aprendizado não-supervisionado é fundamental quando dados rotulados são escassos ou impossíveis de obter — que é a situação para a maioria dos dados disponíveis no mundo. O pré-treinamento de LLMs é essencialmente não-supervisionado: o modelo aprende a prever a próxima palavra em trilhões de textos sem anotação humana, desenvolvendo representações ricas de linguagem que depois são refinadas com técnicas supervisionadas. Para empresas brasileiras, clustering não-supervisionado é amplamente usado em segmentação de clientes, detecção de anomalias em transações e descoberta de tópicos em feedbacks não estruturados.
Autoencoder Variacional (VAE) é um tipo de rede neural generativa que aprende a comprimir dados em uma representação compacta (espaço latente) e depois reconstruí-los. A palavra "variacional" refere-se ao fato de que o espaço latente é tratado como uma distribuição probabilística, não um ponto fixo — isso permite que o modelo gere novas amostras ao amostrar pontos diferentes dessa distribuição. O processo funciona em duas etapas: o encoder comprime a entrada (por exemplo, uma imagem) em parâmetros de uma distribuição gaussiana (média e variância); o decoder amostra dessa distribuição e reconstrói a saída. VAEs são usados para geração de imagens, síntese de áudio, descoberta de drogas e compressão de dados. Comparado aos GANs (Redes Adversariais Generativas), o VAE é mais estável durante o treinamento e oferece um espaço latente contínuo e interpretável — o que permite interpolações suaves entre exemplos. Por exemplo, é possível interpolar entre dois rostos no espaço latente e gerar rostos intermediários de forma gradual.
Banco de dados otimizado para armazenar e buscar embeddings (vetores). Essencial para RAG, busca semântica e sistemas de recomendação. Ex: Pinecone, Weaviate.
Estilo de desenvolvimento onde o programador descreve o que quer em linguagem natural e deixa um LLM gerar o código, iterando por prompts em vez de escrever código diretamente. Popularizado em 2025 com ferramentas como Cursor e Claude Code.
Vision Transformer (ViT) é uma arquitetura de rede neural que aplica o mecanismo Transformer — originalmente criado para processar texto — ao processamento de imagens. Em vez de usar convoluções (como as CNNs tradicionais), o ViT divide a imagem em pequenos patches (pedaços), trata cada patch como um "token" e processa a sequência de patches com camadas de self-attention. O resultado é um modelo que captura relações globais na imagem desde as primeiras camadas, em vez de construir representações hierárquicas locais como as CNNs. O ViT foi introduzido pelo Google em 2020 e demonstrou que Transformers podiam superar CNNs em benchmarks de classificação de imagens quando treinados com dados suficientes. Hoje, o ViT é a base de modelos multimodais como o CLIP (OpenAI) e o Gemini, que conectam visão e linguagem. Para o mercado brasileiro, o ViT é relevante em aplicações de visão computacional: análise de documentos digitalizados, triagem médica por imagem e inspeção de qualidade industrial.
Pesos (weights) são os parâmetros numéricos aprendidos por uma rede neural durante o treinamento. Cada conexão entre neurônios tem um peso associado que determina a importância daquele sinal no processamento. Durante o treinamento, esses pesos são ajustados iterativamente pelo algoritmo de backpropagation e gradient descent, minimizando o erro nas previsões do modelo. Um modelo grande como o GPT tem bilhões de pesos — o ChatGPT tem estimados 175 bilhões de parâmetros, e modelos mais recentes chegam a trilhões. Os pesos são o que distingue um modelo treinado de uma rede inicializada aleatoriamente — eles codificam todo o conhecimento que o modelo adquiriu. Quando você faz download de um modelo open source como o Llama ou o Mistral, o que você baixa são os arquivos de pesos. O fine-tuning consiste em ajustar os pesos de um modelo pré-treinado em novos dados, preservando o conhecimento base mas adaptando-o a uma tarefa específica. Técnicas como LoRA permitem fazer esse ajuste modificando apenas uma pequena fração dos pesos, reduzindo dramaticamente o custo computacional.
Whisper é um modelo open source de reconhecimento automático de voz (ASR) desenvolvido pela OpenAI e lançado em 2022. É treinado em 680.000 horas de áudio multilíngue coletado da internet, o que lhe confere suporte a mais de 90 idiomas — incluindo português brasileiro com qualidade excepcional. O Whisper realiza transcrição de fala para texto e pode também traduzir fala de outros idiomas diretamente para inglês. Sua arquitetura é baseada em Transformers encoder-decoder, semelhante a modelos de tradução de texto. Por ser open source, pode ser rodado localmente sem custo de API, o que o torna ideal para processar áudio com dados sensíveis (consultas médicas, reuniões corporativas confidenciais). Existem versões de diferentes tamanhos — de tiny a large — com tradeoff entre velocidade e precisão. Implementações otimizadas como o faster-whisper (baseado em CTranslate2) alcançam transcrição em tempo real mesmo em hardware modesto. No Brasil, o Whisper é amplamente usado para legendar vídeos, transcrever podcasts, automatizar atas de reunião e em sistemas de atendimento telefônico inteligente. É considerado o melhor modelo gratuito disponível para português brasileiro.
Aprendizado Zero-Shot é a capacidade de um modelo de realizar tarefas para as quais não foi explicitamente treinado, apenas com base em uma descrição da tarefa em linguagem natural. Por exemplo, um modelo treinado para classificar textos pode, sem exemplos adicionais, classificar sentimentos em críticas de restaurantes simplesmente porque a instrução descreve a tarefa com clareza. Essa capacidade emergiu em modelos de linguagem grandes (LLMs) como subproduto do treinamento em vastas quantidades de texto — o modelo aprendeu padrões gerais de raciocínio e instrução-seguimento. Contrasta com o Few-Shot Learning, onde são fornecidos alguns exemplos no prompt, e com o Fine-Tuning, onde o modelo é retreinado com novos dados. No contexto prático brasileiro, o Zero-Shot é muito usado em classificação de e-mails, moderação de conteúdo e extração de informações, pois elimina a necessidade de datasets anotados para cada novo caso de uso — reduzindo custo e tempo de implantação. O sucesso do Zero-Shot depende muito da qualidade do prompt e da capacidade do modelo base.
O campo de inteligência artificial tem um vocabulário técnico vasto e em constante expansão. Para quem está começando — ou até para profissionais — entender os termos corretos é fundamental para tomar boas decisões sobre qual tecnologia usar, como avaliar modelos e como implementar soluções de IA no Brasil.
LLM (Large Language Model) é o tipo de modelo mais prevalente em 2026. Treinados em trilhões de palavras, esses modelos aprendem a prever o próximo token com tanta precisão que emergem capacidades de raciocínio, geração de código, análise e tradução. Os principais LLMs incluem GPT-4o (OpenAI), Claude (Anthropic), Gemini (Google), Llama (Meta) e DeepSeek. Cada um tem trade-offs distintos de qualidade, preço e velocidade.
RAG (Retrieval-Augmented Generation) permite que modelos acessem bases de conhecimento externas sem necessidade de retreinamento. Fine-tuning adapta um modelo pré-treinado para um domínio específico usando dados proprietários. Prompt engineering é a arte de formular instruções que extraem o melhor comportamento dos modelos. Para o mercado brasileiro, RAG é particularmente útil para sistemas que precisam acessar legislação nacional, regulamentos da ANVISA, LGPD ou dados de clientes.
Tokens são a unidade básica de processamento — uma palavra em português equivale a aproximadamente 1.5-2 tokens. Context window define quanto texto o modelo processa por vez: modelos como GPT-4 (128K tokens), Claude (200K+) e Gemini (1M+) podem processar documentos longos ou históricos extensos de conversa. As APIs dos principais modelos cobram por milhão de tokens processados, com preços variando de US$ 0.01 (modelos leves) a US$ 60+ (modelos frontier) por milhão de tokens de input.
Embeddings são representações numéricas de texto em espaço vetorial de alta dimensão. Textos com significados similares ficam próximos nesse espaço, permitindo busca semântica (encontrar documentos por significado, não por palavra-chave exata). Bancos de dados vetoriais como Pinecone, Weaviate, pgvector (Postgres) e Supabase Vector armazenam esses embeddings e permitem consultas por similaridade — a base técnica de sistemas RAG modernos.
Modelos multimodais processam múltiplos tipos de input — texto, imagens, áudio e vídeo. GPT-4o, Claude 3.5 e Gemini 1.5 Pro são exemplos de modelos multimodais. Agentes de IA são sistemas que combinam LLMs com ferramentas externas (APIs, bancos de dados, código) e memória persistente para executar tarefas complexas de forma autônoma. Tool calling (function calling) é a capacidade de invocar funções externas — base dos sistemas agênticos modernos.
LLM (Large Language Model) é um modelo de linguagem de grande escala treinado em vastos conjuntos de dados textuais. Exemplos incluem GPT-4, Claude, Gemini e Llama. Esses modelos aprendem padrões estatísticos da linguagem para gerar e entender texto.
RAG (Retrieval-Augmented Generation) é uma técnica que combina busca em base de conhecimento externa com geração de texto. Em vez de depender apenas do conhecimento do modelo, o RAG busca documentos relevantes e os usa como contexto para gerar respostas mais precisas e atualizadas.
Tokens são unidades de texto que os modelos processam — podem ser palavras, sílabas ou caracteres individuais. Em inglês, uma palavra = ~1.3 tokens. Em português, ~1.5-2 tokens por palavra. O preço das APIs é cobrado por milhão de tokens processados.
Fine-tuning é o processo de refinar um modelo de IA pré-treinado com dados específicos de um domínio ou tarefa. Permite personalizar o comportamento do modelo sem treiná-lo do zero, economizando custo e tempo computacional.
Context window (janela de contexto) é a quantidade máxima de texto que um modelo pode processar de uma vez — incluindo a entrada (prompt) e a saída (resposta). Medida em tokens: modelos modernos variam de 8K a mais de 1M tokens de contexto.