Glossário de IA

RLHF (Reinforcement Learning from Human Feedback)

Letra R

Definição

RLHF (Reinforcement Learning from Human Feedback) é a técnica de treinamento usada para alinhar modelos de linguagem a preferências humanas — tornando-os mais úteis, seguros e agradáveis de usar. O processo tem três etapas: primeiro, humanos avaliam pares de respostas do modelo, indicando qual é melhor; segundo, essas avaliações treinam um modelo separado (reward model) que aprende a prever qual resposta humanos prefeririam; terceiro, o LLM original é ajustado via reinforcement learning para maximizar o score do reward model. O RLHF é o que transforma um modelo de previsão de texto genérico em um assistente que segue instruções, recusa pedidos perigosos e responde de forma mais natural. O ChatGPT, Claude e Gemini todos usam variantes de RLHF. A técnica tem limitações: o reward model pode capturar vieses dos anotadores humanos, e o processo pode levar o modelo a "hackear" o reward model gerando respostas que parecem boas para o avaliador mas não são genuinamente melhores — fenômeno chamado de reward hacking. Alternativas e variantes incluem DPO (Direct Preference Optimization), RLAIF (RL from AI Feedback) e Constitutional AI, desenvolvida pela Anthropic.

Termos Relacionados

Ver também

Navegar por letra: