LoRA (Low-Rank Adaptation) é uma técnica de fine-tuning eficiente que permite adaptar modelos de linguagem grandes a tarefas específicas sem precisar atualizar todos os bilhões de parâmetros originais. Em vez de modificar os pesos completos do modelo, LoRA injeta pares de matrizes de baixo rank nas camadas do Transformer — apenas essas matrizes menores são treinadas. O resultado é que um fine-tuning que normalmente exigiria 80GB de VRAM pode ser feito com 8GB, e os arquivos de pesos adaptados ficam na ordem de megabytes em vez de gigabytes. Isso democratizou o fine-tuning de LLMs para laboratórios menores e desenvolvedores individuais. LoRA é a tecnologia por trás da proliferação de modelos customizados no Hugging Face — estilos artísticos específicos no Stable Diffusion, personagens, tons de voz. Variantes como QLoRA (que combina quantização 4-bit com LoRA) permitem fine-tuning de modelos de 70B parâmetros em uma única GPU de consumo. Para empresas brasileiras, LoRA é a forma prática de criar modelos especializados — um escritório jurídico pode criar um assistente treinado em sua base de jurisprudência com investimento modesto.
Navegar por letra: