O que é RAG?
RAG (Retrieval-Augmented Generation) combina busca semântica com geração de texto. Em vez de depender apenas do treino, você fornece documentos relevantes em tempo real.
Por que usar RAG?
LLMs têm data de corte e não conhecem seus documentos internos. Com RAG você resolve os dois: o modelo responde com seus dados, atualizados e privados.
Arquitetura
Ingestão → Indexação (embeddings + vector store) → Recuperação (chunks relevantes como contexto no prompt).
Implementando
pip install langchain openai chromadb pypdfCarregue PDFs com PyPDFLoader, divida com RecursiveCharacterTextSplitter, indexe no ChromaDB e use RetrievalQA.
Dicas
- Chunk size 512-1024 tokens
- Overlap 10-20% entre chunks
- Re-ranking melhora precisão
