Overfitting (sobreajuste) é o problema em que um modelo de aprendizado de máquina aprende os dados de treinamento "de cor" — incluindo ruídos e particularidades aleatórias — e falha em generalizar para dados novos. É análogo a um aluno que decora as respostas do gabarito em vez de entender os conceitos: vai bem na prova específica, mas falha em questões novas. Os sintomas são claros: performance excelente no conjunto de treinamento, mas significativamente inferior no conjunto de teste. Causas comuns incluem modelo muito complexo para a quantidade de dados disponíveis, treinamento por muitas épocas sem monitoramento, ou dados de treinamento insuficientes. As principais técnicas para combater overfitting são: regularização (L1, L2, Dropout), data augmentation (criar variações artificiais dos dados de treino), early stopping (parar o treinamento quando a performance no conjunto de validação para de melhorar), e cross-validation para monitorar a generalização. O oposto do overfitting é o underfitting — quando o modelo é simples demais para capturar os padrões dos dados. O objetivo é encontrar o equilíbrio: um modelo complexo o suficiente para aprender os padrões relevantes, mas não tanto a ponto de memorizar ruído.
Navegar por letra: