Conjunto padronizado de tarefas e métricas usado para avaliar e comparar o desempenho de modelos de IA. Exemplos incluem MMLU, HumanEval, GPQA e Chatbot Arena. Benchmarks permitem comparações objetivas entre modelos.
Navegar por letra: