LLM Benchmark Comparison 2026

Compare benchmark scores across 25 large language models. Sort by Arena ELO, Coding ELO, HumanEval, MMLU, MATH, and GPQA. Click any column to sort, or use the chart to visualize rankings.

Benchmark Rankings

Provider:

25 of 25 models

Model	Arena ELO	Coding ELO	Reasoning ELO	HumanEval	MMLU	MATH	GPQA
o4-miniOpenAI	1350	1380	1390	94.2	91	93.4	76.7
Gemini 2.5 ProGoogle	1340	1350	1360	94	92	90.5	74
Claude Opus 4Anthropic	1330	1360	1340	95.2	91.5	85.4	74.8
DeepSeek R1DeepSeek	1310	1330	1350	93	89	91	72
o3-miniOpenAI	1310	1340	1350	92.8	87.3	90.2	70.5
Grok 3xAI	1300	1290	1295	91	89	80	63.5
GPT-4.1OpenAI	1290	1320	1285	93.4	90.2	82.1	66.3
Llama 4 MaverickMeta	1290	1280	1275	91.5	88	78	60.5
Claude Sonnet 4Anthropic	1280	1305	1275	92	88.7	78.3	65.2
DeepSeek V3DeepSeek	1280	1300	1260	92	87.5	78.5	59
Gemini 2.0 FlashGoogle	1260	1240	1230	88	85.5	73.5	52.8
GPT-4oOpenAI	1260	1265	1250	90.2	88.7	76.6	53.6
Qwen 2.5 MaxAlibaba	1260	1250	1240	88.5	86	76	55
Llama 4 ScoutMeta	1250	1230	1220	88	85	72.5	53
Mistral LargeMistral	1245	1240	1230	89	86.5	74	55
GPT-4.1 MiniOpenAI	1240	1230	1210	89.5	84.5	73.8	50.1
Claude Haiku 4Anthropic	1220	1195	1185	86.5	83	68.2	48.5
GPT-4o MiniOpenAI	1220	1200	1180	87.2	82	70.2	43.9
Grok 3 MinixAI	1220	1200	1210	85	82	70	48
Command R+Cohere	1200	1160	1170	80.5	82	60	42
Gemini 2.0 Flash LiteGoogle	1200	1170	1160	82	80	65	42
Mistral SmallMistral	1185	1160	1150	82.5	79	62.5	40
GPT-4.1 NanoOpenAI	1180	1150	1140	83	78.5	62.1	38.5
Phi-4Microsoft	1150	1130	1140	80	80.5	72	45
Command RCohere	1140	1100	1110	75	75.5	52	35