MATH level 5

Level 5 (hardest) problems from the MATH dataset requiring advanced mathematical reasoning

Frontier

Category:mathematics

EDI:127.8

Slope:4.14

Leaderboard

(39 models)

Rank	Model	Score	Stderr
1	GPT-5.2	98.13	±0.00
2	o4-mini (high)	97.83	±0.00
3	o3	97.77	±0.00
4	Claude Opus 4.5	97.73	±0.00
5	Qwen3-Max-Instruct	97.13	±0.00
6	DeepSeek V3	96.64	±0.00
7	Claude Haiku 4.5	96.36	±0.01
8	Gemini 2.5 Pro (Jun 2025)	95.90	±0.00
9	o1	94.71	±0.01
10	DeepSeek R1	93.05	±0.01
11	Claude 3.7 Sonnet	91.16	±0.01
12	Grok-3 mini	90.94	±0.01
13	GPT-4.1 mini	87.29	±0.01
14	Gemini 2.0 Pro Exp (Feb 2025)	83.46	±0.01
15	GPT-4.1	83.01	±0.01
16	Mistral Large	81.63	±0.01
17	Gemma 3 27B	74.04	±0.01
18	Llama 4 Maverick (FP8)	73.02	±0.01
19	Gemini 1.5 Flash	70.39	±0.01
20	Qwen3-235B-A22B	68.86	±0.01
21	Qwen2.5-Max	67.18	±0.01
22	Qwen Plus	65.28	±0.01
23	Phi-4	64.94	±0.01
24	Grok 4	63.52	±0.01
25	Llama 4 Scout	62.27	±0.01
26	GPT-4o	53.28	±0.01
27	gpt-4o-mini-2024-07-18	52.63	±0.01
28	Llama 3.1 405B	49.77	±0.01
29	GPT-4 Turbo	46.73	±0.01
30	Claude 3.5 Haiku	46.36	±0.01
31	Llama 3.3 70B	41.60	±0.01
32	Claude 3 Opus	37.48	±0.01
33	Yi-6B	25.48	±0.01
34	Meta-Llama-3-8B-Instruct	22.55	±0.01
35	Phi-3-medium-128k-instruct	17.56	±0.01
36	gpt-3.5-turbo-1106	15.89	±0.01
37	Mistral-7B-v0.1	14.94	±0.01
38	Mixtral-8x7B-v0.1	9.29	±0.01
39	Llama-2-7b	3.29	±0.00

Data source: Epoch AI, “Data on AI Benchmarking”. Published at epoch.ai

Licensed under CC-BY 4.0