GPQA_diamond

Graduate-level science questions in physics, chemistry, and biology requiring expert knowledge

Frontier

Category:reasoning

EDI:135.7

Slope:2.71

Leaderboard

(45 models)

Rank	Model	Score	Stderr
1	Gemini 3 Pro	92.61	±0.02
2	GPT-5.2	91.40	±0.02
3	Grok 4	87.00	±0.02
4	Claude Opus 4.5	86.05	±0.02
5	Gemini 2.5 Pro (Jun 2025)	85.29	±0.02
6	kimi-k2-thinking (official)	84.22	±0.02
7	DeepSeek V3	83.42	±0.02
8	Claude Sonnet 4.5	82.32	±0.03
9	o3	81.82	±0.02
10	Qwen 3 235B	80.05	±0.03
11	Claude 3.7 Sonnet	79.73	±0.03
12	o4-mini (high)	79.61	±0.02
13	o1	76.77	±0.03
14	Grok-3 mini	76.26	±0.03
15	GPT-OSS 120B	75.76	±0.03
16	Qwen3-Max-Instruct	72.60	±0.03
17	DeepSeek R1	71.72	±0.03
18	Claude Haiku 4.5	71.21	±0.03
19	Qwen3-235B-A22B	70.71	±0.03
20	GPT-4.1	68.69	±0.03
21	Llama 4 Maverick (FP8)	66.98	±0.03
22	GPT-4.1 mini	65.85	±0.03
23	Gemini 2.0 Pro Exp (Feb 2025)	65.66	±0.03
24	Qwen Plus	65.40	±0.03
25	Mistral Large	59.53	±0.03
26	Gemini 1.5 Flash	57.23	±0.03
27	Gemini 2.0 Flash Thinking Exp	57.07	±0.04
28	Qwen2.5-Max	56.12	±0.03
29	Phi-4	56.06	±0.03
30	Llama 4 Scout	51.83	±0.03
31	Llama 3.1 405B	50.92	±0.03
32	GPT-4o	49.21	±0.03
33	Gemma 3 27B	48.86	±0.03
34	Llama 3.3 70B	47.44	±0.03
35	Claude 3 Opus	47.16	±0.03
36	GPT-4 Turbo	46.59	±0.03
37	Meta-Llama-3-8B-Instruct	40.56	±0.03
38	Claude 3.5 Haiku	38.13	±0.03
39	gpt-4o-mini-2024-07-18	37.72	±0.02
40	Yi-6B	31.98	±0.02
41	Mixtral-8x7B-v0.1	30.59	±0.02
42	gpt-3.5-turbo-1106	28.03	±0.02
43	Phi-3-medium-128k-instruct	27.59	±0.02
44	Mistral-7B-v0.1	27.15	±0.02
45	Llama-2-7b	26.33	±0.02

Data source: Epoch AI, “Data on AI Benchmarking”. Published at epoch.ai

Licensed under CC-BY 4.0