OpenAI Codex CLI vs GitHub Copilot: Benchmark Comparison

Independent benchmark data · Real published scores only

📊 SWE-bench Verified

🏆 Higher Score

OpenAI Codex CLI

OpenAI

68.4

Trust Score V2

95% CI: 64.9 – 71.9

View full profile →

VS

GitHub Copilot

GitHub / Microsoft

64.7

Trust Score V2

95% CI: 61.2 – 68.2

View full profile →

Score Comparison

OpenAI Codex CLI

GitHub Copilot

Trust Score

68.4

64.7

Functional Acc.

69.1

46.3

Reliability

63.7

71.8

Policy Compliance

90.1

95.8

Key Metrics

Metric	OpenAI Codex CLI	GitHub Copilot
Trust Score V2	68.4	64.7
Functional Accuracy	69.1	46.3
Reliability Score	63.7	71.8
Policy Compliance	90.1	95.8
SWE-bench Pass@1	0.7%	0.5%
Benchmark	SWE-bench Verified	SWE-bench Verified
Last Evaluated	Mar 13, 2026	Mar 17, 2026
Model Base	o3	GPT-4o + Custom