Independent model benchmarking tracker; confirmed the June 30 release date and placed early third-party evaluations showing Sonnet 5 narrowing the gap to Mythos 5 on coding benchmarks while remaining well below it on reasoning tasks
立場別 · 1 論調 本号全体
LLM Stats · Global · AnthropicがClaude Sonnet 5をリリース、Claude 5ミッドティアラインナップが完成
Claude Sonnet 5の初期サードパーティベンチマーク結果を公表した。HumanEvalと命令フォロータスクでSonnet 4.5から有意な改善が見られた。Anthropicはいずれのモデルについても公式ベンチマーク比較を公表しておらず、Fable 5サイクル以降の傾向が続いていると指摘した。
“サードパーティのベンチマークではSonnet 5がコーディングタスクでSonnet 4.5を大幅に上回る一方、複雑な推論ではMythos 5との差が依然残る。”