rbtfl.

Independent model benchmarking tracker; confirmed the June 30 release date and placed early third-party evaluations showing Sonnet 5 narrowing the gap to Mythos 5 on coding benchmarks while remaining well below it on reasoning tasks

立場別 · 1 論調 本号全体

Claude Sonnet 5の初期サードパーティベンチマーク結果を公表した。HumanEvalと命令フォロータスクでSonnet 4.5から有意な改善が見られた。Anthropicはいずれのモデルについても公式ベンチマーク比較を公表しておらず、Fable 5サイクル以降の傾向が続いていると指摘した。

“サードパーティのベンチマークではSonnet 5がコーディングタスクでSonnet 4.5を大幅に上回る一方、複雑な推論ではMythos 5との差が依然残る。”