rbtfl.

Enterprise tech press; focuses on benchmark verification and developer adoption

立場別 · 1 論調 本号全体

VentureBeatがベンチマーク主張を独立検証した結果、Terminal-Bench 2.1で81.0、SWE-bench Proで62.1を記録し、両長期コーディングテストでGPT-5.5を上回った。OpenRouter経由のトークン単価はインプット100万トークン当たり約1.40ドルで、GPT-5.5の5ドルに対し低い。40Bの有効パラメータという数字は、推論あたりの計算量が見出しの744Bよりはるかに少ないことを意味し、大量のエージェント型ワークフローを実行する企業への実用的な含意を述べた。

“GLM-5.2はTerminal-Bench 2.1で81.0、SWE-bench Proで62.1を記録、インプット100万トークン1.40ドルに対しGPT-5.5は5ドル。”