GPT-4.5は期待外れ：OpenAIの最新版の裏側

GPT-4.5：期待外れの発表、OpenAIの最新版の裏側

AI業界最大手が、革新を期待される世界で、少しずつの改良版を出すとどうなるのか？

OpenAIのGPT-4.5の発表ほど、AIの世界で期待と現実のギャップが大きく感じられたことはありません。SNSでは、前モデルより安価で、劇的に性能が向上した、巨大なモデルが登場するという予測で盛り上がっていました。しかし、OpenAI自身が公開したシステムカードを読むと、より冷静な現実が見えてきます。

あるAI投資家は、技術仕様を確認した後、「これは進歩に見せかけた停滞だ」と語りました。「市場は飛躍的な進歩を期待していたが、実際には慎重な小幅な改善だった。」

GPT-4.5の真実：わずかな改善、安全性を重視

OpenAIはGPT-4.5を「これまでで最大かつ最も知識豊富なモデル」と位置づけ、STEM分野に特化せず、汎用的な能力に焦点を当てた設計と、事前学習のさらなる拡大を強調しています。このモデルでは、標準的な教師ありファインチューニングと人間からのフィードバックによる強化学習に加えて、高度な教師あり技術を使用しています。

しかし、システムカードを詳しく見ると、そのアプローチは明らかに漸進的なものです。ユーザーにとって最も重要なベンチマークである実際の性能は、GPT-4oと比べてわずかな改善しか示していません。

最も明確な証拠は、最近導入されたソフトウェアエンジニアリングタスクのベンチマークであるSWE-Lancerからのものです。ここで、GPT-4.5は前モデルよりもわずかに優れているだけです。つまり、ほとんどの実用的なアプリケーションでは、2つのモデルの能力は事実上区別できません。

ある業界関係者は、「まるでJensen HuangがOpenAIで精密な切断技術を披露しているようだ」と冗談めかして言いました。これは、NVIDIAのCEOと、その改善の外科的な性質を指しています。

安全第一：GPT-4.5の真の目標

能力の向上は控えめに見えますが、安全性の向上には多大な注意が払われています。

禁止コンテンツのテストでは、GPT-4.5は標準的な拒否シナリオでは以前のモデルと同様の性能を示しましたが、WildChat（通常とは異なる人間とAIの会話）およびXSTest（誤解を招くスピーチ）の評価ではわずかに改善が見られました。
誤情報の生成率を評価する幻覚評価では、GPT-4.5はPersonQA評価でGPT-4oおよびo1を上回り、誤った情報を生成する割合が低くなりました。
公平性とバイアスの評価では、GPT-4.5はBBQ評価でGPT-4oと同等の性能を示しましたが、明示的な質問に答える場合、o1よりもわずかに劣っていました。

技術文書をレビューしたあるAI科学者は、「今回のリリースは、OpenAIが能力の飛躍的な向上よりも安全性の向上を優先していることを示唆している。倫理的な観点からは擁護できるが、自社の宣伝によって高まった市場の期待との間で緊張が生じる」と述べています。

コストの問題：30倍も高い？

おそらく最も懸念されるのは、GPT-4.5のコストに関する噂です。AI開発コミュニティ内の複数の情報筋は、このモデルのトレーニングと運用にかかるコストが、GPT-4oや他の主要な競合他社よりも大幅に高いことを示唆しています。

ある開発者は、「この価格では、Sam Altman自身しか使えないだろう」と冗談を言いました。「入力コストは100万トークンあたり75ドル、出力コストは100万トークンあたり150ドルかかるらしい！？」

OpenAIはこれらの数値を認めていませんが、わずかな改善が、大幅なコスト増加に見合う価値があるのかどうかという疑問が残ります。

市場への影響：AIバブルの終焉

GPT-4.5の期待外れのデビューは、AIセクターに広範囲な影響を与える可能性があります。ある著名な投資家は、これを業界にとって「赤い旗ではなく、黄色の旗」と表現しました。

「OpenAIの慎重な反復は、LLM市場における非合理的な熱狂を冷ますリスクがある」と彼らは説明しました。「これは、評価と投資戦略に重要な現実を突きつけます。AIバブルに針で小さな穴を開けているようなものです。」

その影響は、主要な関係者に波及する可能性があります。

競合他社にとって: Claude 3.7 Sonnetは、当面LLMの王として君臨し続けるでしょう。

OpenAIにとって: 同社は短期的なPRの課題に直面していますが、わずかな改善と高いコストを正当化するために、企業向けソリューションと安全性に関する議論に軸足を移す可能性があります。評価に対する監視が強化され、資金調達がより困難になる可能性があります。

競合他社にとって: AnthropicやGoogleのような企業は、GPT-4.5の期待外れの発表によって、能力の差が縮まったと認識されるため、一息つくことができます。これにより、競合他社がOpenAIのつまずきに乗じて、積極的なマーケティングや価格競争が引き起こされる可能性があります。

ユーザーにとって: 早期導入者は、その価値提案に疑問を抱き、GPT-4oにとどまる可能性があります。安全性を重視する企業はわずかなメリットを感じるかもしれませんが、劇的な改善を期待していた消費者は失望するでしょう。

投資家にとって: AI投資の「手当たり次第に投資する」時代は、投資家が単なる大規模な言語モデルを超えて、具体的なROIと差別化された価値を求めるにつれて、冷え込む可能性があります。これにより、AIインフラストラクチャ、専門アプリケーション、および単なる大規模な言語モデルではなく、効率に焦点を当てた企業へのシフトが進む可能性があります。

NVIDIAにとって: GPUの需要は依然として強いものの、「無限のスケーリング」というシナリオは課題に直面する可能性があり、効率的な推論と特定のタスクのための特殊なAIハードウェアへの焦点が移る可能性があります。

今後の展望：スケーリングよりもイノベーション

あるAI開発者は、「当面の間、LLMの主な方向性はテスト時スケーリングになるだろう。現在のトランスフォーマーアプローチに革命をもたらす新しいアーキテクチャ、おそらくRWKV、おそらくDLM、またはまだ論文段階のものが出てこない限り」と示唆しました。

この見解は、事前トレーニングが推論モデルにとって依然として重要であり、引き続き拡大するものの、サンプル効率だけが唯一の道ではないことを認めています。開発者が述べたように、「私たちはガソリンを使って車を運転しているのであって、GPT-4.5のような原油を使っているわけではありません。」

市場は、力ずくのスケーリングよりも、アーキテクチャの革新とアルゴリズムの効率をますます重視する可能性があります。推論効率と費用対効果の高いモデルを最適化する企業は、セクターが成熟するにつれて勢いを増す可能性があります。

次のステップ：必要な修正

GPT-4.5の「失望」は、最終的にはAI市場にとって有益であることが証明される可能性があり、スケーリングへの盲信から、現実世界の価値、効率、および真のイノベーションへのより現実的な焦点への移行を強制します。

次の飛躍は、単に「より大きく」なることではなく、より賢く、より効率的で、より特殊化されたものになるでしょう。最初の失望にもかかわらず、この現実のチェックは、市場とテクノロジー自体にとってより健全な方向につながる可能性があります。

ある投資家が結論付けたように、「真のAIゴールドラッシュは始まったばかりであり、最大のモデルではなく、持続可能で価値のあるAIを構築する人々によって勝ち取られるでしょう。」