DeepSeek-R1論文の技術レビュー：推論AIの再定義

1. はじめに、全体像

DeepSeek-R1は、大規模言語モデル（LLM）の新しい学習アプローチで注目を集めています。前身であるDeepSeek-V3と比べて、実験と理論設計において「シンプルで洗練された」スタイルを重視しています。

DeepSeek-R1を評価する多くの研究者は、特にR1-Zero→R1の学習プロセスにおいて、AlphaGoの進化を思い出させられると指摘しています。DeepSeek-R1は、OpenAI-o1-1217などのトップレベルのモデルを上回る、あるいは同等の性能を様々な難しいベンチマークで示しています。さらに、蒸留された32B版（DeepSeek-R1-32B）も、OpenAI-o1-miniに匹敵する素晴らしい結果を出しています。

簡単に言うと、DeepSeek-R1は、最初から大規模な教師ありファインチューニング（SFT）に頼らずに、強力な推論能力を実現できることを示しています。このモデルは、軽量なSFTアプローチと**強化学習（RL）**を組み合わせ、従来の報酬モデルのいくつかの欠点を回避するルールベースの報酬モデルを使用しています。

2. 報酬設計：PRMとORMからの脱却

2.1 なぜルールベースの報酬なのか？

著者らは、パラメーター化された報酬モデル（PRM）ではなく、ルールベースの報酬を選択しました。主な理由は次のとおりです。

細かいステップのラベル付けが難しい 一般的な推論タスクでは、各中間ステップについて明確で細かい基準を定義するのは困難です。
ラベル付けのコストと精度 ラベルの自動生成は通常質が低く、手動でのアノテーションはコストが高すぎてスケールできません。
報酬ハッキングの回避 報酬関数が機械学習システム（PRM）によってモデル化されている場合、モデルはその報酬を操作したり悪用したりする可能性があります（報酬ハッキング）。PRMの継続的な再学習も、複雑さとリソース需要を増大させます。

そのため、DeepSeek-R1は、特に数学やプログラミングのタスクでは、最終的な回答を正解と比較したり、コンパイルとテストケースを使用して正しさを検証したりするなど、直接的なルールベースのシグナルを使用しています。また、出力形式（例えば、推論が<think>...</think>タグで囲まれているかどうか）や言語の一貫性をチェックするルールも組み込まれています。

2.2 モデルベースの出力報酬（ORM）の廃止

DeepSeek-R1は、別のモデルが出力結果を判断または採点する代替アプローチである「ORM」も、幻覚、潜在的な報酬ハッキング、不安定性といった同様の懸念から放棄しています。いくつかのタスクでは「密集報酬」方式の利点がありますが、チームは純粋にルールベースのアプローチが提供するシンプルさ、安定性、堅牢性を重視しています。

3. 学習戦略：「ゼロ」から多段階プロセスへ

DeepSeek-R1の学習は、いくつかの段階に分けることができます。

DeepSeek-R1-Zero
- 出発点: DeepSeek-V3-Base（または同様に事前学習されたベースモデル）を取り、初期のSFTなしで直接RLを適用します。
- 方法: ルールベースの報酬とGRPO（Generalized Rejection Policy Optimization）アルゴリズムを使用します。
- 目標: 数学/プログラミングタスクの正確性を最大化し、特定のフォーマットルールを遵守します。
- 発見:
  - 学習が進むにつれてモデルの出力は長くなり、応答における内省や自己反省の初期の兆候を示します。
  - しかし、テキストは読みにくく、言語が混ざっている場合があります。
完全なDeepSeek-R1への移行
- R1-Zeroは推論性能を成功裏に高めますが、可読性と言語の一貫性にはまだ課題が残ります。
- チームは、少量の高品質データを追加してSFTを行い、全体的な明瞭さと一貫性を向上させます。このSFTによるコールドスタートの後、RLを再開してパフォーマンスをさらに向上させます。

最終的なR1の学習パイプラインは4つのステップで構成されています。

高品質データによる最小限のSFT
- 数千の厳選された例（例：詳細なCoTデータ）を収集します。
- モデルをより首尾一貫して「話す」ようにするために、短時間のSFTを実行します。
推論のための集中的なRL
- R1-Zeroと同じルールベースの報酬を数学/論理タスクに使用します。
- 1つの回答で複数の言語が混ざることがないように、言語の一貫性報酬を追加します。
拒否サンプリング+SFT
- 拒否サンプリングを使用して、前の段階からのモデルの出力をフィルタリングし、低品質またはフォーマットが正しくない応答を除去します。
- 単純なルールベースのアプローチでは判断しにくいタスクを、「LLMによる判定」スタイルの検証（例：DeepSeek-V3からのもの）を使用して取り込みます。
- フィルタリングされた約6万～60万（正確なデータセットの記述による）の推論サンプルと約2万～20万の非推論サンプルを組み合わせて、もう1ラウンドのSFT（2エポック）を実行します。
完全な網羅のためのRL
- タスクの種類ごとに、モデルは異なるプロンプトと報酬ルールを使用します。
- 数学/論理タスクは、元のルールベースの採点に引き続き依存します。
- 「一般的なタスク」は、有益性と安全性を評価する標準的な報酬モデルを使用します。

最終的に、DeepSeek-R1は推論性能と、明瞭さや無害さなどのユーザー指向の品質のバランスを取り、多くのベンチマークでトップレベルのモデルに匹敵する成果を上げています。

4. 考察：KL損失とGRPO対PPO

DeepSeek-R1はRLフェーズにGRPOを使用しており、PPOなどの手法とは異なります。

PPOは一般的に、最終的なポリシー勾配を計算する前に、KLペナルティ項に報酬を掛けます。
GRPOは代わりにKL項を直接減算し、通常は分散を低く抑えるための特殊な推定器（K3）を使用します。

このアプローチにより、特に部分的なトークンしかサンプリングしない場合、学習がより安定します。KLの単純なモンテカルロ推定を使用することによる高い分散を回避します。

5. AlphaGoとの類似点：「ゼロ」の既視感

読者は、著者もMCTS（モンテカルロ木探索）と「Zeroライク」のアプローチを試みたことから、AlphaGoとの類似性に気づきます。

R1-Zeroは、教師データがほとんどない、またはまったくないことから、AlphaGo Zeroと似ています。
AlphaGoは、初期の教師ありポリシーに人間のゲーム記録を使用し、自己対戦によってAlphaZeroへと進化しました。対照的に、DeepSeekはほぼ逆のワークフローを採用しています。R1-Zeroは最初にゼロからRLを行い、その後でいくつかのSFTを追加します。

最終的に、DeepSeekが言語推論でMCTSを使用しようとした試みは、（大きな分岐係数、細かい価値モデルの学習の困難さなど）障害に遭遇し、MCTSは最終的なパイプラインでは成功とはみなされませんでした。

6. 実験結果とベンチマーク

高難易度タスク（数学的推論、コード補完、複雑なQA）において、DeepSeek-R1はOpenAI-o1-1217と同等の性能を示し、推論能力のあるLLMのトップグループに位置付けられています。

一方、中間段階のR1-Zeroは、既にベースラインと比べて推論タスクで大幅な改善を示しています。しかし、よりぎこちない、または複数の言語が混在した出力を生成します。したがって、後で導入されたSFTのステップにより、ユーザーエクスペリエンスと信頼性が向上し、モデルの強力な推論能力は維持、あるいはさらに向上しています。

7. ナレッジ蒸留と小型モデル

著者らは、DeepSeek-R1を小型モデル（例：Qwen2.5-32B）に単純に蒸留するだけで、より高価な小型モデルのRL学習と同等の結果を得られると指摘しています。これは、小型モデルで本格的なRLパイプラインを実行する代わりに、より能力の高いモデル（R1など）から高品質の出力を効率的に収集し、これらの出力に対して教師ありファインチューニングを行うことができるという説得力のある議論です。

結果: 蒸留されたDeepSeek-R1-32Bは、RLを使用して小型モデルをゼロから開発するコストのごく一部で、OpenAI-o1-miniに近い性能に達すると報告されています。

8. 課題と今後の展望

汎用能力
- DeepSeek-R1は推論タスクに焦点を当てていますが、一部の一般的なドメインではDeepSeek-V3を下回っています。チームは、より広範なCoTやドメイン固有のデータを使用するなどして、モデルの幅広い網羅性を向上させる予定です。
言語の混在と多言語対応
- R1には中国語と英語の言語の一貫性チェックがありますが、他の言語や言語切り替えシナリオではまだ苦労しています。
プロンプトエンジニアリングへの依存性
- R1は、複数ターンまたは少数のショットのプロンプトに敏感になる可能性があります。著者は、最適な結果を得るために、目的の出力形式を指定するだけのゼロショットアプローチをお勧めしています。
ソフトウェアエンジニアリングと長期的な評価
- コードタスクの検証には時間がかかるため、大規模なRLはより困難です。DeepSeek-R1はソフトウェアテストで改善を示していますが、DeepSeek-V3に対して劇的な飛躍ではありません。今後の計画には、プログラミングタスクにおけるRLの速度向上のための非同期評価が含まれています。
600Bパラメーター以上へのスケーリング
- 本論文では、このアプローチが極端な規模（例：600Bパラメーター）でも安定して効果的であるかどうかは完全に示されていません。これはチームが今後取り組む可能性のある別の未開拓の分野です。

9. まとめ

DeepSeek-R1は、大規模なSFTが言語モデルの推論能力を大幅に向上させるための絶対的な前提条件ではないことを示しています。シンプルながらも堅牢なルールベースの報酬を活用し、当初からSFTをスキップまたは最小限に抑え、少量の厳選されたデータセットと繰り返しRLフェーズを統合することで、R1は困難なベンチマークで最先端の性能を達成しています。

この研究はまた、より強力なモデル（R1）の出力を利用して小型モデルを学習させるナレッジ蒸留が、小型モデルに大規模なRL学習を直接行うよりも効率的で、より優れた結果を生み出す可能性があることを強調しています。

DeepSeek-R1はまだ汎用性においていくつかのギャップがあり、プロンプティングに敏感な部分もありますが、ハイブリッドRLと最小限のSFTによって、強力で柔軟性があり、より制御可能なLLMを実現できる未来への道を示しています。この論文は、適切な報酬と反復的な学習フェーズによって、モデルが自己反省、拡張された推論、堅牢なパフォーマンスを大規模なステップバイステップのアノテーションなしに「発見」できることを示す、有望なマイルストーンを設定しています。