DeepSeek、DeepGEMMを発表：AI計算の経済を変えるオープンソースライブラリ

DeepGEMM：AI計算の経済性を変えるオープンソースライブラリ

DeepSeek社、1週間で3つ目のオープンソースを公開：知っておくべきこと

AI効率の限界を押し広げる大胆な動きとして、DeepSeek社は今週3つ目のオープンソースプロジェクトであるDeepGEMMを公開しました。これはFP8精度向けに設計された、軽量ながら高性能な行列積ライブラリです。今回のリリースは、同社が以前に発表したFlashMLAとDeepEPに続くもので、AIインフラにおけるオープンイノベーションへのコミットメントを強化するものです。

DeepGEMMは、次世代AIワークロードの重要な要素であるNVIDIAのHopper GPU向けに最適化されています。標準的な密な一般行列積（GEMM）とMix-of-Experts（MoE）グループ化GEMMの両方をサポートしており、大規模AIモデルにおける推論とトレーニングを加速するための重要なツールとなります。

DeepGEMMが重要な理由

1. FP8：AI効率の次のフロンティア

DeepGEMMは、AI計算効率における大きな進歩であるFP8精度演算向けに設計されています。従来のAIワークロードは主にFP16とBF16に依存していましたが、FP8はスループットの向上とメモリ帯域幅の使用量削減を実現し、大規模AIモデルのスケーリングに最適です。

ただし、FP8には数値精度が低いという固有の課題があります。DeepGEMMは、CUDAコアの2段階累積を導入することでこれに対処し、FP8の速度上の利点を維持しながら精度損失を軽減します。この革新により、DeepGEMMは業界標準ライブラリであるCUTLASSによって設定されたパフォーマンスベンチマークと同等か、それを上回るパフォーマンスを発揮しながら、計算オーバーヘッドを大幅に削減できます。

2. 最小限の複雑さで高いパフォーマンス

深くネストされたテンプレートや過度な抽象化に依存する多くのAI計算ライブラリとは異なり、DeepGEMMは設計がシンプルかつ効率的です。コアとなる実装はわずか約300行のCUDAコードで構成されており、高度に最適化されているだけでなく、理解と修正が容易です。

3. ジャストインタイムコンパイル向けに設計

DeepGEMMは、JITコンパイルを活用することで、従来のコンパイルの必要性を回避します。これは、インストール時に事前コンパイルが不要であることを意味し、カーネルは実行時にコンパイルできます。このアプローチにより、特定のハードウェア構成に基づいて動的な最適化が可能になり、最大限の効率が保証されます。

4. 次世代AIモデル向けのMoE最適化

MoEアーキテクチャは、費用対効果を維持しながら効率的にスケールできるため、AIでますます普及しています。DeepGEMMは、以下を実装することにより、MoEモデル向けに独自に最適化されています。

連続グループ化GEMM：トークンシーケンスが最適な処理のためにグループ化されます。
マスク化グループ化GEMM：エキスパートのアクティベーションがスパースな場合でも、効率的な計算を可能にします。

これらの最適化により、DeepSeek-V3のAIモデルは大幅に高速かつ費用対効果が高くなり、MoE計算パフォーマンスの新たなベンチマークを確立します。

パフォーマンスのベンチマーク

DeepSeek社は、NVIDIA H800 SXM5 GPUで、さまざまな行列サイズとワークロードにわたってDeepGEMMをテストしました。その結果は説得力があります。

以前の実装と比較して最大2.7倍の高速化。
多様な行列形状にわたって一貫して高いTFLOPS（テラ浮動小数点演算/秒）。
優れたメモリ帯域幅の使用率により、効率的なGPUリソースの割り当てを保証。

DeepGEMMはほとんどの場合に優れていますが、特定の行列形状ではさらなる最適化の余地があり、DeepSeek社はGitHubを通じて開発者からの機能強化の貢献を呼びかけています。

戦略的および市場への影響

1. DeepSeek社はAI APIの価格崩壊を強制している

DeepSeek社は、価格設定の常識を覆しました。DeepSeek社のAPI料金はOpenAIの同等の料金の1/10であり、この動きはすでにAIサービスプロバイダーの間でパニックを引き起こしています。これは単に手頃な価格というだけでなく、市場の期待を再定義することです。

DeepSeek社のモデル効率の向上が続く場合、AIインフラプロバイダーはクラウドコンピューティングセクターの悪名高い底辺への競争を反映した、容赦のない価格戦争に直面します。OpenAI、Anthropic、Cohereは、価格を一致させるか、比類のない価値でプレミアムな製品を正当化するしかありません。

2. NVIDIAの独占がわずかに強化される

DeepGEMMがHopper GPUに焦点を当てていることは、高性能AI計算におけるNVIDIAの地位を強化しますが、その影響は二重です。一方では、これらの最適化により、AI運用の総コストが下がることでNVIDIAハードウェアの魅力が高まり、より多くのプレーヤーがそのエコシステムを選択するようになります。他方では、効率の向上は各プレーヤーが必要とするGPUの数が全体的に少なくなる可能性があることを意味し、長期的にはNVIDIAハードウェアの全体的な需要を減らす可能性があります。DeepSeek社や同様のプレーヤーがNVIDIAの優位性に挑戦したい場合は、より競争の激しい状況を作り出すために、AMD MI300およびIntel Gaudiアクセラレータのサポートを拡大する必要があるかもしれません。

3. MoEモデルが未来であり、DeepSeek社はそれを知っている

MoEに最適化された計算へのDeepSeek社の積極的な推進は、業界のシフトを示しています。従来のアーキテクチャは、MoEモデルが大幅に低い計算コストでスケーリングできるため、まもなく非効率な遺物と見なされるでしょう。適応に失敗したAI企業は陳腐化のリスクがあります。

DeepSeek社は明らかにMoEの優位性に賭けており、MoEワークロードの最適化における初期のリーダーシップは、競合他社が追いつくのに苦労する可能性があることを意味します。主要なAI研究所が、今後12か月でより優れたMoE実装のために争うことが予想されます。

今後の展望：AI計算の次は？

DeepGEMMは単なるライブラリではありません。AI計算効率における哲学的な転換を表しています。DeepSeek社がAIインフラのあらゆる側面を体系的に最適化することで、業界は超効率的で低コストのAIモデルに向かっています。

注目すべき主要なトレンド：

FP8の採用拡大：DeepGEMMが先例となるため、より多くのAIフレームワークがFP8を標準として統合する可能性があります。
さらなるオープンソースへの貢献：コミュニティは、DeepGEMMの最適化をNVIDIA Hopper以外のより多くのアーキテクチャに拡張する可能性があります。
AI計算の民主化：DeepSeek社の最適化が続く場合、大規模なAIモデルの実行は中規模企業やスタートアップにとって手頃な価格になり、テクノロジー大企業の支配を打破する可能性があります。

最後に

DeepGEMMのリリースは、単なる技術的なマイルストーン以上のものです。AI計算をより効率的、費用対効果が高く、アクセスしやすくすることで、DeepSeek社はAI研究と展開の競争環境を再構築しています。

今の本当の疑問は、OpenAI、NVIDIA、その他のAI大手企業がどのように反撃するかです。彼らが適応に失敗した場合、DeepSeek社は単なる弱者ではなく、AI経済そのものを再定義する可能性があります。