DeepSeek、DeepGEMMを発表:AI計算の経済を変えるオープンソースライブラリ

著者
Lang Wang
10 分読み

DeepGEMM:AI計算の経済性を変えるオープンソースライブラリ

DeepSeek社、1週間で3つ目のオープンソースを公開:知っておくべきこと

AI効率の限界を押し広げる大胆な動きとして、DeepSeek社は今週3つ目のオープンソースプロジェクトであるDeepGEMMを公開しました。これはFP8精度向けに設計された、軽量ながら高性能な行列積ライブラリです。今回のリリースは、同社が以前に発表したFlashMLADeepEPに続くもので、AIインフラにおけるオープンイノベーションへのコミットメントを強化するものです。

DeepGEMMは、次世代AIワークロードの重要な要素であるNVIDIAのHopper GPU向けに最適化されています。標準的な密な一般行列積(GEMM)Mix-of-Experts(MoE)グループ化GEMMの両方をサポートしており、大規模AIモデルにおける推論とトレーニングを加速するための重要なツールとなります。

DeepGEMMが重要な理由

1. FP8:AI効率の次のフロンティア

DeepGEMMは、AI計算効率における大きな進歩であるFP8精度演算向けに設計されています。従来のAIワークロードは主にFP16とBF16に依存していましたが、FP8はスループットの向上とメモリ帯域幅の使用量削減を実現し、大規模AIモデルのスケーリングに最適です。

ただし、FP8には数値精度が低いという固有の課題があります。DeepGEMMは、CUDAコアの2段階累積を導入することでこれに対処し、FP8の速度上の利点を維持しながら精度損失を軽減します。この革新により、DeepGEMMは業界標準ライブラリであるCUTLASSによって設定されたパフォーマンスベンチマークと同等か、それを上回るパフォーマンスを発揮しながら、計算オーバーヘッドを大幅に削減できます。

2. 最小限の複雑さで高いパフォーマンス

深くネストされたテンプレートや過度な抽象化に依存する多くのAI計算ライブラリとは異なり、DeepGEMMは設計がシンプルかつ効率的です。コアとなる実装はわずか約300行のCUDAコードで構成されており、高度に最適化されているだけでなく、理解と修正が容易です。

3. ジャストインタイムコンパイル向けに設計

DeepGEMMは、JITコンパイルを活用することで、従来のコンパイルの必要性を回避します。これは、インストール時に事前コンパイルが不要であることを意味し、カーネルは実行時にコンパイルできます。このアプローチにより、特定のハードウェア構成に基づいて動的な最適化が可能になり、最大限の効率が保証されます。

4. 次世代AIモデル向けのMoE最適化

MoEアーキテクチャは、費用対効果を維持しながら効率的にスケールできるため、AIでますます普及しています。DeepGEMMは、以下を実装することにより、MoEモデル向けに独自に最適化されています。

  • 連続グループ化GEMM:トークンシーケンスが最適な処理のためにグループ化されます。
  • マスク化グループ化GEMM:エキスパートのアクティベーションがスパースな場合でも、効率的な計算を可能にします。

これらの最適化により、DeepSeek-V3のAIモデルは大幅に高速かつ費用対効果が高くなり、MoE計算パフォーマンスの新たなベンチマークを確立します。

パフォーマンスのベンチマーク

DeepSeek社は、NVIDIA H800 SXM5 GPUで、さまざまな行列サイズとワークロードにわたってDeepGEMMをテストしました。その結果は説得力があります。

  • 以前の実装と比較して最大2.7倍の高速化
  • 多様な行列形状にわたって一貫して高いTFLOPS(テラ浮動小数点演算/秒)
  • 優れたメモリ帯域幅の使用率により、効率的なGPUリソースの割り当てを保証。

DeepGEMMはほとんどの場合に優れていますが、特定の行列形状ではさらなる最適化の余地があり、DeepSeek社はGitHubを通じて開発者からの機能強化の貢献を呼びかけています。

戦略的および市場への影響

1. DeepSeek社はAI APIの価格崩壊を強制している

DeepSeek社は、価格設定の常識を覆しました。DeepSeek社のAPI料金はOpenAIの同等の料金の1/10であり、この動きはすでにAIサービスプロバイダーの間でパニックを引き起こしています。これは単に手頃な価格というだけでなく、市場の期待を再定義することです。

DeepSeek社のモデル効率の向上が続く場合、AIインフラプロバイダーはクラウドコンピューティングセクターの悪名高い底辺への競争を反映した、容赦のない価格戦争に直面します。OpenAI、Anthropic、Cohereは、価格を一致させるか、比類のない価値でプレミアムな製品を正当化するしかありません

2. NVIDIAの独占がわずかに強化される

DeepGEMMがHopper GPUに焦点を当てていることは、高性能AI計算におけるNVIDIAの地位を強化しますが、その影響は二重です。一方では、これらの最適化により、AI運用の総コストが下がることでNVIDIAハードウェアの魅力が高まり、より多くのプレーヤーがそのエコシステムを選択するようになります。他方では、効率の向上は各プレーヤーが必要とするGPUの数が全体的に少なくなる可能性があることを意味し、長期的にはNVIDIAハードウェアの全体的な需要を減らす可能性があります。DeepSeek社や同様のプレーヤーがNVIDIAの優位性に挑戦したい場合は、より競争の激しい状況を作り出すために、AMD MI300およびIntel Gaudiアクセラレータのサポートを拡大する必要があるかもしれません。

3. MoEモデルが未来であり、DeepSeek社はそれを知っている

MoEに最適化された計算へのDeepSeek社の積極的な推進は、業界のシフトを示しています。従来のアーキテクチャは、MoEモデルが大幅に低い計算コストでスケーリングできるため、まもなく非効率な遺物と見なされるでしょう。適応に失敗したAI企業は陳腐化のリスクがあります。

DeepSeek社は明らかにMoEの優位性に賭けており、MoEワークロードの最適化における初期のリーダーシップは、競合他社が追いつくのに苦労する可能性があることを意味します。主要なAI研究所が、今後12か月でより優れたMoE実装のために争うことが予想されます。

今後の展望:AI計算の次は?

DeepGEMMは単なるライブラリではありません。AI計算効率における哲学的な転換を表しています。DeepSeek社がAIインフラのあらゆる側面を体系的に最適化することで、業界は超効率的で低コストのAIモデルに向かっています

注目すべき主要なトレンド:

  • FP8の採用拡大:DeepGEMMが先例となるため、より多くのAIフレームワークがFP8を標準として統合する可能性があります。
  • さらなるオープンソースへの貢献:コミュニティは、DeepGEMMの最適化をNVIDIA Hopper以外のより多くのアーキテクチャに拡張する可能性があります。
  • AI計算の民主化:DeepSeek社の最適化が続く場合、大規模なAIモデルの実行は中規模企業やスタートアップにとって手頃な価格になり、テクノロジー大企業の支配を打破する可能性があります。

最後に

DeepGEMMのリリースは、単なる技術的なマイルストーン以上のものです。AI計算をより効率的、費用対効果が高く、アクセスしやすくすることで、DeepSeek社はAI研究と展開の競争環境を再構築しています。

今の本当の疑問は、OpenAI、NVIDIA、その他のAI大手企業がどのように反撃するかです。彼らが適応に失敗した場合、DeepSeek社は単なる弱者ではなく、AI経済そのものを再定義する可能性があります。

あなたも好きかもしれません

この記事は、 ニュース投稿のルールおよびガイドラインに基づき、ユーザーによって投稿されました。カバー写真は説明目的でコンピューターにより生成されたアートであり、事実を示すものではありません。この記事が著作権を侵害していると思われる場合は、 どうぞご遠慮なく弊社まで電子メールでご報告ください。皆様のご協力とご理解に感謝申し上げます。これにより、法令を遵守し、尊重あるコミュニティを維持することが可能となります。

ニュースレターに登録する

最新のエンタープライズビジネスとテクノロジー情報をお届けします。さらに、新しいサービスや提供物をいち早く独占的にチェックできます。

当社のウェブサイトでは、特定の機能を有効にし、より関連性の高い情報を提供し、お客様のウェブサイト上の体験を最適化するために、Cookieを使用しています。詳細については、 プライバシーポリシー および 利用規約 で確認できます。必須情報は 法的通知