Evo 2:生物学のための最大規模のAIモデルが遺伝子研究に革命を起こす
人工知能と生物学における画期的な進展として、Arc Instituteは、NVIDIAとの協力により、ゲノミクスのための最大規模のAIモデルであるEvo 2を発表しました。スタンフォード大学、UCバークレー校、UCサンフランシスコ校の研究者たちがこのプロジェクトで重要な役割を果たしており、遺伝学に対する私たちの理解を大きく変えると期待されています。Evo 2は、生命の3つのドメインにわたる128,000の全ゲノムから得られた前例のない9.3兆個のヌクレオチドで学習した生成AIモデルであり、科学者が疾患を引き起こす可能性のある変異を予測し、生物学的進化をモデル化し、さらには合成ゲノムを設計することを可能にします。
研究者たちは、Evo 2モデルの詳細なプレプリントを2025年2月19日に発表し、Evo Designerと呼ばれる使いやすいツールも公開しました。Evo 2のコードはオープンソースとなり、幅広いアクセスとコラボレーションを可能にします。AWS上のNVIDIA DGX Cloud AIプラットフォームを介して2,000以上のNVIDIA H100 GPUを活用することで、このモデルは一度に最大100万個のヌクレオチドの遺伝子配列を処理するというブレークスルーを達成しました。
主なポイント
- 生物学における最大規模のAIモデル:Evo 2は、これまでに開発された中で最も強力な生物学的AIモデルであり、9.3兆個のDNA/RNA塩基対で学習されています。
- 疾患変異の予測:Evo 2は、乳がんなどに関連する病原性変異の特定において90%以上の精度を達成しています。
- ゲノム工学の可能性:このモデルはゲノム全体を設計することができ、合成生物学の進歩への道を開きます。
- NVIDIAとの連携:Evo 2は、大規模な生物学的計算を可能にする新しいAIフレームワークであるStripedHyena 2アーキテクチャを使用して学習されました。
- 科学的進歩のためのオープンソース:Evo 2の完全な学習データ、モデルの重み、およびコードは、世界の研究コミュニティで利用できるようになります。
深掘り分析
大規模生物学的AIの力
Evo 2は遺伝子研究におけるパラダイムシフトを意味し、科学者はAI主導のアプローチで長距離のゲノム相互作用を分析できるようになります。タスク固有の微調整を広範囲に必要とした以前のモデルとは異なり、Evo 2は汎用モデルとして機能し、生命のすべてのドメインにわたる遺伝子配列の基本的なパターンを学習します。
Evo 2が比類なきパフォーマンスを達成する方法
- 100万トークンのコンテキストウィンドウ:このモデルは長い遺伝子配列を処理し、従来のモデルが見逃していた遠い関係性を捉えます。
- StripedHyena 2アーキテクチャ:このマルチハイブリッド畳み込みフレームワークは、前例のない規模での効率的なAIトレーニングを保証します。
- ゲノミクスのためのゼロショット学習:Evo 2は、特定のタスクに関する事前のトレーニングなしに、種を越えて遺伝的変異の影響を正確に予測します。
- メカニズムの解釈可能性:AIラボGoodfireと共同で開発された特殊なビジュアライザーにより、研究者はEvo 2が重要な遺伝的特徴をどのように識別するかを理解できます。
科学と産業への影響
学術研究
- 基礎生物学研究を加速し、遺伝子制御、タンパク質機能、および進化生物学に関する新しい洞察を可能にします。
- AIとゲノミクスを橋渡しし、計算科学者と実験科学者間の学際的なコラボレーションを促進します。
- 生成生物学を先導し、望ましい特性を持つ合成DNA配列の作成を可能にします。
医療および製薬業界
- 個別化医療:遺伝性疾患のリスクを予測するEvo 2の高い精度は、診断に革命をもたらす可能性があります。
- 創薬:AI支援による遺伝子分析は、新しい治療標的を特定し、薬物設計を最適化することができます。
- 遺伝子治療:遺伝的要素を正確に制御して操作する能力は、複雑な疾患の治療を強化する可能性があります。
バイオエンジニアリングおよび農業
- 合成生物学の応用:産業プロセス用の微生物株の設計など。
- 農業の改善:耐病性と収量を高めた遺伝子最適化された作物など。
倫理的考察
研究チームは、ヒトに感染する病原体をトレーニングデータセットから除外することで、倫理的考察を考慮しています。さらに、スタンフォード大学医学部の生命倫理研究所が、責任あるAIの展開を保証するためにチームを指導しました。
ご存知でしたか?
- Evo 2は、前身であるEvo 1よりも30倍データが豊富で、単細胞生物だけでなく128,000個のゲノムをモデル化できます。
- このモデルは2,000以上のNVIDIA H100 GPUを使用してトレーニングされており、生物学における最大規模のAIトレーニングプロジェクトの1つとなっています。
- Evo 2は、BRCA1遺伝子の変異を従来の遺伝子検査方法よりも高い精度で分析できます。
- Evo 2のトレーニングデータセットであるOpenGenome2は、これまでにコンパイルされた中で最も多様な生物学的配列データセットです。
- Evo 2の背後にあるAIアーキテクチャであるStripedHyena 2は、OpenAIの共同創設者であるGreg Brockmanからのインプットを受けて開発されました。
終わりに
Evo 2は単なるAIモデルではなく、遺伝子レベルで生命を理解し設計するための革新的な一歩です。医学、合成生物学、および農業にわたるアプリケーションにより、そのオープンソースの性質は世界中の研究者に力を与えることになります。AIと生物学の融合がこれほど有望になったことはありません。そして、Evo 2はAI主導のライフサイエンスの時代へと先導しています。