banner

ブログ

May 31, 2023

マルチ

Nature Biotechnology volume 40、pages 1458–1466 (2022)この記事を引用

59k アクセス

55件の引用

187 オルトメトリック

メトリクスの詳細

単一細胞における複数のオミクスモダリティを同時に測定するための実験方法が出現したにもかかわらず、ほとんどの単一細胞データセットには 1 つのモダリティしか含まれていません。 複数のモダリティからのオミクスデータを統合する際の主な障害は、通常、異なるオミクス層が異なる特徴空間を持っていることです。 今回我々は、オミクス層間の制御相互作用を明示的にモデル化することでギャップを埋める、GLUE (graph-linked unified embedding) と呼ばれる計算フレームワークを提案します。 体系的なベンチマークにより、異種の単一細胞マルチオミクスデータに対して、GLUE が最先端のツールよりも正確で、堅牢で、スケーラブルであることが実証されました。 私たちは、トリプルオミクスの統合、統合的な制御推論、数百万の細胞にわたるマルチオミクスヒト細胞アトラスの構築など、さまざまな困難なタスクに GLUE を適用し、以前のアノテーションを修正することができました。 GLUE は、新しい分析タスクに合わせて柔軟に拡張および強化できるモジュール設計を特徴としています。 完全なパッケージは、https://github.com/gao-lab/GLUE からオンラインで入手できます。

単一細胞シークエンシングにおける最近の技術進歩により、クロマチンのアクセス可能性 (単一細胞 ATAC シークエンシング (scATAC-seq)1,2)、DNA メチル化 (snmC-seq3、科学MET4) とトランスクリプトーム (scRNA-seq5,6) は、多様な細胞型の機能の根底にある制御塩基を明らかにするユニークな機会を提供します7。 同時アッセイが最近登場しました 8、9、10、11 が、通常、異なるオミックスは個別に測定され、対応のないデータが生成されるため、効果的かつ効率的な in silico マルチオミックス統合が必要です 12、13。

計算上、ペアになっていないマルチオミクスデータを統合するとき (対角統合とも呼ばれる) に直面する大きな障害の 1 つは、さまざまなモダリティの個別の特徴空間 (たとえば、scATAC-seq のアクセス可能なクロマチン領域と scRNA-seq の遺伝子) です 14。 簡単な解決策は、事前知識に基づいてマルチモダリティデータを 1 つの共通特徴空間に変換し、シングルオミクスデータ統合手法を適用することです 15、16、17、18。 このような明示的な「特徴変換」は簡単ですが、情報損失が生じることが報告されています19。 結合行列因数分解に基づくアルゴリズムは明示的な変換を回避しますが、2 つ以上のオミクス層をほとんど処理しません 20,21。 代替オプションは、非線形マニホールドアライメントを介して異なるオミクス層からの細胞を照合することです。これにより、事前知識の要件が完全に削除され、理論上、モダリティ間の情報損失が軽減されます22、23、24、25。 ただし、この手法は主に、細胞タイプの数が限られた比較的小規模なデータセットに適用されています。

増え続けるデータ量も深刻な課題です26。 最近開発されたテクノロジーは、数百万セル規模のデータセットを日常的に生成できます 27、28、29 が、現在の統合方法は、はるかに小さいボリュームのデータセットにのみ適用されています 15、17、20、21、22、23。 データ スループットの増加に追いつくには、スケーラビリティを念頭に置いて計算統合手法を設計する必要があります。

ここでは、不対単細胞マルチオミクスデータを統合し、調節相互作用を同時に推論するためのモジュール式フレームワークである GLUE (graph-linked unified embedding) を紹介します。 GLUE は、オミクス層間の制御相互作用を明示的にモデル化することで、生物学的に直観的な方法でさまざまなオミクス固有の特徴空間間のギャップを橋渡しします。 体系的なベンチマークとケーススタディは、GLUE が異種の単一細胞マルチオミクス データに対して正確で、堅牢で、スケーラブルであることを示しています。 さらに、GLUE は、モジュール形式で簡単に拡張し、特定のシナリオに迅速に導入できるようにする一般化可能なフレームワークとして設計されています。 GLUE は https://github.com/gao-lab/GLUE で公開されています。

0.5, and then normalize by cluster size, which effectively balances the contribution of matching clusters regardless of their sizes. In the second stage, we fine-tune the GLUE model with the estimated balancing weights, during which the additive noise \({\boldsymbol{\epsilon}} \sim {{{\mathcal{N}}}}\left( {{\boldsymbol{\epsilon}} ;\mathbf{0},\tau \cdot {\mathbf{\Sigma}}} \right)\) gradually anneals to 0 (with τ starting at 1 and decreasing linearly per epoch until 0). The number of annealing epochs was set automatically based on the data size and learning rate to match a learning progress equivalent to 4,000 iterations at a learning rate of 0.002./p>0 for scRNA-seq/scATAC-seq; FDR < 0.05 and log fold change of <0 for snmC-seq. The significance of marker overlap was determined by the three-way Fisher’s exact test40./p>
共有