GC-MS/LC-MSについて
質量分析は、化合物の構造解析や定量において極めて重要なツールです。中でも、ガスクロマトグラフィー‐質量分析(GC‐MS)および液体クロマトグラフィー‐質量分析(LC‐MS)は、サンプル中の成分を分離し、高精度で検出できるため、環境分析、医薬品研究、プロテオミクス、メタボロミクスなど多岐にわたる分野で活用されています。
- GC-MSは、ガスクロマトグラフィーと質量分析を組み合わせ、主に揮発性で熱的に安定な化合物の解析に優れています。
- LC-MSは、液体クロマトグラフィーと質量分析の組み合わせにより、分子量が大きく、極性が高く、熱に弱い分子の解析に適しています。
近年、従来のピーク抽出や手動パラメータ調整に頼った解析方法から、機械学習や深層学習を活用したデータ駆動型解析へと進化しており、これにより以下のようなメリットが得られています。
- 自動化・高速化:データの前処理から解析、結果の解釈までが自動化され、膨大なデータ量にも迅速に対応可能。
- 再現性の向上:人為的な調整に依存しないため、解析結果の一貫性が高い。
- 未知成分の同定:データ全体を統計的に解析することで、既存データベースに存在しない未知の化合物も候補として提示できる。
本稿では、これらの背景を踏まえ、最新の機械学習技術とデータ駆動型解析アプローチが、GC‐MSおよびLC‐MSデータに内在する課題にどのように対応しているか解説し、応用例についてもご紹介します。
GC-MS/LC-MS における課題
GC-MSおよびLC-MSデータの解析は、その二次元的な性質に起因する独自の課題を伴います。二次元的な性質とはすなわち、「時間経過に沿ったクロマトグラフィーによる成分分離」および「各時間点で取得される質量スペクトル情報」を同時に考慮しなくてはならないことを指します。
この二次元情報の組み合わせにより、様々な解析上の課題が発生します。
- データ量の膨大さ
- ピーク形状の変動
- 保持時間のシフト
- ピークの重なり
これらの問題は、装置の個体差、汚染、使用されるカラムの種類、さらには厳密なキャリブレーションや正規化処理の必要性といった要因によってさらに複雑化します。
図1. GC-MS/LC-MS分析の課題
データ駆動型アプローチによる従来の解析課題の解決
上述した従来の解析課題のそれぞれについて、データ駆動型での解決アプローチを紹介します。
課題1: データ量の膨大さ
GC‐MS/LC‐MSでは、1回の測定で数百の時間点・数千の質量スペクトルが生成されます。これにより、解析対象となるデータの総量は非常に大きくなり、従来の手法ではデータ処理の計算負荷が著しく高いという問題がありました。
また、従来のピーク抽出処理では手動パラメータ調整、データの前処理に伴う情報ロスといった課題がありました。
これに対して、機械学習による自動セグメンテーション手法を活用できます。たとえば、クロマトグラムを適切なセグメントに分割し、各セグメントの情報をテンソル分解により圧縮することで、必要な情報のみを抽出できます。
課題2: ピーク形状の変動
同一成分であっても、装置や試料条件の違いによりピークの形状は大きく変動します。従来の手法では、固定の閾値や定型的なピーク抽出アルゴリズムでしか対応できず、正確な同定や定量が難しい場合が多くありました。
標準的なピーク抽出アルゴリズムでは、ピークの幅・高さ・形状の変動を十分に捉えられず、重要な情報が失われます。
畳み込みニューラルネットワーク(CNN)などの深層学習モデルを用いて元データ全体を入力とすることで、複雑なピーク形状や微妙な変動パターンを学習し、より正確なピーク検出を可能にします。微細な信号が正確に抽出されることで、後続の解析精度も向上します。
課題3: 保持時間のシフト
サンプルごとに保持時間(retention time)がわずかにずれる現象は、サンプル間比較やピーク同定の妨げとなります。伝統的には線形補正や手動でのパラメータ調整に頼っていましたが、これには限界があり、再現性の低下や、極小のズレが後続解析に大きな誤差を与える可能性がありました。
深層学習モデルを用いることで、装置や実験条件に起因する保持時間の変動パターンを自動で学習し、リアルタイムに補正できるようになります。その結果、サンプル間の比較がより正確に行えるようになります。
課題4: ピークの重なり
複雑な混合物では、複数の成分のピークが重なり合うため、単一のピークとして抽出するのが難しい状況が頻発します。重なり合うピークを個別に分離できず、定量や同定に誤差が生じてしまいます。
そこで、テンソル分解や多変量解析、さらにはTransformerやグラフニューラルネットワーク(GNN)などの先進アルゴリズムを用いることで、重なりピークから個々の成分を効果的に分離・同定できる手法が開発されました。
機械学習による応用例:分子同定
分子同定の文脈では、従来の手法は主にスペクトルデータベースに依存して化合物を同定してきました。しかし、これらのデータベースは、未知の化合物に対しては、参照データの不完全さや実験条件の不一致といった制約があるため、十分な対応ができません。そこで、機械学習がいくつかの解決策を提供します。
図2. 質量分析における機械学習の応用アプローチ
元素組成の解析
深層学習モデル(RNNやLSTMなど)により、高分解能の質量スペクトルデータから、化合物中に含まれる元素の数や種類を自動的に解析することが可能です。これらのモデルは、連続するスペクトルデータの処理に長けており、既存のデータベースに存在しない化合物であっても、正確な分子式の予測を行う能力があります。
構造同定
Transformerネットワークおよびグラフニューラルネットワーク(GNN)といった先進的なアルゴリズムは、質量スペクトルから直接分子構造を予測することができます。
- Transformerネットワークは、スペクトルの各部分間の関係性を把握するのに特に有効です。
- GNNは、分子の構造パターンを理解する点で優れており、未知の化合物や従来のデータベース検索が失敗する場合に大きな価値を発揮します。
さらに、既存のデータベースの能力を拡張するため、機械学習により低分子およびタンパク質の理論上の質量スペクトルを予測することが可能となりました。これにより、まだスペクトルデータベースに登録されていない化合物の同定が可能になり、実験結果の検証にも役立っています。
結論と今後の展望
本稿では、GC‐MSおよびLC‐MSデータ解析において、従来の手法が抱えていた「データ量の膨大さ」「ピーク形状の変動」「保持時間のシフト」「ピークの重なり」といった課題に対して、機械学習および深層学習技術のアプローチについてご紹介しました。また、応用分野として分子同定への展開を述べました。自動化・高速化、再現性の向上、そして未知成分の同定など、多方面にわたるメリットは、従来のピーク抽出や手動補正に大きな前進を示しています。
一方で、機械学習手法にはいくつかの課題も存在します。たとえば、大量のラベル付きデータの必要性、計算資源の負荷とコスト、精度と解釈性の高さのトレードオフなどです。機械学習の応用は多大な可能性を秘める一方で、現実的な制約や改善の余地も残されているため、まだまだ発展の余地があります。ご興味を持たれた方は、ぜひ最新の動向をフォローし、この分野を一緒に発展させていきましょう。
最後に、筆者の所属するMI-6では、複雑なGC-MSおよびLC-MSデータ解析を行う機械学習ソリューションを提供しています。材料の分析技術に精通した専門チームにより、次のようなサービスを提供しています。
- カスタマイズされたデータ前処理およびクリーニング
各種データのノイズ除去や正規化を含む、最適な前処理プロセスを実施します。 - 先進的な機械学習モデルの開発
解析対象に応じた最適なモデルを構築し、従来の手法では捉えきれなかったパターンや情報を抽出します。 - 分析目的に合わせた戦略的な手法選択
お客様の研究ニーズに基づき、最も適切な分析手法を提案・実施します。 - エンドツーエンドのワークフロー最適化
データ取得から最終的な解析結果の提供まで、一貫したプロセスの最適化を図ります。
ターゲットを絞った解析が必要な場合でも、広範な探索的解析が求められる場合でも、質量分析研究の向上と新たな発見の加速を支援するための専門知識と技術を提供いたします。本稿でご紹介したアプローチや応用例にご興味をお持ちの方、もしくはご自身のデータ解析に関するご相談・ご質問がございましたら、ぜひお気軽にご連絡ください。
参考文献
- S. Moldoveanu and V. David, "Derivatization Methods in GC and GC/MS," 2018, DOI: 10.5772/intechopen.81954.
- H. Guo and J. A. MacKay, "Chapter 8 - A pharmacokinetics primer for preclinical nanomedicine research," in Nanoparticles for Biomedical Applications, E. J. Chung, L. Leon, and C. Rinaldi, Eds., Micro and Nano Technologies, Elsevier, 2020, pp. 109–128, DOI: 10.1016/B978-0-12-816662-8.00008-4.
- D. K. Pinkerton, K. M. Pierce, and R. E. Synovec, "Chapter 10 - Chemometric Resolution of Complex Higher Order Chromatographic Data with Spectral Detection," in Resolving Spectral Mixtures, C. Ruckebusch, Ed., Data Handling in Science and Technology, vol. 30, Elsevier, 2016, pp. 333–352, DOI: 10.1016/B978-0-444-63638-6.00010-3.
- C. A. Smith, E. J. Want, G. O'Maille, R. Abagyan, and G. Siuzdak, "XCMS: Processing Mass Spectrometry Data for Metabolite Profiling Using Nonlinear Peak Alignment, Matching, and Identification," Analytical Chemistry, vol. 78, no. 3, pp. 779–787, 2006, DOI: 10.1021/ac051437y.
- M. Katajamaa, J. Miettinen, and M. Orešič, "MZmine: Toolbox for Processing and Visualization of Mass Spectrometry Based Molecular Profile Data," Bioinformatics, vol. 22, no. 5, pp. 634–636, March 2006, DOI: 10.1093/bioinformatics/btk039.
- H. Tsugawa et al., "MS-DIAL: Data-Independent MS/MS Deconvolution for Comprehensive Metabolome Analysis," Nature Methods, vol. 12, no. 6, pp. 523–526, 2015, DOI: 10.1038/nmeth.3393.
- A. Aldama-Campino, K. Döös, J. Kjellsson, and B. Jönsson, "TRACMASS: Formal Release of Version 7.0," Zenodo, version 7.0-beta, December 2020, DOI: 10.5281/zenodo.4337926.
- J.-R. Delorme et al., "The Keck Planet Imager and Characterizer: A Dedicated Single-Mode Fiber Injection Unit for High-Resolution Exoplanet Spectroscopy," arXiv, 2021, DOI: 10.48550/arXiv.2107.12556.
- Y. Jiang et al., "GC-MS Fingerprinting Combined with Chemical Pattern-Recognition Analysis Reveals Novel Chemical Markers of the Medicinal Seahorse," Molecules, vol. 28, no. 23, article 7824, 2023, DOI: 10.3390/molecules28237824.
- A. Skarysz et al., "Convolutional Neural Networks for Automated Targeted Analysis of Raw Gas Chromatography-Mass Spectrometry Data," 2018 International Joint Conference on Neural Networks (IJCNN), Rio de Janeiro, Brazil, 2018, pp. 1–8, DOI: 10.1109/IJCNN.2018.8489539.
- C.-C. Chen et al., "Logistic Regression Analysis of LC-MS/MS Data of Monomers Eluted from Aged Dental Composites: A Supervised Machine-Learning Approach," Analytical Chemistry, vol. 95, no. 12, pp. 5205–5213, 2023, DOI: 10.1021/acs.analchem.2c04362.
- J. Liu, J. Zhang, Y. Luo, S. Yang, J. Wang, and Q. Fu, "Mass Spectral Substance Detections Using Long Short-Term Memory Networks," IEEE Access, vol. PP, pp. 1–1, 2019, DOI: 10.1109/ACCESS.2019.2891548.