本記事は、miLabにおける英文記事(AI-Supported Spectrum Interpretation: Exploring IR analysis through Full-Spectrum Data-Driven Approach)の日本語翻訳版です。

FT-IR分析の基本と課題

フーリエ変換赤外分光法(FTIR)は、現代の化学および材料科学における基盤的な分析技術であり、いくつもの重要な利点を提供します。この強力な化学同定ツールは、振動や回転状態を解析することで分子構造に関する詳細な洞察をもたらします。また、非破壊分析を可能にするため試料を保存できるほか、定量分析機能により正確な濃度測定を行うことができます。この技術は、固体、液体、気体といった多様な試料の分析を可能にする汎用性を持ち、多くの産業で不可欠な役割を果たしています。さらに、リアルタイムモニタリングの能力と費用対効果の高さによって、研究および産業用途の両面でその地位を確立しています。

図1. IRスペクトル解析における利点

FTIRスペクトルは、異なる分析的価値を持つ2つの主要な領域で構成されています。機能基領域(4000~1500 cm⁻¹)は、特定の分子部分に対応する特徴的な吸収帯を含みます。この領域では、ヒドロキシル基、カルボニル基、アミンなどの機能基を直接的に同定できる分離の良いピークが通常見られます。一方、指紋領域(1500~400 cm⁻¹)は、全体的な分子振動による独自の分子署名を提供し、官能基領域を補完します。

FTIRの解釈は単純なピークの同定を超える複雑さを持ちます。例えば、ピークの形状、幅、強度といった特徴はそれぞれ重要な情報を持っています。広いピークは、同じ位置の鋭いピークとは異なる分子環境や水素結合を示唆する場合があります。さらに、分子振動が相互に結合・干渉することで、単純には解釈できない複雑なスペクトルパターンが生じることがあります。

図2. FTIRスペクトル解釈の課題

フルスペクトル・データ駆動型アプローチを活用したIR分析の機械学習

フルスペクトル・データ駆動型アプローチを活用したIR分析の現代的な機械学習手法は、解析能力を劇的に拡張しました。現在のシステムでは、広範な前処理や手動による特徴抽出、ピーク検出、クラスタリング処理を必要とせず、分子構造を直接分析することができます。これらの手法では、スペクトルを連続的なデータパターンとして扱い、すべてのスペクトル特性を同時に考慮します。

多様なニューラルネットワークアーキテクチャの開発が、この進展において重要な役割を果たしました。これらのシステムは、複雑な分子情報を処理し、従来の解析手法では見落とされる可能性のあるスペクトルデータ内の微妙なパターンを識別できます。例えば、ピーク形状の変化、ベースラインの変動、異なるスペクトル領域間の複雑な相互作用などを解析可能です。

フルスペクトル・データ駆動型アプローチのIRスペクトルへの主な応用例は以下の通りです。

  • SVM(サポートベクターマシン)、ランダムフォレスト、ニューラルネットワークを用いた有機化合物の分類
  • PLSR(部分最小二乗回帰)と機械学習手法を組み合わせた混合物の定量分析
  • CNN(畳み込みニューラルネットワーク)モデルを用いた機能基の同定
  • トランスフォーマーモデルを活用した構造の特定

フルスペクトル・データ駆動型アプローチを用いたIR分析の応用

MI-6では、スペクトルデータ解析のための複数の専門的な応用を統合したアプローチを探求しています。その中核となる手法として、OpenNMT-pyライブラリを使用したエンコーダおよびデコーダ部分のトランスフォーマーアーキテクチャを採用しています。

図3. IRスペクトルから化学特性を予測するための機械学習モデルの概略図

本研究では、分子動力学シミュレーションから得られた317,292のスペクトルデータセットを使用しました。この分子には、炭素(C)、水素(H)、窒素(N)、酸素(O)、硫黄(S)、リン(P)、およびハロゲンが含まれ、重原子数は6から13までの範囲です。それぞれのスペクトルは、2 cm⁻¹の分解能で400~3982 cm⁻¹の範囲で記録されました。このデータセットは、トレーニング(85%)、テスト(10%)、および検証(5%)のセットに分割しました。

ケーススタディ1: 官能基および分子断片の特定

従来のIR分析は結合や官能基に関する有益な情報を提供しますが、通常その解釈には高度な専門知識を要します。機械学習を活用したアプローチは、この状況を大きく変革します。本ケーススタディでは、機械学習モデルが専門家レベルの分析に匹敵するだけでなく、80以上の有機官能基を高精度(95%以上)で特定する能力を示しました。

機械学習は、構造が類似している化合物間でも区別を可能にし、構造的差異が最小限であっても高い分類性能を維持します。基本的な官能基分析を超えて、モデルは特定の構造的特徴、例えば危険性のある基(例:ニトロ基)や医薬品の骨格を検出するようにカスタマイズできます。

この機械学習によるアプローチは、解析プロセスを効率化し、時間を短縮しつつ、スペクトル解釈の精度を高い水準で維持します。また、専門家と非専門家の間のスキルギャップを埋め、一貫して専門家レベルの結果を保証することで、先進的なIR分析へのアクセスを実現します。

図4. IRスペクトルと機械学習を用いた官能基および分子フラグメント識別の性能

ケーススタディ2: 化学的性質の予測

従来のIRスペクトル分析は主に結合や官能基に関する情報を提供するものでしたが、IR分光法と機械学習を統合することで、化学的性質の予測が革命的に進化しました。この統合による主な利点は以下の通りです。

  1. 迅速かつ自動化された解析
    従来の手法を超える能力で、複雑なスペクトルパターンを処理します。
  2. 隠れた相関の発見
    スペクトル特徴と化学的性質との間に存在する隠れた相関を明らかにします。従来の解析では不可能な関係を解明します。
  3. 複数の化学的性質の同時予測
    単一のIRスペクトルから複数の化学的性質を定量的に予測します。これは従来の人間による解析では非常に困難です。

図5. IRスペクトルと機械学習を用いた化学特性予測の性能

本ケーススタディでは、RDKit分子記述子モジュールを使用した機械学習モデルにより、下記の重要な分子特性の予測に成功しました。

  • 分子屈折率(Molecular Refractivity, MR)
  • 分子の分配係数(LogP)
  • 分子量(MolWt)
  • トポロジカル極性表面積(TPSA)
  • モーガンフィンガープリント(部分構造の表現)
  • VSA記述子(表面積特性)

単一のIRスペクトルからこれらの特性を包括的に予測できる能力は、機械学習が基本的な分析ツールであるIR分光法を高度な化学特性評価のための強力なプラットフォームへと変換可能であることを示しています。

ケーススタディ3: 元素組成の予測

元素組成(CHON%)は、バイオマスやエネルギー変換分野において重要な情報であり、これらの元素は発熱量、燃焼特性、環境への影響に直接関与します。従来、CHON%の測定には、CHN/O元素分析装置のような破壊的分析手法が必要でした。これらの手法は試料を消費し、多くの時間と特殊な装置を必要とします。

図6. IRスペクトルと機械学習を用いた元素組成予測の性能

IR分光法は通常、元素組成情報を直接提供することはありませんが、IRスペクトルデータと機械学習を統合することで新たな可能性が開かれました。この革新的なアプローチにより、IRスペクトルから直接元素組成を予測することが可能となります。

本機械学習モデルは、炭素(C)、水素(H)、窒素(N)、酸素(O)といった有機分子に最も多く含まれる元素の含有量を予測する上で驚異的な精度を示しました。予測結果は、炭素、窒素、酸素(C, N, O)について平均誤差が1原子未満、水素(H)については平均誤差が2原子未満と、従来の分析手法と比較して非常に高い精度を達成しました。また、全元素に対する平均R²値が0.79と高く、予測値と実測値の強い相関を示しました。

この進展は、従来のIR分析能力を変革し、非破壊的かつ迅速で高精度な元素組成測定を可能にします。この手法は特にバイオマスやエネルギー変換分野において大きな価値を提供します。

最後に

高度なIRスペクトル解析

フルスペクトル・データ駆動型アプローチは、ピーク検出や手動による特徴抽出を必要とせず、スペクトル全体のパターンを解析することで従来のIR分析を革新します。この手法では、スペクトルを連続的なデータパターンとして扱い、すべてのスペクトル特徴を同時に考慮します。機械学習を活用した高度なモデル選択により、スペクトルデータに隠された複雑なパターンを解明する包括的な解析を実現します。

研究開発および産業への価値

当社のソリューションは、解析時間とリソースの要件を大幅に削減し、試料準備や取り扱いを最小限に抑えることでコスト最適化を実現します。一貫性があり再現性の高い結果を維持することで、高度な分析能力を専門家と非専門家の双方に提供します。これにより、材料開発サイクルを加速し、データ駆動型の意思決定を促進することで、より迅速な市場投入を可能にします。

参考文献

  • R. Almalih, "Introduction to Fourier Transform Infrared Spectroscopy (FTIR)", 2024.
  • B. Stuart, "Infrared Spectroscopy", Fundamentals and Applications, 2005, DOI: 10.1002/0471238961.0914061810151405.a01.pub2.
  • A. Kassem et al., "Applications of Fourier Transform-Infrared Spectroscopy in Microbial Cell Biology and Environmental Microbiology: Advances, Challenges, and Future Perspectives", Frontiers in Microbiology, vol. 14, 2023, DOI: 10.3389/fmicb.2023.1304081.
  • A. Argyris, J.-J. Filippi, and D. Syvridis, "Support vector machine classification of volatile organic compounds based on narrow-band spectroscopic data", Journal of Chemometrics, vol. 29, 2015, DOI: 10.1002/cem.2660.
  • T. Bikku, R. Fritz, Y. Colón, and F. Herrera, "machine learning identification of organic compounds using visible light", 2022, DOI: 10.48550/arXiv.2204.11832.
  • L. H. Rieger, M. Wilson, T. Vegge, and E. Flores, "Understanding the patterns that neural networks learn from chemical spectra", Digital Discovery, vol. 2, no. 6, pp. 1957–1968, 2023, DOI: 10.1039/D3DD00203A.
  • M. Madden and A. Ryder, "machine learning Methods for Quantitative Analysis of Raman Spectroscopy Data", Proceedings of SPIE - The International Society for Optical Engineering, vol. 4876, 2002, DOI: 10.1117/12.464039.
  • G. Jung, S. G. Jung, and J. M. Cole, "Automatic materials characterization from infrared spectra using convolutional neural networks", Chemical Science, vol. 14, pp. 3600–3609, 2023, DOI: 10.1039/D2SC05892H.
  • M. A. Z. Chowdhury and M. A. Oehlschlaeger, "Deep Learning for Gas Sensing via Infrared Spectroscopy", Sensors, vol. 24, no. 6, article 1873, 2024, DOI: 10.3390/s24061873.
  • N. Saquer, R. Iqbal, J. D. Ellis and K. Yoshimatsu, “Infrared spectra prediction using attention-based graph neural networks”, Digital Discovery, 3, 602-609, 2024, https://doi.org/10.1039/D3DD00254C
  • V. H. M. Doan, C. D. Ly, S. Mondal, T. T. Truong, T. D. Nguyen, J. Choi, B. Lee, and J. Oh, "Fcg-Former: Identification of Functional Groups in FTIR Spectra Using Enhanced Transformer-Based Model", Analytical Chemistry, 96 (30), 12358-12369, 2024, DOI: 10.1021/acs.analchem.4c01622.
  • G. Klein et al., "OpenNMT: Open-Source Toolkit for Neural Machine Translation," in Proceedings of ACL 2017, System Demonstrations, Vancouver, Canada, 2017, pp. 67–72.
  • X.F. Cadet, O. Lo-Thong, S. Bureau et al., “Use of Machine Learning and Infrared Spectra for Rheological Characterization and Application to the Apricot”, Sci Rep 9, 19197 ,2019, https://doi.org/10.1038/s41598-019-55543-7