本記事は、miLabにおける英文記事(Introduction of Interpretable Molecular Descriptors by Group-Contribution Methods)の日本語翻訳版です。
原子団寄与法(GC法)は、有機化合物の構造情報のみを入力することでその物性を推定するための、シンプルかつ強力な手法です。本記事では、この手法について簡単に紹介し、MI-6のGC法に基づく予測モデルと、その主要な特徴および今後の展望について説明します。
1. はじめに
現在の化学および材料産業において、何百万もの有機化合物が同定されています。世界中で新規化合物が継続的に合成されています。では、これほど膨大な数の化合物の物性をどのように決定すれば良いのでしょうか?コストと時間の制約から、それらの物性をその場で測定することは不可能です。しかし、計算技術の進歩により、in silicoで物性を推定することが可能になりました。
化学の分野では、さまざまなin silico手法が提案されてきました。例えば、量子化学計算、定量的構造-活性/物性相関(QSAR/QSPR)、および原子団寄与法(GC法) などです。GC法は半世紀以上前に導入された手法ですが、そのシンプルさと堅牢性から現在でも広く使用されています。図1 は、in silico手法および従来の手法におけるGC法の位置付けを示しています。一般に、手法を評価する際には「シンプルさ」と「予測能力」の間にはトレードオフが存在します。しかし、GC法はその二つのバランスを達成していることで知られています。
図1. マルチレベルでの特性推定の概要
GC法の基本的な考え方は、分子構造をフラグメント(断片)に分解できるというものです。有機化合物においては、官能基が最も一般的なフラグメントとして採用されますが、GC法ではフラグメントを官能基に限定することはありません。フラグメントの定義は、それが意味のある値を持つように決めることに依存します。
各フラグメントには「寄与」と呼ばれる部分的な値が定義されます。そして、化合物の物性値は、その分子構造に含まれるすべてのフラグメントの寄与を合計することで得られます。
図2. GC法の概念図
2. 実装と特性
モデル実装を紹介する前に、GC法の本質的な特徴について説明します。GC法はシンプルで強力なモデルですが、いくつかの制約があります。
- フラグメントが欠けている場合、その寄与を特定することはできません。そのため、GC法に基づくモデルは特定の化合物群に限定されます。
- 近接効果や異性体効果を信頼性高く予測することはできません。これはSMILES(簡略分子入力表記法) の限界でもあります。
- 多官能性を持つ大きな分子では、精度が低下します。
- GC法は有機系にのみ適用可能です。
これらの制約がある一方で、GC法の最大の利点は、必要な情報が化学化合物の構造情報だけであることです。SMILES表記を準備することで、高価で時間のかかる実験を行うことなく特性を推定できます。さらに、GC法は純粋な化合物だけでなく、混合物の推定にも利用できます。
上記の本質的な特徴を考慮し、私たちはGC法の利点を最大限に活用した新しいGCベースの予測モデルを開発しました。このモデルは約50種類の物性を推定し、基礎物理化学、化学工学、および安全・環境関連分野をカバーしています。表1および表2は、これらの推定物性の例です。
表1. GC法ベースの予測モデルで推定される特性1
表2. GC法ベースの予測モデルで推定される特性2
基本的な化学物性に加えて、安全性や環境に関連する物性も、私たちの予測モデルの重要な特徴です。化学の分野でも、持続可能な開発への強調は高まっており、いわゆるグリーンケミストリーの必要性が広く認識されています。グラクソ・スミスクライン社(GSK plc) は「GSK溶媒選択ガイド」を提案しました。また、USEtox は化学物質の人間および生態系への毒性を評価するモデルを開発しました。このような背景から、GC法は安全性や環境関連物性を推定するための手法として研究されてきました。私たちのモデルには、これらの研究成果を統合しています。
さらに、分子の可視化機能も提供しています。図3 は生分解性の例を示しており、各フラグメントの寄与が視覚化されています。従来のモデルが基本的な化学物性のみを提供するのに対し、私たちの予測モデルはGC法の可能性をさらに拡張しています。
図3. フラグメントを基にした生分解性の可視化
3. 結論と展望
ここまでGC法について紹介してきました。GC法は古くから存在する手法ですが、そのシンプルさ、高速性、および堅牢な予測能力に依存して、現在でも広く活用されています。私たちの予測モデルの開発においても、GC法の利点を最大限に活用しました。最後に、GC法の将来展望について議論します。
第1章で述べたように、フラグメントの定義がGC法の核となるアイデアです。Gani Rは、SMILES表記に基づいて、最大424種類の一次および二次グループを定義しました。これらのグループを再定義することで、GC法に基づくモデルの性能を向上させることができます。また、SMILES以外の構造表記を探求することも一つの提案です。SMILESの限界に対処するために、BigSMILES や SMARTS(SMILES Arbitrary Target Specification) などの新しい表記法が提案され、研究が進められています。
図4. GC法で推定された特性の応用可能性
さらに、推定された物性値を他の手法と組み合わせることも可能です。近年では、化学分野の研究開発において、人工知能およびデータサイエンス(AI/DS) が主要なトレンドとなっています。しかし、AI/DSを化学分野に適用する際の障壁の一つに、データの不足、特にこの分野におけるデータ不足が挙げられます。AI/DSモデルを訓練する際、不十分なデータセットは過学習を引き起こし、モデルの予測精度を低下させることがよくあります。
ここで、私たちのGC法に基づくモデルが解決策を提供できます。図4 に示されるように、推定された物性値は、より高度なAI/DSモデルを訓練するための記述子(Descriptors) として利用する可能性を秘めています。GC法の可能性は、第4次産業革命の進展するトレンドと調和しています。
参考文献
- Gani, R. Group Contribution-Based Property Estimation Methods: Advances and Perspectives. Current Opinion in Chemical Engineering 2019, 23, 184–196. https://doi.org/10.1016/j.coche.2019.04.007.
- Byrne, F. P.; Jin, S.; Paggiola, G.; Petchey, T. H. M.; Clark, J. H.; Farmer, T. J.; Hunt, A. J.; Robert McElroy, C.; Sherwood, J. Tools and Techniques for Solvent Selection: Green Solvent Selection Guides. Sustainable Chemical Processes 2016, 4 (1). https://doi.org/10.1186/s40508-016-0051-z.
- USEtox® | Developed by the USEtox® Team. Usetox.org. https://usetox.org/ (accessed 2024-12-02).
- Hukkerikar, A. S.; Kalakul, S.; Sarup, B.; Young, D. M.; Sin, G.; Gani, R. Estimation of Environment-Related Properties of Chemicals for Design of Sustainable Processes: Development of Group-Contribution+ (GC+) Property Models and Uncertainty Analysis. Journal of Chemical Information and Modeling 2012, 52 (11), 2823–2839. https://doi.org/10.1021/ci300350r.
- Simon, R. H. M. Estimation of Critical Properties of Organic Compounds by the Method of Group Contributions. A. L. Lyderren. Engineering Experiment Station Report 3. College of Engineering, University of Wisconsin, Madison, Wisconsin(1955). 22 Pages. AIChE Journal 1956, 2 (3), 12S12S. https://doi.org/10.1002/aic.690020328.