本記事は、miLabにおける英文記事(Molecular Descriptors: Bridging Structure and Property)の日本語翻訳版です。

はじめに

ケモインフォマティクスやマテリアルズインフォマティクスの分野において、物理的・化学的性質を広範な実験を行わずに評価する必要性から、in-silicoモデルが発展してきました。この方法は、分子構造とその性質との間に数学的な関係を構築する定量構造-物性関係(Quantitative Structure-Property Relationship, QSPR)と呼ばれています。このQSPRの中核を担うのが、分子構造を数値的に表現する分子記述子です。

分子記述子の役割

TodeschiniとConsonniによる定義[1]では、次のように述べられています。

「分子記述子とは、分子の記号表現に符号化された化学情報を有用な数値や標準化された実験結果に変換する、論理的かつ数学的な手法の最終結果である。」

分子記述子の主な目的は、特に測定が高コストまたは時間を要する物性の予測精度を向上させることにあります。したがって、分子記述子はQSPRやその他のin-silicoモデルにおいて重要な役割を果たします。

人間可読性から機械可読性へ

従来、化学構造は「構造式」や「化学式」によって表されてきました。これらの記法は、熟練した化学者に分子の構造を伝える点で優れていますが、計算解析やデータベース操作においては多くの課題を伴います。このギャップを埋めるため、化学情報をコンピュータが処理可能な文字列や数値に変換する分子記述子が開発されました。このデジタル表現は、現代のケモインフォマティクス研究の基盤となり、薬剤候補の仮想スクリーニングから新素材の予測に至るまで、幅広い応用を可能にしています。

分子記述子の分類

分子記述子は、その符号化する構造情報のレベルに応じていくつかのカテゴリに分類されます。

  • 0次元(0D)記述子:構造(構成要素)や量(カウント)に基づく記述子

    例:分子量、特定の原子数(H, O, ハロゲンなど)、環の数、二重結合の数

  • 1次元(1D)記述子:構造断片や分子フィンガープリント

    例:ヒドロキシル基、カルボキシル基、ケトン基、アジド基、アミノ基などの官能基

  • 2次元(2D)記述子:グラフ理論を基盤としたトポロジー記述子

    例:頂点次数、隣接行列、距離行列

  • 3次元(3D)記述子:三次元構造に基づく物性の記述

    例:第一原理計算の結果(バンドギャップ、LUMO-HOMOエネルギー)、ファンデルワールス体積、分子体積、表面積、半径、静電記述子

記述子の分類と例

分子から記述子、そして物性へ

ケモインフォマティクスにおけるモデル構築は、「符号化」と「モデリング」という2段階のプロセスとして捉えることができます。

  1. 符号化
    分子構造を2次元または3次元の構造情報を含む分子記述子のセットに変換します。
  2. モデリング

    機械学習技術を利用して、記述子と目標物性との間のQSPRを構築します。

この2段階のアプローチは、特定の化学分野に閉じない応用可能性を持ち、巨大な化学ライブラリの迅速なスクリーニングを可能にします。これにより、研究者は有望な候補を迅速に特定し、さらなる調査に進むことができます。

実装例

1. 分子記述子

私たちMI-6は、5000以上の記述子を計算可能な多数の分子記述子計算手法を実装しています。Mordred[2], RDKit[3], ISIDA[4], CircuS[5], WHALES[6], CDK[7], CATS[8] など、様々なライブラリを横断的に利用する実装です。

2. 分子フィンガープリント

分子の多様な構造特徴を捉えるため、以下の分子fingerprintを実装しています:Morgan fingerprint、RDKit fingerprint、MACCSKeys、Extended Reduced Graph[9]、MinHashed atom-pair fingerprint[10]など。

3. 埋め込み技術

高次元ベクトルを低次元空間に変換する埋め込み技術として、Mol2vec[11]、Recurrent Neural Networks(RNN)、BERT(Bidirectional Encoder Representations from Transformers)[12] などの深層学習モデルを実装しています。

4. 原子団寄与法

原子団寄与法[13]は、構造情報だけを用いて有機化合物の物性を推定するための簡便かつ強力な手法です。私たちは、物理化学、熱力学、安全性、環境関連分野を含む約50の物性を推定する新しいグループ寄与ベースの予測モデルを開発しました。

5. DFTおよびMD計算

密度汎関数理論(DFT)計算では、HOMO(最高被占軌道)、LUMO(最低空軌道)、原子電荷、双極子分極率などの電子特性を取得します。
また、分子動力学(MD)シミュレーションを用いて、平衡状態の達成や熱伝導率計算のための非平衡MDシミュレーション(NEMD)を実施し、さまざまな物性値を計算します。

6. カスタマイズ記述子

分子記述子の利用における費用対効果の分析はケース依存であり、慎重な評価が必要です。MI-6では以下を提供しています。

  • 複雑な物性を正確に予測するための実現可能な記述子設計
  • ドメイン知識に基づく解釈可能な記述子

プロジェクトごとのニーズに応じて、精度、解釈性、計算効率のバランスを取ったカスタマイズを実現します。

結論

分子記述子は、複雑な化学情報をコンピュータが処理可能な数値へと変換するツールとして、化学インフォマティクスにおいて不可欠な存在です。この能力は、予測モデルの開発を促進し、高コストで時間のかかる実験の必要性を低減します。この分野が進展するにつれ、分子記述子の開発と改良は、化学構造とその性質の理解を深めるうえで重要な役割を果たし続けるでしょう。

参考文献

[1] Todeschini R, Consonni V (2009) Molecular descriptors for chemoinformatics. Wiley-VCH, Weinheim‌
[2] Moriwaki, H.; Tian, Y.-S.; Kawashita, N.; Takagi, T. Mordred: A Molecular Descriptor Calculator. Journal of Cheminformatics 2018, 10 (1). https://doi.org/10.1186/s13321-018-0258-y.
‌[3] RDKit. https://www.rdkit.org/
[4] Fiorella Ruggiu; Marcou, G.; Alexandre Varnek; Horvath, D. ISIDA Property‐Labelled Fragment Descriptors. Molecular informatics 2010, 29 (12), 855–868. https://doi.org/10.1002/minf.201000099.
[5] Byadi, S.; Gantzer, P.; Gimadiev, T.; Sidorov, P. DOPtools: A Python Platform for Descriptor Calculation and Model Optimization. Overview and Usage Guide. 2024. https://doi.org/10.26434/chemrxiv-2024-23v3c.
[6] Grisoni, F.; Merk, D.; Consonni, V.; Hiss, J. A.; Tagliabue, S. G.; Todeschini, R.; Schneider, G. Scaffold Hopping from Natural Products to Synthetic Mimetics by Holistic Molecular Similarity. Communications Chemistry 2018, 1 (1). https://doi.org/10.1038/s42004-018-0043-x.
[7] Egon Willighagen; Mayfield, J. E.; Alvarsson, J.; Berg, A.; Carlsson, L.; Jeliazkova, N.; Kuhn, S.; Tomáš Pluskal; Rojas-Chertó, M.; Spjuth, O.; torrance, gilleain; Evelo, C. T.; Guha, R.; Steinbeck, C. The Chemistry Development Kit (CDK) V2.0: Atom Typing, Depiction, Molecular Formulas, and Substructure Searching. Journal of Cheminformatics 2017, 9 (1). https://doi.org/10.1186/s13321-017-0220-4.
[8] Reutlinger, M.; Koch, C. P.; Reker, D.; Todoroff, N.; Schneider, P.; Rodrigues, T.; Schneider, G. Chemically Advanced Template Search (CATS) for Scaffold-Hopping and Prospective Target Prediction for “Orphan” Molecules. Molecular Informatics 2013, 32 (2), 133–138. https://doi.org/10.1002/minf.201200141.
[9] Nikolaus Stiefl; Watson, I.; Baumann, K.; Zaliani, A. ErG: 2D Pharmacophore Descriptions for Scaffold Hopping. 2005, 46 (1), 208–220. https://doi.org/10.1021/ci050457y.
[10] Riniker, S.; Landrum, G. A. Open-Source Platform to Benchmark Fingerprints for Ligand-Based Virtual Screening. Journal of Cheminformatics 2013, 5 (1). https://doi.org/10.1186/1758-2946-5-26.
[11] Jaeger, S.; Fulle, S.; Turk, S. Mol2vec: Unsupervised Machine Learning Approach with Chemical Intuition. Journal of Chemical Information and Modeling 2018, 58 (1), 27–35. https://doi.org/10.1021/acs.jcim.7b00616.
[12] Chithrananda, S.; Grand, G.; Ramsundar, B. ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular Property Prediction. arXiv:2010.09885 [physics, q-bio] 2020.
[13] Gani, R. Group Contribution-Based Property Estimation Methods: Advances and Perspectives. Current Opinion in Chemical Engineering 2019, 23, 184–196. https://doi.org/10.1016/j.coche.2019.04.007.
[14] Todeschini, R.; Consonni, V. Handbook of Molecular Descriptors; Wiley-Vch: Weinheim ; New York, 2000.
[15] Mitchell, J. B. O. Machine Learning Methods in Chemoinformatics. Wiley Interdisciplinary Reviews: Computational Molecular Science 2014, 4 (5), 468–481. https://doi.org/10.1002/wcms.1183.
[16] Mauri, A.; Consonni, V.; Todeschini, R. Molecular Descriptors. Handbook of Computational Chemistry 2017, 2065–2093. https://doi.org/10.1007/978-3-319-27282-5_51.
[17] Grisoni, F.; Ballabio, D.; Todeschini, R.; Consonni, V. Molecular Descriptors for Structure-Activity Applications: A Hands-on Approach. Methods in Molecular Biology (Clifton, N.J.) 2018, 1800, 3–53. https://doi.org/10.1007/978-1-4939-7899-1_1.