分子生成とは 

分子生成とはコンピュータ上で分子を仮想的に生成する技術の総称であり、この技術は新規の有機分子を設計する上で発生する試行錯誤の効率化や成果の最大化のために非常に重要です。AIやケモインフォマティクスを用いた分子の自動生成技術には、大きくわけてルールベースと学習ベースのアプローチがあります。下記のmiLab記事で、進化的アルゴリズムによるルールベースの手法や生成モデルを活用した学習ベースの手法をふくめた分子生成の導入説明をしているので、本論に進む前に是非ご一読ください。

分子生成を行うための手法は長らく研究されており、多様な手法が提案されて様々な改善が成されてきました。しかしそれらの改善も完全ではなく、実際に運用してみると、上手く目的の分子を生成できないことも依然として多くあります。

本記事では、分子生成技術を実際の材料開発の問題に適用した際によく生じる問題と、それらに対する対応策についてご紹介します。

分子生成を活用する上でよくある課題と対策

分子生成技術は新規に分子構造を設計する上で非常に重要な技術ですが、実際に利用する際には、いくつかの課題に直面することが多々あります。その中でも代表的な課題として、以下のようなものが挙げられます。

  1. 合成不可能な分子が多く生成される
  2. 用途に対して不適切な分子が多く生成される
  3. 生成される分子に偏りがある
  4. 機械学習モデルによる物性予測の信頼性が低い

以降では、これらの課題に対する具体的な解決策について紹介します。

課題1. 合成不可能な分子が多く生成される

多くの分子生成手法は、参照分子群や生成モデルの学習データにおける部分構造の出現頻度などを参考に、可能な限り実在する可能性が高い構造を生成するように設計されています。しかし、部分構造レベルで実在し得るとしても、それらの構造を組みわせて分子を合成できるとは限りません。特に、興味のある分子群として、多環式化合物や分子量の大きな分子 (例えば分子量1000近く) を考える場合、分子生成手法によって生成された分子が合成できない場合が多く存在します。

生成された分子の大半が合成できないという状況では、その中から物性としても有望でありかつ合成可能な分子を見つけ出すことは難しくなります。そのため、生成された分子が合成できるか、あるいはいかに合成できる分子を多く生成できるか、を考慮することが非常に重要です。ここでは、このような問題に対するアプローチとして以下の2つを紹介します。

  1. 合成可能性の評価に基づく選定
  2. 生成アルゴリズムへの入力の調整

まず、合成可能性の評価に基づき選定を行うアプローチについて説明します。合成可能性の評価は、対象分子に対してどのような手順で合成しうるかを示す合成経路を考慮しない方法と、合成経路を考慮する方法に分けられます。

合成経路を考慮しない方法では、分子構造やその部分構造から合成可能性を直接評価します。この方法に該当するものとして、SAScore (Synthetic Accessibility Score) が提案されています。図1に示すように、SAScoreでは分子の部分構造に対してスコアを割り当て、対象分子に含まれる部分構造に対してそのスコアを加算していくことで分子全体の合成スコアとします。

SAScoreはケモインフォマティクスの分野において分子生成された構造の合成可能性を定量的に評価するための重要指標。部分構造が持つ合成の複雑さや難易度をスコア化。生成モデルによって提案された新規分子が実際に実用化可能かどうかの判断材料に。

図1. SAScoreによる合成可能性の評価
部分構造に基づいて合成可能性を1〜10のスコアで評価する (大きいほど合成難易度が高い)。

次に、合成経路を考慮する方法について説明します。この方法では対象分子の合成経路を探索する技術である逆合成解析アルゴリズムを用いて、対象分子に対して合成経路を予測し、その経路に基づいて合成可能性を評価します。

図2に示すように、合成が難しい分子の場合、逆合成解析によって得られる合成経路が長くなる傾向があり、ものによっては既知の分子構造に到達できない場合もあります。そのような状況を逆合成解析失敗と見做し、逆合成解析が失敗するような分子を合成不可と判定することで選定が可能です。

合成経路を考慮した合成可能性の評価の例。ケモインフォマティクスを用いて分子生成や生成モデルにより得られた候補分子の中から逆合成解析により合成経路を迅速に発見。量子化学計算を用いた解析よる合成経路探索も行い、合成判定に用いる。

図2. 合成経路を考慮した合成可能性の評価の例
上段の分子は購入可能な構造から合成する経路が見つかったため合成可能と判定される。一方下段の分子では、そのような合成経路が一定時間内に見つからないため合成不可と判定される。

合成経路を考慮しない合成可能性の評価は計算が比較的軽量であり、合成経路を考慮する方法と比較して、同じ計算資源で数百倍多くの分子を評価できるという利点がありますが、スコアの大小と実際に合成できるかどうかが、合わない場合も多々あります。その一方で、合成経路を考慮する方法では分子の合成方法を考慮できるため、計算コストが高い分より正確な合成可能性の評価が可能という利点があります。

合成経路を考慮しない方法により、実際に生成された分子の合成可能性を妥当に見積もり可能であることが確認できているなら、それを採用すれば十分と言えます。そうでない場合で、なおかつ逆合成解析の対象となる分子数が多すぎる場合は、目的物性に対する予測値など他の条件での絞り込みを行った上で、合成可能性の評価を行うことが必要になる場合もあります。

次に、生成される分子の合成容易性を改善するために生成アルゴリズムへの入力を調整する方法を説明します。BRICSなどの分子生成手法では、入力する参照分子群の構造の大半が生成される分子に引き継がれます。それを踏まえ、合成が難しい構造を持つような分子をそもそもアルゴリズムへ入力しない、という方法によって生成分子の合成可能性を高めることが可能です。採用する分子生成手法によってはこのアプローチを採用できない場合もありますが、特定の部分構造によって合成難易度が高くなっている場合に非常に有効です。

課題2. 用途に対して不適切な分子が多く生成される

分子設計を行う際には何等か目的物性があり、その目的物性が目標値に到達し得るような分子構造を探索することになります。このとき、目的物性は機械学習モデルなどを用いて評価できていても、それ以外の暗黙的に存在する制約条件が満たされないために発見した分子を実用化できない、という状況が度々発生します。例えば、

  • 有機化合物を溶液に溶かして利用することを想定していたが、対象とする溶媒に対する生成分子の溶解度が低く利用できない
  • 実験室レベルで良い性能が確認されたが、人体や環境に対して有害であり実用化できない

というような状況が起こり得ます。このような問題に対処するためには、暗黙的に存在する条件を言語化、定量化して分子の探索範囲を定める制約条件として設定する必要があります。制約条件の例を図3に示します。

部分構造・全体構造・物性の観点で制約を課すことで、生成モデルをはじめとする機械学習アルゴリズムの探索空間を適切に絞り込み、量子化学計算や実験評価との連携が円滑に。候補分子の合成可能性や用途適合性が高まり、分子設計の効率化と成果最大化へ。

図3. 制約条件の種類
主に部分構造に対する制約条件、分子構造全体に関する制約条件および物性に関する制約条件に分けられる。

部分構造に関する制約条件としては、例えば他部材との結合性を考慮しアンカーとなるカルボキシ基をもつものに限定する、人体への影響を考慮して分子中のフッ素原子の数を一定以下に制限する、などが挙げられます。

次に、分子構造全体に関する制約としては、結晶化させるために対称性の高い構造に限定するという制限方法があります。また、用途に適した分子群が既に知られている場合、それらと一定以上の類似性を持つ構造に制限することも考えられます。

さらに物性に関する条件としては溶媒に溶かして利用する分子であれば、水オクタノール分配係数 (logP) や分子量などで条件を設けることが有効です。また、電池の部材に用いる分子であれば最高被占軌道 (HOMO) や最低空軌道 (LUMO)といった 分子軌道に関する物性で絞り込むことが重要となります。

このように、生成する分子の用途に応じた特徴を言語化し、それらを数値化することにより絞り込みの条件を設けることで関心が高く有望な分子に着目することが可能となります。

課題3. 生成される分子に偏りがある

分子生成手法によって生成される分子は元となる分子群の影響を強く受けます。元となる分子群が偏ったものであると、生成される分子も偏ったものになる可能性が高くなります。このような課題に対しては、元となる分子群に多様性を持たせる、という対応が可能です。

手元にある分子群の多様性が低い場合、それを元に生成される分子も手元の分子群と似通ったものばかりになります。そのような状況では、新しい有望な構造を発見できる可能性は低くなります。

多様性を持たせる方法としては、 PubChemなどの公開データベースから分子構造を取得し、それらを混ぜて元分子群を設定することで多様性を改善することが可能です。このとき、一見開発テーマに関係なさそうな構造でも、他の構造とかけ合わせることで重要な構造が生成される可能性があるため、可能な限り多様な構造を加えることが望ましいです。もちろん、例えば生成分子にハロゲンが含まれていてほしくない場合は、元分子群にもハロゲンをもつ分子を入れないようにする、など目的材料の用途から明らかに外れる可能性がある構造を持つ分子は除外しておく必要があります。

また、データオーグメンテーション(データ拡張)も有用です。学習用の分子構造に対して様々な変換処理を施すことで、構造の多様性を向上させるアプローチです。たとえば下記の記事では、スキャフォールド(分子の骨格構造)を活用したデータ拡張手法を提案しています。

この手法では、課題2で扱った「不適切な分子」の生成を抑制する仕組みも取り入れています。すなわち、分子骨格の結合を入れ替えながらも官能基を保持することで、化学構造の大幅な変更を抑制しながら、異なる特性を持つ新しい分子を探索するように設計しています。

課題4. 機械学習モデルによる物性予測の信頼性が低い

分子生成技術を用いた分子設計では、機械学習モデルによる物性予測の結果をもとに分子を探索・選定していくことが度々あります。このとき機械学習モデルの信頼性に懸念があると、良い物性を持つと予測される分子が見つかっても、その分子の合成検討に踏み切りづらくなります。そのため、予測がどこまで信頼できるか把握しておくことで、より効果的な意思決定が可能となります。

予測の信頼性は大きく以下の3つの点に基づいて見積もることが可能です。

  • テストデータに対する精度 : 学習データとは独立したテストデータに対して予測精度を測ることで、擬似的に未知のデータに対する予測精度を推測できます。少なくとも現在得られている範囲のデータに対しては、テストデータと同程度に正確な予測が可能と考えることができます。
  • 適用範囲 : 学習データと大きく異なるデータに対する予測は困難です。モデルが適切に予測できるデータの範囲を適用範囲と呼びます。テストデータで高い精度を示すモデルでも、適用範囲外の分子に対しては誤った予測をする可能性が高くなります。適用範囲を決める方法はいくつかありますが、有機分子の場合、例えば学習データに含まれる分子との類似度 (タニモト係数など) が一定以上であることを基準とすることができます。
  • 予測分散 : 一部の機械学習モデルでは、分子の物性予測に対する不確実性 (予測分散) を出力できます。予測分散が小さい分子ほど、モデルが自信を持って予測していると解釈できます。ただし、自信を持っているにもかかわらず予測が外れることもあるため、テストデータにおいて予測誤差と予測分散に整合性があるか確認する必要があります。

上記を踏まえ、機械学習モデルの予測に基づいて分子を選定する場合、テストデータにおける精度や適用範囲を考慮して探索方針を設定することで、より確度の高い選定が可能となります。具体的な方針としては、

  • 予算や期間が限られることを踏まえ、可能な限り予測の信頼性の高い分子探索をしたい。そのために、適用範囲付近の分子構造に限定して探索を行う。
  • テストデータに対する予測結果から、特定の構造を持つ分子は物性予測が難しいことが分かっている。それを踏まえ、そのような構造を持つ分子を除外して探索を行う。

などが考えられます。

さらに、吸光特性や熱に対する安定性などが評価対象である場合、分子シミュレーションを用いてより精緻な絞り込みを行うことも可能です。具体的には、まず機械学習モデルの予測に基づいて大まかに絞り込み、次に量子化学計算などによる評価を行うことで、さらに絞り込みを行います。有機分子の設計では、1つの分子に対して合成の検討から実際の評価に至るまでに多大な時間を要することも多く、シミュレーションの活用により選定の確度を向上させることは非常に重要です。

分子生成の実践知の重要性

分子生成手法の研究は日々進展しており、これらの課題を克服するための新たなアプローチが模索されていますが、依然として解決されたとは言い難いのが現状です。単に分子生成モデルをやみくもに適用するだけでは、必ずしも実用的な出力が得られるわけではありません。そのような状況で分子生成手法を使いこなすためには、本記事で紹介したような工夫が必要です。さいごに、実践知として重要と考える3点の共有をもって、本記事のまとめとします。

1. 本質的な要件の定義
何でも望み通りの分子を生成できる万能なモデルやツールは現状存在しません。したがって、まずは実際に求める分子の特性や機能、構造制約、用途などの中で特に重要な観点を絞り、その要件を明確に定義することが必要です(→課題2)。こうした要件定義は、分子生成プロセス全体の出発点となり、生成アルゴリズムへの入力データの選定やパラメータ設定に大きな影響を与えます。

2. モデルの活用やツールの組み合わせの工夫
定義された要件を満たすためには、既存の分子生成モデルをそのまま適用するだけでなく、モデルやアルゴリズムのカスタマイズ、もしくは新たな手法の組み合わせが求められます(→課題3)。たとえば、逆合成解析や合成可能性の評価を取り入れることで、理論上は魅力的でも実際には合成不可能な分子の生成を防ぐといった工夫が有効です(→課題1)。また、生成された分子が実際の用途に適しているかどうか、機械学習モデルの物性予測の信頼性や適用範囲を踏まえて評価し、実践的な意思決定につなげるプロセスが重要です(→課題4)。

3. 反復的な改善と現場でのフィードバック
分子生成技術は非常に複雑であり、初回のモデル適用だけでは十分な成果が得られないことが多いです。現場で得られた実験結果や評価指標をフィードバックとして取り入れ、生成プロセスや評価アルゴリズムを逐次調整する反復的な改善プロセスが求められます。

このような実践知は、単一の論文やモデルだけでは得られず、長年にわたる試行錯誤と現場経験の蓄積から生まれるものであり、技術の実用化に向けた大きな推進力となります。こういった実践知を適切に活用し、分子生成技術を使いこなすことができれば、分子生成技術は有機分子設計を加速させる強力なツールとなることでしょう。

参考文献

  • Ertl, P., & Schuffenhauer, A. (2009). Estimation of synthetic accessibility score of drug-like molecules based on molecular complexity and fragment contributions. Journal of cheminformatics, 1, 1-11.
  • Genheden, S., Thakkar, A., Chadimová, V., Reymond, J. L., Engkvist, O., & Bjerrum, E. (2020). AiZynthFinder: a fast, robust and flexible open-source software for retrosynthetic planning. Journal of cheminformatics, 12(1), 70.
  • Coley, C. W., Rogers, L., Green, W. H., & Jensen, K. F. (2018). SCScore: synthetic complexity learned from a reaction corpus. Journal of chemical information and modeling, 58(2), 252-261.
  • Wang, Y., Xiao, J., Suzek, T. O., Zhang, J., Wang, J., & Bryant, S. H. (2009). PubChem: a public information system for analyzing bioactivities of small molecules. Nucleic acids research, 37(suppl_2), W623-W633.
  • Coley, C. W., Rogers, L., Green, W. H., & Jensen, K. F. (2018). SCScore: synthetic complexity learned from a reaction corpus. Journal of chemical information and modeling, 58(2), 252-261.