はじめに
有機EL材料や有機半導体材料の開発など、新規の有機分子設計が製品差別化の肝となる開発テーマは多数存在します。一般に有機分子の設計は、先行研究や理論、経験則に基づき、構造の決定、合成経路設計から実験評価に至るまで研究者の試行錯誤によって実施されます。この一連のプロセスには、多大な時間と労力が必要となります。
コンピュータ上で分子を仮想的に発生させる技術である分子生成は、このような試行錯誤の効率化や成果の最大化のために非常に重要なツールです。創薬分野を始めとして、分子生成技術の活用は徐々に広がりつつあり、分子生成によって有望な分子を発見できた事例は多く報告されています。
本記事では、このような分子生成を活用する利点と技術の概要についてご紹介します。また、別の記事にて実用上重要となる観点をご共有します。
AIによる分子生成の利点
情報技術を用いた分子生成手法を利用しない場合、実験や既存の知見に基づいて分子構造を設計するのが一般的です。このプロセスには時間やコストがかかることが多く、また有機分子の候補が多様であるために重要な構造群を見落とすリスクもあります。
もちろん、実験や既存の知見が重要であることには代わりありませんが、AI分子生成の利用によってより効率的で成果の高い分子設計を行うことが可能になります。具体的には以下の2つの利点が挙げられます。
- 網羅性・多様性 : より広く多様な構造を検討することが可能に
- 効率性 : より短い時間で多くの構造を検討することが可能に
有機分子の候補は膨大であり、人手による検討では漏れが発生する可能性があります。コンピュータにより機械的に分子を生成することでこのような漏れを減らし、より広範囲の構造を効率的に検討することができます。また、候補の膨大さから可能性のある構造をすべて検討することは不可能です。機械学習による自動的な選定により検討の効率が上がり、これまで扱うことができなかった膨大な化学空間を扱うことが可能となります。
分子生成技術の概要と分子設計への活用
本節では分子生成技術の概要とそれらを活用した分子設計の方法についてご説明します。改めて、分子生成とはコンピュータ上で分子を仮想的に発生させる技術の総称です。分子生成は、生成方法や分子の表現方法等によって図1のように分類することができます。
図1. 分子生成手法の分類
ルールベースの分子生成手法では、分子を生成するためのルールをこれまでの知見に基づいて設計し、そのルールに則り分子を生成します。一方、学習ベースの手法ではニューラルネットワーク等の機械学習モデルを用いて分子の生成方法をデータから学習し、学習されたモデルを活用して分子を生成します。学習ベースの手法には有機分子を文字列 (SMILESなど) で表現し言語モデルを用いてSMILESを生成させる文字列ベースの手法と、分子をグラフとして表現し、原子や分子フラグメント同士の接続を直接生成するグラフベースの手法に大別されます。
また、分子生成を用いて有望な分子を設計していくためには、目的物性 (最適化したい物性) や制約条件(構造やコスト、特許など)を用いて分子の探索範囲を絞り込む必要があります。この際、目的物性を実験などで測定することにはコストがかかるため、少数の実験済みデータから目的物性を予測する機械学習モデルを構築し、そのモデルの予測値を目的物性の値として代用することが一般的です。またベイズ最適化のように、単なるモデルの予測値ではなく「活用」と「探索」のバランスを考慮した獲得関数の値を用いて分子を選定する場合もあります。
ルールベースの分子生成手法
ルールベースの分子生成手法は古くから利用されており、中でもBRICS (Breaking of Retrosynthetically Interesting Chemical Substructures) は非常に有名です。
BRICSでは、分子群に対して分割規則と再結合規則を定義し、それらの規則に基づき分子を生成します。そして、生成された分子に対して物性値を評価 (あるいは機械学習モデルで予測) することで有望な分子を抽出します。この一連の流れを図2に示します。
図2. BRICSによる分子設計の流れ
BRICSは候補分子を大量に高速生成できる一方、見込みの低い構造も大量に生成されることや、組み合わせが膨大なためすべての候補を考慮できないなど欠点もあります。しかし、なにより仕組みがシンプルで使いやすいという利点があります。
次にもう少し発展的な手法としてGBGA (Graph-Based Genetic Algorithm) という手法を紹介します。GBGAはグラフとしての分子表現と遺伝的アルゴリズムを分子生成へ応用した手法です。2つの分子をランダムに組み替える「交叉」とそれにより得られた分子の一部をランダムに変更する「変異」という2つの操作を定義し、それらにより次の世代の分子を生成します。交叉の候補は物性値 (あるいはその予測値、より厳密には適応度) に基づいて選ばれるため、優秀な分子の構造が次の世代に残りやすく、世代を重ねるごとにより物性値の優れた分子が多く生成されるようになるという特徴があります。
図3. GBGAによる分子設計の流れ
BRICSやGBGAは生成の元になる参照分子群が必要です。ただし、後述する学習ベースの手法と比較して、非常に少ない分子数でも妥当な生成を行うことができるという利点があります。
学習ベースの分子生成手法
学習ベースの分子生成では、機械学習、特にニューラルネットワークを用いて分子の生成方法を学習します。手法によってモデルや分子の表現方法による違いはありますが、基本的には分子を少しずつ成長させていき最終的な分子を出力することで分子を生成します。
まず、比較的シンプルな手法である再帰型ニューラルネットワーク (Reccurent Neural Network; RNN) について説明します。
RNNでは分子はSMILES形式などの文字列で表現されます。$n-1$文字目までのSMILESが入力されたときに、$n$文字目として適切なものを確率的に予測するモデルを構築します。
RNN単体で分子を生成することも可能ですが、RNNとモンテカルロ木探索と組み合わせた手法であるChemTSが広く利用されています。図4に示すように、ChemTSでは分子候補を、各頂点がSMILESの文字(原子や結合)に対応するような木構造で表現します。この木構造の各頂点に対して、価値を割り当てます。この価値は、利得(物性評価値など)と訪問回数(文字の選択回数)によって定まります。ChemTSでは、割り当てられた価値 (厳密には訪問回数も考慮されます) およびRNNに基づく分子生成と、生成された分子の物性評価値に基づく価値と木構造の更新を繰り返します。このプロセスにより価値が段階的に正確になり、より優れた物性をもつ分子を多く生成できるようになります。
図4に示すように、ChemTSではSMILESの候補を、各頂点がSMILESの文字(原子や結合)に対応するような木構造で表現します。この木構造に対して、各頂点を選択する価値を割り当てます。この価値は、利得(物性評価値など)と訪問回数(原子や結合の選択回数)によって定まります。ChemTSによる分子生成では、以下のプロセスを繰り返します。
- 現在の木構造を基にSMILES文字列を生成し、物性評価を行います。この評価から得られる利得(物性評価値)を用いて、木構造内の価値を更新します(バックプロパゲーション)。これによって次の探索でより良い文字選択が行われるようになります。
- 未探索のSMILES文字が存在する場合、それに対応する新しいノードを木構造に追加します(木構造の拡張)。
この繰り返しにより、木構造は動的に拡張され、価値が段階的に正確になります。その結果、より優れた物性を持つ分子を多く生成できるようになります。
図4. ChemTSにおける分子の生成と、価値および木構造の更新
なお、近年大規模言語モデル(LLM)の興隆とともに非常に活用が進んでいるGPT(Generative Pretrained Transformer)についてもネットワークの構造やデータ規模の違いを除けば同じ枠組みで考えることが可能であり、GPTを使った分子生成についても盛んに研究されています。
こうした研究では、SMILES表記をGPTへ入力し、テキスト生成と同様の手法で新規分子を生成させるアプローチが一般的です。例えば、事前学習により大規模な化学データセットを取り込み、文脈(ここでは分子構造上のパターンや特性)を把握したうえで、新たなSMILES文字列を逐次生成する形をとります。これによって、未知の構造を提案できるだけでなく、ファインチューニングによって特定の物性やターゲット特性を最適化した分子を生成することも可能になります。
最後に変分オートエンコーダ (Variational AutoEncoder; VAE) による分子生成について説明します。
VAEはニューラルネットワークを用いた生成モデルの1種で、エンコーダとデコーダという2つの要素で構成されます。VAEの応用は幅広く、対象とする分子の表現方法やネットワーク構造の違いにより多数の手法が提案されています。SMILESを使ったVAEとしてはChemical VAE、分子グラフに対するVAEとしてはJTVAEやHierVAEなどが提案されています。
図5に示すようにVAEには、分子構造を潜在空間と呼ばれる連続値の空間に対応付けることができるという特徴があります。この特徴を活用することで連続変数に対する最適化手法を使った分子の探索が可能となります。特に、有機分子に限らず材料開発に広く利用されているベイズ最適化が分子設計にも応用可能になるとして注目されています。
図5. VAEの構造および、VAEの潜在空間を用いて物性最適化を行うイメージ
学習ベースの手法はルールベースと比較して、生成ルールを定義せずに利用できるという利点がありますが、分子量の大きい分子や複雑な分子を生成するには大量のデータが必要となるという欠点もあります。そのため、興味のある分子群やデータ数に応じてどの手法を使うか選定することが重要です。
まとめ
分子生成は分子設計の効率化や成果の最大化を目指す上で非常に重要な技術です。従来の知見や理論に基づく設計に分子生成の網羅性、効率性が加わることにより、より高度な試行錯誤が可能となります。
本記事で紹介した代表的な手法をはじめ、分子生成には多種多様なアプローチがあり、それぞれ利点や欠点があります。そのため目的や状況に応じて適切に選定する必要があります。また、工夫なしに分子生成手法を使っても、有望な構造が得られないことも多いため、効果的にノウハウを活用する必要があります。活用上のポイントについては、近日公開の記事でご紹介いたしますので、ぜひそちらもご覧ください。
参考文献
- Degen, J., Wegscheid-Gerlach, C., Zaliani, A., & Rarey, M. (2008). On the art of compiling and using'drug-like'chemical fragment spaces. ChemMedChem, 3(10), 1503. https://doi.org/10.1002/cmdc.200800178
- Jensen, J. H. (2019). A graph-based genetic algorithm and generative model/Monte Carlo tree search for the exploration of chemical space. Chemical science, 10(12), 3567-3572. https://doi.org/10.1039/c8sc05372c
- Yang, X., Zhang, J., Yoshizoe, K., Terayama, K., & Tsuda, K. (2017). ChemTS: an efficient python library for de novo molecular generation. Science and technology of advanced materials, 18(1), 972-976. https://doi.org/10.48550/arXiv.1710.00616
- Bagal, V., Aggarwal, R., Vinod, P. K., & Priyakumar, U. D. (2021). MolGPT: molecular generation using a transformer-decoder model. Journal of Chemical Information and Modeling, 62(9), 2064-2076. https://pubs.acs.org/doi/10.1021/acs.jcim.1c00600
- Gómez-Bombarelli, R., Wei, J. N., Duvenaud, D., Hernández-Lobato, J. M., Sánchez-Lengeling, B., Sheberla, D., ... & Aspuru-Guzik, A. (2018). Automatic chemical design using a data-driven continuous representation of molecules. ACS central science, 4(2), 268-276. https://pubs.acs.org/doi/10.1021/acscentsci.7b00572
- Jin, W., Barzilay, R., & Jaakkola, T. (2018, July). Junction tree variational autoencoder for molecular graph generation. In International conference on machine learning (pp. 2323-2332). PMLR. https://arxiv.org/abs/1802.04364