AIによる化学反応予測の発展
化学反応予測とは、与えられた反応物と条件に基づいて化学反応の生成物を予測するプロセスです。材料合成、創薬、エレクトロニクスなどの分野で活動する化学者は、これまで長年にわたり経験と経験則に頼って有機化合物の設計に取り組んできました。近年は、計算化学、データサイエンス、人工知能の大幅な進展により、反応の結果、反応機構、最適条件、収率の予測精度が向上し、有機合成の効率と正確性が大幅に強化されています。
計算機やアルゴリズムを駆使した化学反応や合成経路の予測に関する歴史は古く、初期の人工知能分野で発展したエキスパートシステムを用いた研究が1970年代からありました。それから生成AI世代の現在まで、化学反応予測の研究において様々な発展がありましたが、本記事では「反応テンプレートの有無」に焦点をあててご説明したいと思います。
反応テンプレートと化学反応予測
化学反応の予測手法は、大きく分けてテンプレートベースとテンプレートフリーの2種類があります(図1)。ここでいうテンプレート(反応テンプレート)とは、特定の反応パターンやルールを一般化した枠組みを指します。例えば、特定の官能基間の結合形成や切断のパターン、酸化還元反応の一般的な進行様式などがテンプレートとして定義されます。
- テンプレートベース予測は、あらかじめ定義された反応パターンやルールに基づいて反応結果を決定します。ルールベース型のアプローチです。
- テンプレートフリー予測は、機械学習モデルが大量のデータセットから直接反応パターンを学習する(学習ベース)手法であり、事前に決められたテンプレートは必要ありません。データ駆動型のアプローチです。
また、これらに加えて、実現可能な反応経路の遷移状態エネルギーを網羅的に計算するアプローチも存在します。しかし、反応エネルギー障壁の計算に膨大な計算コストが必要である点や、モデル依存性が高くモデル選定に深い専門性が求められるといった点から、スケーラビリティが限定されます。近年の反応予測の研究では、技術発展や計算資源、活用障壁の観点から、よりスケーラブルなデータ駆動型戦略を用いた手法が活発になってきています。
なお、計算機による分子生成についても同様にルールベースと学習ベースのアプローチがあります。次の記事も併せて読むことで、理解を深めていただけます。
図1. テンプレートベースとテンプレートフリーの2つのアプローチによる化学反応予測プロセス
テンプレートベースの化学反応予測
テンプレートベースモデルの概要
テンプレートベース予測では、あらかじめ定義された反応テンプレート(化学反応の一般的な表現)を用いて反応結果を決定します。化学者は反応機構や化学の知識を駆使して適切なテンプレートを選択する重要な役割を果たします。反応が特定のテンプレートに分類されると、モデルは結合形成や切断、官能基の変換、酸化状態の変化などの特定ルールを適用して、最も可能性の高い生成物を予測します。図2は、与えられた反応に対して異なるツールを用いて抽出された反応テンプレートの比較例を示しています。
図2. 元となる一つの化学反応から抽出された異なる化学反応テンプレートの例
具体的な化学反応の記録が反応テンプレートの元になります。反応物、生成物、反応条件などの情報を含む詳細な反応データです。こうした反応データからどのように反応テンプレートを抽出するかは、手法やツールによって異なります。たとえばRDChiralは立体化学を考慮したテンプレート抽出を行う特徴があり、AutoTemplateは反応データベースの情報エラーを自動検知しながら一般的な反応変換ルールの抽出をします。LocalRetroは深層学習を用いたセミテンプレートともいえる手法で、反応中心の自動特定と原子・結合レベルでのテンプレート抽出を行います。
テンプレートベースモデルの利点・課題・展望
テンプレートベースモデルは長年研究・開発されてきた手法であり、化学者にとっての多くの利点があります。
- 既知反応における信頼性
実際の化学反応から抽出したパターンを利用するため、信頼性が確保されます。正しいテンプレートが選ばれた場合には、高い精度を発揮します。 - 予測根拠の高い解釈性
反応メカニズムや変化が明確に示されるため、予測結果が分かりやすく、化学者がその根拠を理解・検証できます。 - 高い計算効率と実用性
よく知られた反応に対して有効なテンプレートが整備されており、評価が高速なため、ターゲット分子の有効な合成経路を効率よく構築できます。
一方で、ルールベースの枠組みだからこその不自由さが課題として挙げられます。
- 専門知識とデータセットへの依存
適切なテンプレートの選定には専門の化学者の知見が必要であり、また予測性能はテンプレートデータセットの充実度と多様性に大きく依存します。また、新しい反応や改良手法が次々と報告されるため、テンプレートの更新・拡充が求められる一方、専門家による手作業での抽出は時間・労力の面でボトルネックとなります。 - 新規・希少反応への対応の難しさ
既存の既知テンプレートに限定されるため、新規または希少な化学反応に対しては予測が困難となります。
こうした課題に対する一つの改善アプローチは深層学習を用いたセミテンプレート手法で、上述のLocalRetroなどがあたります。セミテンプレート手法の主力なアプローチでは、分子内で化学変化が起こる可能性の高い部位(反応中心)を抽出し、そこを起点に分子を分割し、仮想的な中間体 (synthon) を生成します。生成された中間体を反応データベースに照合することで、可能な出発物質を推定することができます。これにより、データベースに明示されている反応や既存のテンプレートに依存せず、未知の反応パターンや稀少な反応も柔軟に予測しうるというわけです。
また、近年の期待が大きい手法が大規模言語モデル(LLM)によるデータ自動抽出によるデータベースおよびテンプレートの強化です。
従来より反応データベースからの反応テンプレートの自動抽出については研究されてきましたが、データベースそのものの情報量は依然としてボトルネックでした。LLMの登場により、既存データベース外の知識を自動で取り入れることが可能になりつつあります。すなわち、LLMの自然言語処理能力を活かし、化学文献中に記述された反応情報や記号、条件などを自動的に抽出する試みです。LLMは化学論文、特許、レビュー記事など大量の文献から、従来のルールベースでは見落とされがちな微妙な表現や文脈依存の情報を学習できますので、既存データベースに含まれていない新規の反応テンプレートを自動的に抽出し、知識ベースを拡充できる可能性を秘めています。たとえば、文献中の記述を入力としてLLMに学習させることで、反応の起こる条件、関与する官能基、変換パターンなどを自動で整理し、ルールまたはテンプレートとして再構築するアプローチが報告されています。これにより、手動でのテンプレート設計に比べて、はるかに広範な反応情報が取り込めるようになります。このように、既存データベースにない新しい反応の報告を柔軟にカバーすることで、従来のテンプレートベースモデルの有用性が大いに高まります。
関連して、下記の記事では、LLMによる論文からの情報抽出や要約について説明しています。
図3. テンプレートフリー手法による反応生成物予測の概要
深層学習のアーキテクチャ
- グラフニューラルネットワーク(GNN)
分子をグラフとして表現し、原子をノード、結合をエッジと見なします。原子間の関係性を学習し、反応結果を予測できます。 - トランスフォーマー
アテンション機構を用いるモデルで、入力データの各部分の重要度を動的に評価し、長距離依存性(分子内で遠く離れた部分同士の関係性)を捉えます。これにより、複雑な反応変換を理解し予測する能力が向上します。大規模言語モデルで用いられる主要なアーキテクチャでもあり、下記の記事でも図解しています。
学習に用いられる代表的なデータセット
- USPTO
米国特許商標庁のパブリックなデータセットで、特許から抽出された多数の化学反応が含まれ、広く利用されています。 - Reaxys
化学反応とその性質に関する包括的な商用データベースです。
反応予測の性能評価指標
モデルの性能は、以下のような指標を用いて評価されることが一般的です。
- Top-K精度:正解生成物が予測された上位K件の中に含まれているかどうかを評価します。
- 反応精度:モデルが反応ごとに正確な生成物を予測できた割合を示します。
テンプレートフリー手法の利点・課題・展望
機械学習を用いたデータ駆動型の化学反応予測では、主に下記の利点があります。
- 新規反応の予測が可能
事前に定義されたテンプレートに依存しないため、未知の反応や複雑な化学空間にも適用可能であり、新しい反応経路の探索に有用。 - 幅広い化学領域への適用性
大規模なデータセットを学習することで、特定の反応カテゴリに依存せず、さまざまな化学反応のパターンを包括的に学習できます。 - モデルの継続的な改善が可能
データが増えるほど精度向上が期待でき、転移学習やデータ拡張を活用することで、小規模データセットに対しても適応力を高められます。
一方で、テンプレートベースモデルと比較したときに、次の2点が特に課題となります。
- データ依存性と計算コスト
高精度な予測には大規模かつ多様なデータセットが必要であり、小規模なデータでは精度が十分にでません。また、学習や推論には計算コストがかかります。 - 解釈性と信頼性の低さ
ディープラーニングモデルはブラックボックス的な性質を持つため、予測結果の根拠を化学者が理解するのがしばしば困難です。また、そのためにモデル精度が高かったとしても結果を信頼する上での障壁があります。
そこで、下記のようなアプローチでの課題の克服が試みられています。
- データ拡張: 既存のデータを変換・拡張することで、モデルの学習効果を高めます。
- 転移学習: 関連する大規模データで事前学習したモデルを特定のタスクに適用し、少ないデータでも高い精度を実現します。
- モデル解釈: アテンション機構を用いて反応中心や脱離基などの特定を行う学習手法や、SHAP (Shapley Additive Explanations) などの後処理での入力寄与度の可視化、知識蒸留による解釈可能性の向上というアプローチにより、機械学習の挙動をより人間にとって理解しやすくできます。また、反応における原子や結合の編集操作を学習させることで、中間体を介したステップ・バイ・ステップの反応予測を行うことで、化学者による反応機構の解釈性を高める手法もあります。
アプローチの選択方法
上述のように、テンプレートベースとテンプレートフリーの両手法は、それぞれ化学反応予測において異なる特徴を持ちます。テンプレートベース手法は、既知の反応に対しては高い精度と解釈性を持ちますが、専門家の知識と事前定義されたルールに依存します。一方、深層学習によるテンプレートフリー手法は、新規反応の予測や多様な化学領域への一般化に有望な結果を示しますが、十分なデータセットが必要であり、予測の解釈性に欠ける場合があります。最新の手法では、テンプレートの利点を活かしつつも深層学習の表現力の高さを活用したセミテンプレートの手法があります。
どの手法を採用するかは、予測タスクの具体的な状況や目的に依存します。既知のテンプレートに基づく反応であれば、テンプレートベース手法がその精度と解釈性から好まれる傾向にありますが、未知の反応を探索したり、複雑な化学空間を扱う場合は、テンプレートフリー手法が有力な選択肢となります。下表にそれぞれの特徴とそれに紐づく課題をまとめましたので、ご参考ください。
手法 | 特徴 | 特徴に紐づく課題 |
---|---|---|
反応テンプレートを用いたルールベース予測 | 適切なテンプレートが選択されれば高い精度が得られる | 適切なテンプレートの選定に専門の化学者の入力が必要 |
一般的かつ十分に研究された反応をベースにできるため信頼性が高い | 既知の反応テンプレートに限定され、新規または希少な反応には対応が難しい | |
事前定義された反応ルールにより解釈性が高い | 反応テンプレートのデータセットの充実度や多様性に大きく依存する | |
評価が高速で、逆合成経路設計に効果的 | 事前定義されたテンプレート以外の反応に対しては一般化できず、柔軟性に欠ける | |
テンプレートフリーの学習ベース予測 | 既存のルールにとらわれず新規反応の予測が可能 | 高い精度を得るためには大規模かつ多様なデータセットが必要 |
GNNやトランスフォーマーなどの深層学習により反応パターンを学習 | モデルのブラックボックス性により、予測結果の解釈が困難な場合がある | |
より幅広い化学領域に一般化でき、柔軟性が高い | 小規模なデータセットでは過学習のリスクがある | |
転移学習やデータ拡張により、限られたデータからも学習精度が向上可能 | ルールベースの手法に比べ学習や推論の計算コストが高い |
まとめ
本記事では、AIを活用した化学反応予測の進展について、テンプレートベース、テンプレートフリー、そしてセミテンプレート手法の観点から整理しました。それぞれのアプローチは、予測精度、解釈性、新規反応への対応、計算コストといった要素で異なる特性を持ち、適用すべき状況も異なります。
今後の展望として、化学反応予測技術のさらなる発展には、いくつかの重要な要素が挙げられます。まず、データの拡充と品質向上は依然として鍵となります。LLM(大規模言語モデル)を活用した化学文献や特許からの反応情報の自動抽出により、データベースの拡充が進めば、テンプレートベース・フリー双方の精度向上が期待されます。また、テンプレートベースの解釈性と、テンプレートフリーの柔軟性を組み合わせたセミテンプレートt型のハイブリッドアプローチは、化学者の意思決定を補助しつつ、より多様な反応空間をカバーする手法として注目されています。今後も、化学とAIの融合による新たな可能性を追求し、より実用的な反応予測技術の発展に注視すると共に、材料開発へのさらなる貢献を目指します。
MI-6ではAIを用いた化学反応予測の実装を行っております。具体的な開発テーマでの適用可能性などに興味がございましたら、お問い合わせください。
参考文献
- Segler, M. H. S.; Waller, M. P. Neural-Symbolic Machine Learning for Retrosynthesis and Reaction Prediction. Chem. A Eur. J. 2017, 23 (25), 5966–5971. https://doi.org/10.1002/chem.201605499.
- Coley, C. W.; Green, W. H.; Jensen, K. F. RDChiral: An RDKit Wrapper for Handling Stereochemistry in Retrosynthetic Template Extraction and Application. J. Chem. Inf. Model. 2019, 59 (6), 2529–2537. https://doi.org/10.1021/acs.jcim.9b00286.
- Chen, L.-Y.; Li, Y.-P. AutoTemplate: Enhancing Chemical Reaction Datasets for Machine Learning Applications in Organic Chemistry. J. Cheminformatics 2024, 16 (1), 74. https://doi.org/10.1186/s13321-024-00869-2.
- Chen, S.; Jung, Y. Deep Retrosynthetic Reaction Prediction Using Local Reactivity and Global Attention. JACS Au 2021, 1 (10), 1612–1620. https://doi.org/10.1021/jacsau.1c00246.
- Tran, T.; Ekenna, C. Molecular Descriptors Property Prediction Using Transformer-Based Approach. Int. J. Mol. Sci. 2023, 24 (15), 11948. https://doi.org/10.3390/ijms241511948.
- Schwaller, P.; Laino, T.; Gaudin, T.; Bolgar, P.; Hunter, C. A.; Bekas, C.; Lee, A. A. Molecular Transformer: A Model for Uncertainty-Calibrated Chemical Reaction Prediction. ACS Cent. Sci. 2019, 5 (9), 1572–1583. https://doi.org/10.1021/acscentsci.9b00576.
- Saebi, M.; Nan, B.; Herr, J.; Wahlers, J.; Wiest, O.; Chawla, N. Graph Neural Networks for Predicting Chemical Reaction Performance. 2021. https://doi.org/10.26434/chemrxiv.14589498.v1.
- Coley, C. W.; Jin, W.; Rogers, L.; Jamison, T. F.; Jaakkola, T. S.; Green, W. H.; Barzilay, R.; Jensen, K. F. A Graph-Convolutional Neural Network Model for the Prediction of Chemical Reactivity. Chem. Sci. 2018, 10 (2), 370–377. https://doi.org/10.1039/c8sc04228d.
- Tu, Z.; Stuyver, T.; Coley, C. W. Predictive Chemistry: Machine Learning for Reaction Deployment, Reaction Development, and Reaction Discovery. Chem. Sci. 2022, 14 (2), 226–244. https://doi.org/10.1039/d2sc05089g.
- Zhang, Y.; Wang, L.; Wang, X.; Zhang, C.; Ge, J.; Tang, J.; Su, A.; Duan, H. Data Augmentation and Transfer Learning Strategies for Reaction Prediction in Low Chemical Data Regimes. Org. Chem. Front. 2021, 8 (7), 1415–1423. https://doi.org/10.1039/d0qo01636e.