AIによる化学反応理解の新たな挑戦

反応式を見て「この反応は何反応か?」という問題は化学を学ぶ大学1〜2年生なら、誰もが一度は経験する基本的な問いです。講義や試験でも定番で、反応名を当てる問題はおなじみの形式です。その中には、人名反応など覚えるのに苦労したことがある方も多いはずです。化学反応のタイプは、単なる名前以上の意味を持っています。そこには反応の安全性、収率、スケールアップのしやすさなど、実験やプロセス設計に関わる重要な情報が詰まっています。

LLMはもともと、文章の文脈を読み取り、次に続く言葉を予測することを得意とするAIです。近年では、こうしたモデルを科学分野の知識解釈や推論に応用する試みも進められています。ただ、LLMが科学的な内容をどこまで理解できているのか、その実力や限界はまだ明確ではありません。それでも、こうした応用はAIが知識をもとに考える力を持ちうるかを探る重要なステップであり、AGI(汎用人工知能)への一歩として注目されています。

これまでの研究

人が化学反応を分類する作業は、数が多くなると疲労や記憶頼りで限界があります。1970年代には、化学反応に対しテンプレート法が開発され、反応の分類にも使われています。ただし、この方法もテンプレートにない反応には対応できないという弱点があります。新しい反応が出てくるたびに専門家が手作業でテンプレートを追加する必要があり、やはり効率的とは言えません。

こうした課題を踏まえ、たくさん知恵を学習できたと言われているLLMのような柔軟な推論ができるモデルを使えば、テンプレートに頼らない新しい分類アプローチが実現できるかもしれません。

LLMによる反応分類のワークフロー

本検証では、GPT-4oを使って、与えられた反応がどのタイプに分類されるかを推定できるかどうかを検証しました。そのために、次のような手順で評価を行いました。

①データ準備

まず、化学反応の分類に広く使われている特許データベース(USPTO)から、構造や反応形式が異なる100件の反応を選定しました。選ばれた反応は、カップリング反応、脱保護反応など、代表的な10種類の反応タイプを含んでいます。

②LLMへの入力

各反応について、出発物と生成物の構造情報、反応条件などをテキスト形式に変換し、LLMに入力しました。そのうえで、「この反応は何反応に分類されるか?その理由は?」といった質問のテンプレートを与え、LLMの応答を取得しました。

③出力の評価

LLMの出力(予測された反応名とその説明)については、化学の専門家複数名が目視で確認し、分類が妥当かどうかを評価しました。LLMの推論が人間の判断と一致するかどうか、またその説明に納得できるかどうかを基準に評価しています。

マテリアルズ・インフォマティクスで、大規模言語モデル(LLM)を用いた化学反応分類のワークフローを示す図。自然言語処理により反応情報をテキストに変換し、LLMに分類と理由を問うプロンプトを与える手順。言語理解能力を活かす反応予測。

図1. LLMによる化学反応タイプ分類のワークフロー
出所:著者にて作成

結果と考察

LLMによる分類結果は、全体で70%が専門家の判断と一致しました(100件の反応ケースの中で70件)。中でも、C–C結合形成反応では90%の高一致率を示し、LLMがこの分野の反応を的確に捉えていることが確認されました。一方で、保護・脱保護反応など判断が分かれやすい分類では、一致率が40〜50%程度にとどまっています。

10種の反応タイプに対するLLMの分類精度を示す棒グラフ。マテリアルズ・インフォマティクスの実装可能性を探るうえで、高い一致率を示す一方、脱保護反応などで精度が落ちる。大規模言語モデルによる化学反応予測の信頼性と限界を定量的に把握できる。

図2. 反応タイプ別に見たLLMの分類正解率
出所:著者にて作成

複数の有機反応について、テンプレートによる分類、LLMによる反応名の予測、そして専門家の判断結果を比較した具体例を図3に示しています。

マテリアルズ・インフォマティクス領域での応用を見据え、LLMによる反応タイプ分類と専門家の判断結果を比較。大規模言語モデルは出発物・生成物情報に基づいて反応名を提示。LLMの説明と出力の妥当性が視覚的に示され、説明可能AIとして基盤となる。

図3. LLMによる反応分類結果と専門家の評価例
出所:著者にて作成

LLMはどのように反応を「考えて」いるのか?

この事例では、LLM(GPT-4o)がある反応をVilsmeier-Haack反応と分類し、専門家もその判断に同意しています。図4は、その際にLLMがどのように情報を処理し、結論に至ったかを視覚的に示したものです。

大規模言語モデルがVilsmeier-Haack反応をどのように識別したかを示す図。化学的因果ではなく記憶に基づく類推で反応名を導出する。マテリアルズ・インフォマティクスと自然言語処理の融合による反応予測の新たな可能性を可視化。

図4. LLMによる反応推論の思考回路(Vilsmeier-Haack反応)
出所:著者にて作成

LLMはまず与えられた反応情報から出発物と生成物を把握し、反応全体の構造変化に注目します。この反応では、直鎖状の前駆体からピリジン環が形成されている点が特徴的であり、LLMはそこから「芳香族環の構築、特にピリジン環の合成が行われている」と捉えました。さらに、使用されている試薬(DMFとPCl₃)からイミニウムイオンの生成を想起し、そこからVilsmeier-Haack型の反応機構が関わっていると推定。このように反応のキーワードや典型的な組み合わせに基づいて、Vilsmeier-Haack反応を導き出したと考えられます。

ただし、このプロセスは「理解した」結果というより、過去に見た情報との照合に近いものです。LLMは中間体や電子移動を明示的に考えているわけではなく、あくまで表層的なパターン(語・条件・構造の組み合わせ)を記憶から引き出して分類していると考えています。一方、化学者はこの反応を見たとき、電子の流れや中間生成物の存在を仮定し、反応機構を論理的に再構成することで分類に至ります。つまり、LLMは理解ではなく、反応について「覚えている」ことに近いと考えています。

まとめと今後の課題について

今回の試みの限界として、特許反応に偏ったデータセットの多様性不足や、環化反応などの複雑な反応の少なさが挙げられます。今後の課題としては以下の点が挙げられます。

  • 化学者との協働による反応データをさらに拡張
  • より多様な反応タイプの収集と分類
  • LLMの推論に化学的意味づけを与えるモデルの開発

今後の課題として「記憶に基づく分類」から「化学原理に基づく推論」へと進化できるかが問われています。

参考文献

  • Lin, K., Xu, Y., Pei, J., & Lai, L. (2020). Automatic retrosynthetic route planning using template-free models. Chemical Science, 11(12), 3355-3364.https://doi.org/10.1039/C9SC03666K
  • Schwaller, P., Probst, D., Vaucher, A. C., Nair, V. H., Kreutter, D., Laino, T., & Reymond, J.-L. (2021). Mapping the space of chemical reactions using attention-based neural networks. Nature Machine Intelligence, 3(2), 144-152.https://doi.org/10.1038/s42256-020-00284-w