本記事は、miLabにおける英文記事(Organic Semiconductor Molecular Design with Hierarchical AI Models)の日本語翻訳版です。
概要
有機半導体(OSC)は、有機化合物の多様な特性と電子的特性を兼ね備えた重要な材料群です。溶液での処理が可能かつ機械的柔軟性を持つ点が主な利点となり、生体医療分野などでの応用可能性を秘めています。
近年、深層学習の一種である生成モデルの登場により分子設計分野は大きな変革を迎えました。これらのモデルは、特定の応用に適した新規で選択的な分子を生成するために非常に有用であることが証明されています。特に薬剤設計では、SMILES表記に基づいた文字列型のアプローチが主流であり、代表例としてリカレントニューラルネットワーク(RNN)、BERT(Bidirectional Encoder Representations from Transformers)、変分オートエンコーダー(VAE)などが挙げられます。
これらの生成モデルを有機半導体設計に応用することで、従来の設計手法では見逃される可能性のある新規で高度な特性を持つOSCを発見する可能性が広がります。この計算手法により、次世代有機半導体の開発が大幅に加速し、新たな分子構造の発見が期待されます。
現在のAIによるOSC分子設計の限界
有機半導体(OSC)は、その複雑な分子構造により特有の課題を抱えています。これらの分子表現では、環構造を正しく表現するために原子間の接続関係や環を閉じる位置を指定する番号が必要となります。しかし、この操作はエラーを誘発しやすく、不正な分子構造(例:環が閉じられない、結合数が不正確など)が生成されるリスクが高まります。さらに、環構造の一部を小さく変更する場合でも、分子全体の表現を文字列形式で再構築する必要があり、設計効率が低下します。また、OSCは一般的に長い分子鎖を持つため、SMILES表記での文字列が非常に長くなり、これがモデルにとって扱いづらい課題となります。そのため、代替手法としてグラフベースの生成モデルの採用が求められます。例えば、JT-VAEを含むグラフ生成モデル向けの様々なアルゴリズムが提案されています。グラフベースのデコーダーを用いることで、生成される分子を化学的妥当性を維持しながら段階的に拡張することが可能です。
もう一つの課題は、従来の研究で探索される化学空間が限定的であるため、実験的に検証された構造が不足している点です。このデータの不足により、物性予測において正確な機械学習モデルの開発が妨げられています。さらに、OSCの複雑な構造と物性の関係性は、電子的および構造的特性の正確なモデリングが困難です。その上、OSCの合成および特性評価は複雑で時間がかかるため、発見および最適化プロセスが遅れる要因となっています。これらの課題を克服することが、OSCの持つ可能性を最大限に引き出すために不可欠です。
データ拡張を用いたソリューション
複雑なOSC構造の表現およびデータの不足に関する課題に対処するために、新たなアプローチを提案します。この方法では、グラフベースの表現とスキャフォールド(分子の骨格構造)を用いたデータ拡張を活用し、化学空間を拡張するとともに物性予測モデルの精度を向上させることを目指します。以下のワークフローダイアグラムは、この手法における重要なステップを示しています。このアプローチの目的は、グラフベースのモデリングを用いて分子生成とキャリア移動度の予測を行い、有機半導体の表現力と開発効率を向上させることです。
図1. AI駆動型有機半導体設計ワークフロー
データ拡張フレームワーク
本手法では、データセットの多様性を向上させるために、以下の2つの補完的な拡張戦略を実装しました。
- Mix-Key Scaffold Augmentation
分子のスキャフォールド内で結合を入れ替えながら官能基を保持する手法です。このプロセスでは、化学構造の多様性を保ちながら新たな分子を生成します。 - Hetero Shuffling
ヘテロ環スキャフォールド内の原子を、事前に定義された原子セットを用いて体系的に置換する手法です。この方法により、構造の妥当性を維持しつつ、新規分子の組み合わせを生成します。
図2は、有機半導体分子設計における化学空間を拡張するためのデータ拡張プロセスを示しています。このワークフローは上記の2つの主要な戦略で構成されています。
これらの手法を通じて、670の初期スキャフォールドから最終的に10,670個のユニークな構造を含む多様で化学的に妥当なデータセットが生成されました。この拡張データセットは、生成モデルと予測モデルのトレーニング基盤となり、高性能な新規分子候補の発見を可能にします。
図2. 有機半導体設計のためのデータ拡張ワークフロー
生成モデルのアーキテクチャ
この手法における分子生成のアルゴリズムでは、HierVAEと呼ばれるモチーフベースの階層型変分オートエンコーダーモデルを利用しています。このモデルは、分子をモチーフレベル(より大きな構造単位)でエンコードする設計となっており、必要なデコードステップを削減します。HierVAEは、これまでの研究と比較して、再構築精度、トレーニング速度、生成メトリクスのすべてにおいて優れた性能を示しています。
分子モチーフは、データセットから頻繁に出現する部分構造を基本構成要素として抽出されます。モチーフの抽出プロセスは以下の3つのステップで構成されています。
- ブリッジ結合の特定: 分子内のブリッジ結合(連結部分)を見つける
- ブリッジ結合の分離: ブリッジ結合を切断して部分構造を生成する
- モチーフ選定: 特定の最低出現頻度基準に基づいて、部分構造の中からモチーフとして使用するものを選択する。頻度基準を満たさないモチーフはさらに小さいフラグメントに分割される
HierVAEは、以下の3つの主要な層で構成された粗から細への階層的なアプローチで動作します。
- モチーフ層: 大きな構造単位(モチーフ)を操作します。
- アタッチメント層: モチーフ間の接続を処理します。
- 原子層: 分子の個々の原子や結合を扱います。
この階層型の構造により、HierVAEは効率的かつ化学的に妥当な分子を生成する能力を向上させています。
物性予測
有機半導体(OSC)材料の以下の3つの重要な特性を対象とし、機械学習によりそれらの予測を可能にしました。
- N型およびP型半導体の分類
- 各タイプにおけるキャリア移動度の分類
分子フィンガープリント(molecular fingerprints)を入力特徴量として使用します。また、以下のような広く使用されている機械学習アルゴリズムを活用します。
- サポートベクターマシン(SVM)
- ランダムフォレスト(RF)
- k近傍法(k-NN)
今後の課題として、熱的安定性や光学特性など、より多くの物性を予測対象に含めることで、生成分子の高速スクリーニングにおける適用範囲を拡張することが挙げられます。
有機分子生成の結果
有機半導体分子の生成
ご紹介したAI駆動アプローチは、有機半導体(OSC)の候補分子を生成する際に高い効率を示し、通常のコンピュータ環境で30分以内に10,000個の妥当な新規分子を生成することが可能です。スキャフォールドを基にしたデータ拡張手法の実装により、生成された分子の構造的多様性が大幅に向上しました。このアプローチにより、生成分子間のスキャフォールド類似性が低下し、化学空間の探索範囲が広がり、ユニークな特性を持つ分子を発見する可能性が高まりました。
生成された分子の分布とカバレッジを評価するために、2,048ビットのECFP4フィンガープリントを用い、次元削減手法であるt-SNEを使用して可視化を行いました。この解析により、本データ拡張手法は従来のベースライン手法と比較して、より連続的な分布パターンを達成していることが示されました。さらに、生成分子は化学空間のカバレッジにおいて優れた性能を示しており、より包括的な化学空間の探索が可能であることを示唆しています。この改善された分布は、これまで未探索だった化学空間の領域にアクセスできる可能性を示しており、ユニークな特性を持つ新規OSC構造の発見につながると期待されます。
図3. 化学空間のカバレッジ比較
紫色の円は、HVAEで拡張された分子(赤点)が、HVAE生データ(青点)および元のトレーニングセット(緑点)と比較して、化学空間内で著しく高い密度と多様性を示している領域を強調しています。この結果は、データ拡張戦略が化学空間を効果的に拡張し、未探索領域へのアクセスを可能にしたことを示しています。これにより、独自の特性を持つ新規有機半導体候補の発見が期待されます。
高移動度P型半導体のスクリーニング
生成された有機半導体(OSC)分子を対象に、各分類タスクで優れた性能を示したモデルを用いて包括的な評価を行いました。分析では、特に高移動度のP型半導体の同定に重点を置きました。選択されたモデルは、それぞれの分類タスクで優れたパフォーマンスを示しており、生成された分子セットの特性評価に適用されました。
以下の図には、P型高移動度分子の代表的な候補が可視化されています。これらの分子は、提案するAI駆動の分子生成フレームワークによって生成されたものであり、特徴的な分子構造を持つことが確認されています。
図4. 高移動度P型有機半導体分子の候補
結論
本記事では、有機半導体(OSC)の発見と最適化を加速するためのAI駆動アプローチを紹介しました。階層型AIモデルとスキャフォールドベースのデータ拡張手法を活用することで、複雑なOSC構造の表現とデータ不足という課題に対処しました。本アプローチの成功は、高移動度P型半導体の候補分子を同定することにより実証されており、次世代の電子デバイスや生体医療デバイスの設計における実用性を強調しています。
今後の方向性として、熱的安定性や光学特性を含む物性予測を拡張することが挙げられます。また、生成された分子の実験的検証を通じて、計算による発見を実際の応用へとつなげていくことが重要です。
参考文献
- Lu, N.; Li, L.; Geng, D.; Liu, M. A Review for Polaron Dependent Charge Transport in Organic Semiconductor. Organic Electronics 2018, 61, 223–234. https://doi.org/10.1016/j.orgel.2018.05.053.
- Zhang, X.; Wei, G.; Sheng, Y.; Bai, W.; Yang, J.; Zhang, W.; Ye, C. Polymer-Unit Fingerprint (PUFp): An Accessible Expression of Polymer Organic Semiconductors for Machine Learning. ACS Applied Materials & Interfaces 2023, 15 (17), 21537–21548. https://doi.org/10.1021/acsami.3c03298.
- View more posts. Generate possible heteroaromatic cores from query molecule #RDKit #chemoinformatics. Is life worth living? https://iwatobipen.wordpress.com/2019/03/29/generate-possible-heteroaromatic-cores-from-query-molecule-rdkit-chemoinformatics (accessed 2024-12-10).
- rdkit. UGM_2017/Notebooks/Cole-Enumerate-Heterocycles.ipynb at master · rdkit/UGM_2017. GitHub. https://github.com/rdkit/UGM_2017/blob/master/Notebooks/Cole-Enumerate-Heterocycles.ipynb (accessed 2024-12-10).
- Jiang, T.; Wang, Z.; Yu, W.; Wang, J.; Yu, S.; Bao, X.; Wei, B.; Xuan, Q. Mix-Key: Graph Mixup with Key Structures for Molecular Property Prediction. Briefings in Bioinformatics 2024, 25 (3). https://doi.org/10.1093/bib/bbae165.
- Jin, W.; Barzilay, Dr. Regina.; Tommi Jaakkola. Hierarchical Generation of Molecular Graphs Using Structural Motifs. PMLR 2020, 4839–4848.