はじめに

2024年、タンパク質の構造を高精度に予測する技術であるAlphaFoldにノーベル化学賞が授与されたことは記憶に新しい出来事です。AIによって、長年の課題であったアミノ酸配列からタンパク質の立体構造を再現する技術飛躍的に進展し、生命科学や創薬の分野に大きな衝撃を与えました。

実は、無機材料の世界でも同様な「構造予測の壁」が存在します。それは、原子の組成式(たとえばLiCoO2やBaTiO3)から、原子が空間の中でどのように並ぶか――つまり結晶構造を予測するという課題です。この分野では「結晶構造予測(CSP: Crystal Structure Prediction)」と呼ばれ、材料科学における未解決問題のひとつとして長らく取り組まれてきました。

物質の構造を知ることは、その材料の物性――色、硬さ、導電性、触媒活性など――を理解・設計するうえで不可欠です。逆に言えば、構造がわからないとその物質が何に使えるかはわかりません。結晶構造予測は、まだこの世に存在しない新材料を理論上「創り出す」ための夢の技術と言えます。

ところが、格子や原子配置の自由度の影響により、非常に広大な探索空間を持つため、計算科学の進歩をもってしても未だ道半ばです。しかしここ数年で、機械学習・生成AIの導入によって結晶構造予測も大きな分岐点を迎えつつあります。

本稿では、結晶構造予測の面白さと難しさ、これまでの手法とその限界、そして最新の生成モデルを活用した手法や、我々が開発を進める手法について触れながら解説したいと思います。

図1. 結晶構造予測の概略図

私が結晶構造予測に取り組む理由

私が結晶構造予測に本格的に取り組むようになったのは、「すごい材料を自らの手で見つけたい」という願いからでした。

私が入社した頃、幸運にもすごい材料研究者たちと一緒に仕事をする機会に恵まれました。これまでに誰も気づいてこなかった高性能な熱電材料や電池材料を見出し、世の中にインパクトを与えていく。そんな研究者たちの隣で仕事をする中で、私も「まだ誰も知らない材料を見つけてみたい。」との思いが強くなりました。しかしながら、自分に何ができるのか、この時は明確な答えはありませんでした。

材料探索の分野ではこの十年でマテリアルズ・インフォマティクス(MI)が急速に普及してきました。既存材料のデータを用い、機械学習で材料物性を予測し、新材料候補をスクリーニングすることで効率的な材料探索を実現できます。しかし、MIを実践していて私が感じたのは、「構造がわかっていなければ、物性も正確にはわからない」ということでした。組成だけを頼りにし、構造が不明な状態では予測ができない、あるいは予測精度が低くなってしまいます。

さらに、MIの手法が成熟するにつれ、入力データが同じなら、誰がやっても同じ結果になる時代がいずれ来るだろうとも感じました。例えば、Materials ProjectやOQMDなどの大規模材料データベースは、もはや世界中の研究者にとって共通のリソースです。問題設定が同じ場合、そこにあるデータを使ったモデルから出てくる「答え」は、基本的には同じになります。

では、どうすれば他者と差別化できるのか?その答えは、自分たちだけのデータを持つこと、自分たちでデータを生み出すことだと私は考えるようになりました。ただ、実験によって得られる材料データは限られていますし、特に新材料の物性データとなれば、簡単には手に入りません。だからこそ、結晶構造予測によって、まだ世の中に存在しない構造の仮想データを創り出すことが大きな意味を持ちます。

結晶構造予測で得られた仮想構造は、既存データベースには含まれない、まさに「自分たちにしか手に入らないデータ」です。これを活用すれば、まだ誰も見つけていない材料にたどり着ける可能性があると考え、私は2015年ごろから結晶構造予測の勉強と実践を本格的に始めました。

なぜ結晶構造予測は難しい?

結晶構造予測に取り組み始めた私は、すぐに大きな壁にぶつかりました。既存の構造予測ソフトウェアやアルゴリズムを試してみても、実験的に報告された結晶構造を再現することがなかなかできませんでした。

なぜ結晶構造予測は難しいのか。その理由は、主に二つあると私は思います。

まず、探索すべき範囲があまりにも広大すぎるという問題です。たとえば、箱の中に球を敷き詰めるイメージをしてみてください。球の数が増えると、その配置パターンは爆発的に増加します。そして実際の結晶構造では、球(=原子)の種類も大きさも異なりますし、箱(=格子)の形そのものも変化します。

さらに、こうした原子配置の一つひとつに対してエネルギーを計算し、「もっともエネルギーが低い配置」を探す必要があります。このエネルギー曲面は非常に起伏が激しく、いたるところに局所的な谷(=局所解)が存在しています。その中から真の最安定構造を見つけ出すのは、まさに砂浜の中から一粒の金を探すような作業です。

もう一つの難しさは、予測精度の厳しさにあります。たとえば画像生成AIの分野では、「それっぽい」画像が出てくれば多くの場合は成功とみなされます。しかしながら、結晶構造予測では状況が異なります。たとえ目で見て似ていたとしても、配位多面体の形やつながり、空間群、原子間距離や角度などが異なれば、真に正解の構造とは異なる材料物性をもつことも珍しくありません。ゆえに、“似ている”ではダメで、“厳密な一致”が求められます。第一原理計算などを活用し構造を緩和させることもできますが、正解に近い構造から始めないと正解と一致する構造は得られない場合が多いです。この厳しさが、結晶構造予測を一段と難しいものにしています。

こうしてみると、結晶構造予測はまさに、「組み合わせ爆発」と「厳密性の要求」の交差点にある問題だと言えます。いかに探索空間を絞り込むか、そしていかに現実に近い構造を効率よく生成できるかというアプローチが重要と個人的には思います。

図2. 結晶構造予測の難しさに関する概略図

従来の結晶構造予測手法

結晶構造予測の分野では、これまでにさまざまな探索アルゴリズムが提案されてきました。その多くは、広大な構造空間の中からいかに効率よく低エネルギー構造を見つけるかを目的としています。ここでは代表的なアプローチを簡潔に整理します。

ランダムサンプリング

最もシンプルかつ古典的な手法が、ランダムサンプリングです。箱の中に原子をランダムに配置して構造を生成し、エネルギーを計算して評価するというものす。この手法の強みは、バイアスのない探索ができる点にあります。初期知識に依存せず、未知の構造を偶然的に見出す可能性もあります。

ただし、探索空間が極めて広大であるため、膨大な試行回数が必要になり、大きな系や複雑な構成をもつ物質においては、“当たり”を引く確率が低い課題があります。

元素置換

元素置換法は、既知の結晶構造をベースに新たな構造を生成する手法です。まず、対象の組成比に近い既存構造をデータベースから抽出し、それをテンプレートとして構成元素を置き換えることで候補構造を作ります。

このアプローチは、現実的かつ安定な構造を生成しやすいという点で非常に有効であり、実際に多くの新材料発見に貢献してきました。しかしながら、テンプレートとなる構造が存在しない、あるいは全く新しいカタチの構造を探索したい場合には適用範囲に限界があります

最適化ベースの構造予測

ランダムサンプリングや元素置換で得られた構造を出発点として、最適化アルゴリズムによってエネルギーの低い構造を探索する手法も広く用いられています。

代表例として、USPEX[1]は進化的アルゴリズムを活用し、構造を「個体」とみなして交叉・突然変異などの操作により世代を進めていきます。他にも、CALYPSO[2]では粒子群最適化、CrySPY[3]ではベイズ最適化が採用されています。いずれの手法も、構造空間内の低エネルギー領域へ効率的に収束する設計がなされており、実績も豊富です。

ただし、こうした手法には共通の課題も存在します。特に、原子数が多くなるとエネルギー曲面が複雑化し、局所解から抜け出せない傾向があります。また、初期構造に強く依存するため、最初によい構造が含まれていない場合には失敗しやすいという課題もあります。

図3. 従来の結晶構造予測手法の概略図

機械学習や生成AIによる結晶構造予測

そうした中で、近年急速に注目を集めているのが機械学習や生成AIを活用した結晶構造予測です。機械学習によって構造のエネルギー評価を高速化し、AIによって画像生成のようにゼロから結晶構造を創り出すというアプローチが現実味を帯びてきました。この分野の研究報告はここ数年で急増しており、特に注目されているのがGNoME[4]とMatterGen[5]という2つのプロジェクトです。

GNoME:安定性予測によるアクティブラーニング型探索

Google DeepMindが開発したGNoMEは、グラフニューラルネットワークを用いて、結晶構造の熱力学的安定性を高精度に予測するモデルです。この手法の最大の特徴は、アクティブラーニングのループを内包している点です。すなわち、既存の材料データで事前学習、新規構造候補を自動生成、機械学習でエネルギー予測、一部を計算科学的手法で検証し、学習データに追加、というサイクルを繰り返すことで、探索性能を自己強化していくことができます。

この仕組みにより、GNoMEは220万件を超える新構造を提案し、そのうち38万件が熱力学的に安定と判定されました。さらに、予測された構造の一部はすでに実合成に成功しています。

ただし、GNoMEの構造生成は基本的にテンプレートベースの元素置換によるもので、既知構造の拡張や変形が中心です。そのため、完全に新しい構造の創出は不得意であり、創造性という観点では限界があります。

MatterGen:拡散モデルによる構造の創出と逆設計

Microsoftが開発したMatterGenは、画像生成AIで話題となった拡散モデルを結晶構造の生成に応用したものです。ノイズ状態から出発し、段階的に現実的な結晶構造へと“生成”していくプロセスは、Stable DiffusionやDALL-Eの動作原理と同様です。

この拡散過程では、結晶の周期性などが明示的に考慮されており、既存データに依存しない完全な新構造を生み出す能力を持っています。さらに、生成時に条件(例:バンドギャップなど)を入力することで、指定された物性や構造制約に合致する構造を出力する「逆設計」にも対応しています。

一方で、現時点でのMatterGenにはいくつかの制約もあります。たとえば、低対称性の構造が多く生成されやすい、本稿執筆時における公開モデルでは20原子を超える複雑な構造が生成できない、などの点は今後の改良が期待される課題です。

このような機械学習・生成AIを活用した手法は、構造スクリーニングの計算速度、探索できる構造の多様性と創造性、といった点で従来手法に比べて大きな可能性を持っています。一方で、生成された構造の妥当性の検証や、学習データの偏りへの注意は依然として重要な課題です。現時点では、完全な代替手段というよりは、従来手法を補完・拡張するツールとしての性質が強いと思います。

図4. 機械学習および生成AIを活用した結晶構造予測手法の概略図

私たちが開発する結晶構造予測手法

従来の構造予測アルゴリズムや生成AIによる先端的な手法を実際に試す中で、私は結晶構造予測における重要な点は「いかに探索範囲を絞るか」に集約されると実感するようになりました。結晶構造空間は極めて広大であり、無作為に生成された構造の多くは結晶として成立し得ない非現実的な配置です。したがって、予測の鍵は無駄な探索空間をいかに削ぎ落とすか、そして物理的に妥当な構造をいかに効率よく生成するかにあると思います。

この課題意識のもと、私たちは画像やテキストとは異なる材料データならではの制約――「対称性」に注目し、これを活用して探索範囲を効果的に限定する新たな構造予測手法を開発しています。

ShotgunCSP:結晶の対称性を活用した構造予測

私たちが近年開発した手法のひとつがShotgunCSP[6]です。本手法では、結晶の対称性情報(空間群やWyckoff位置)を活用して、探索空間を事前に絞り込みます。

対称性を導入することで、例えばある原子(球)を配置した時点で他の原子の配置も自然と決まり、全体の自由度を大きく制限できます。具体的には、機械学習を用いて与えられた化学組成に対する空間群やWyckoff配置を予測し、構造生成時にその情報を反映させることで、物理的に妥当性の高い構造のみを生成対象とします。

また、生成された候補構造のエネルギーは、機械学習ベースの高速エネルギー予測モデルにより評価します。これにより、第一原理計算に頼らずに大量の候補構造を迅速にスクリーニングすることが可能です。実際、ランダムに抽出された構造群に対し、約8割のケースで正解構造の再現に成功しており、従来法では予測が難しかった80原子レベルの複雑な結晶構造に対しても高い再現性を示しています。

一方で、現在のShotgunCSPは対称性の低い構造においては自由度を絞り込めず、予測精度が低下する傾向があり、これを克服することが今後の技術課題です。

多面体に基づく結晶構造生成

もうひとつの探索空間制御アプローチとして、私たちは結晶構造中の配位多面体を起点とした構造生成手法[7]の開発も進めています。

この手法は、「結晶構造は多面体の集合体である」という考え方に基づいています。結晶構造を頂点と辺からなる周期グラフとして表現し、グラフ理論を応用して構造生成を行います。具体的には、八面体や四面体といった特定の配位多面体を指定し、それを満たすようなグラフから最も対称性の高い構造へ変換するというアプローチであり、幾何学的に成立しうる構造空間に探索範囲を限定できます

また従来の予測手法では、結晶構造の局所的な構造(例:配位多面体)と大域的な構造(例:多面体のつながり方)を同時に考慮するのが難しく、局所構造の範囲を広げるや別々のモデルで学習するなどの対策が必要でした。一方、本手法は周期グラフさえ定義できれば、離散幾何解析に基づき両者を同じ枠組みの中で考慮できるため、より現実的な構造を得ることができると期待されます。

本手法は開発初期の段階であり、まだ実際の物質への適用まで行えておりませんが、無機材料の複雑な構造設計において高い効果を発揮すると考えています。

私たちのアプローチは、「すべてを網羅的に探す」のではなく、「物理的にあり得る構造空間を見極め、そこに集中して探索する」という考え方に基づいています。機械学習も活用しながら結晶構造予測の精度と効率の両立、そして未知材料の創出可能性の拡大を目指して、探索空間の制御と構造生成の“賢さ”を高めていきたいと考えています。

図5. 結晶構造予測に対する我々のアプローチに関する概略図

さいごに

本稿では、結晶構造予測の魅力とその難しさ、そして近年急速に進化を遂げる最新手法、さらに私たちが開発してきた手法について紹介しました。本稿を通じ、結晶構造予測の魅力が少しでも伝われば幸いです。

材料科学という一見ニッチな領域において、かつては限られた専門家のみが挑んでいた結晶構造予測という課題が、MIの流れに乗って広く注目され、今では世界中の研究者がそれぞれの専門性を活かした多様なアプローチで挑んでいます。このような時代になりとてもワクワクしながら毎日を過ごしています。

私自身も、これからも世界の動向を敏感に捉えながら、私たちだからこそできる設計と視点で、「すごい材料を自らの手でみつける」という夢の実現に向けて、結晶構造予測という挑戦を続けていきたいと思います。

参考文献

  1. https://doi.org/10.1063/1.2210932
  2. https://doi.org/10.1016/j.cpc.2012.05.008
  3. https://doi.org/10.1080/27660400.2021.1943171
  4. https://doi.org/10.1038/s41586-023-06735-9
  5. https://doi.org/10.1038/s41586-025-08628-5
  6. https://doi.org/10.1038/s41524-024-01471-8, プレスリリースhttps://news.panasonic.com/jp/topics/206135
  7. https://doi.org/10.1021/acs.cgd.3c01492, 日本語解説記事https://doi.org/10.5940/jcrsj.66.60