こんにちは。MI-6共同創業者であり、miLab共同編集者の入江です。今回、miLabでの初記事として、マテリアルズ・インフォマティクス(MI)と研究開発デジタル・トランスフォーメーション(DX)に関する一般的なテーマに取り組みます。本記事では、MIの概要を紹介するとともに、研究開発DXを推進する上での課題や展望について考察します。特に、MIを「道具」としてだけでなく、組織全体で活用可能な「プラットフォーム」としての可能性に焦点を当てます。
Table of Content
- 材料開発の逆問題を解決するMI
- 研究開発のDXとしてのMI
材料開発の逆問題を解決するMI
マテリアルズ・インフォマティクスとは、もともとは「機械学習技術を用いて材料開発における逆問題を解決する」という側面が脚光を浴び、2010年代中盤あたりより注目を集めはじました。材料の構造や組成から性能や特性を予測するのではなく、所望の特性を指定しそれを満たす材料を「逆に」発見できることが画期的でした。この逆探索プロセスの概要と、それを支える代表的なアプローチについて解説します。
MIにより所望の特性を持つ材料を見つける代表的なワークフローの型は、このようなものです。
①:候補材料・組成リストを作成する
②:記述子を設計する
③:予測モデルを構築する
④:候補点をスクリーニングする
⑤:実験・評価する
⑥:③-⑤を繰り返す、①や②を見直す
必ずしも①から逐次的に進むわけではありませんが、一つの型として単純化しています。
はじめから順番に見ていきましょう。専門的すぎると感じた場合、細かい点は読み飛ばしてください。
①候補材料・組成リストを作成する
まず、探索する対象を定めます。マニュアル作成、外部データベース、シミュレーションによるデータベース、仮想生成ライブラリといったバリエーションがあります。手法によって、データの品質や量に大きな差が隔たりがあります。
①-1 マニュアルでのリスト作成
論文、特許、過去の研究データなどの調査を通じて、対象とする物性や特性に関する既存の知見を収集し、候補として使えそうな原料や組成をリスト化します。個々の研究者や小さい研究チームでの活動です。利用可能な試薬や、調達の容易さ、コストなどを総合的に見て、現実的に調達や合成ができるものを専門知を元に抽出します。手作業が中心になるため、数十から数百点程度の規模になります。
①-2 商用カタログやパブリックデータベース
大規模に整理された実験データを基に候補材料や組成をリスト化する方法であり、①-1の手法を拡張したものと言えます。たとえば、[INTERGLAD](ガラス)のような民間の非営利組織が作成しているものや [ICSD](無機結晶構造)、[PoLyInfo](ポリマー)といった公的な研究機関によるもの、[Mayr's Database of Reactivity Parameters](有機低分子)など個人の研究者とその研究グループが長年かけて作成したものなど、取り組み方は様々です。民間企業では、社内のデータ資産として蓄積しているところも増えています。ただ寄せ集めるだけでなく、査読付き科学論文からの収集や、メタデータの手動整理などによって、品質を向上する取り組みがなされます。数千点〜数十万点程度のデータ規模です。
①-3 シミュレーションに基づくデータベース
計算機上で理論的に評価した物質を蓄積します。[Materials Project]や[OQMD]が有名。必ずしも実在するとも限らない物質も多く含みますが、実験データベースとの照合などにより、実在構造との整合性を保つ努力もなされます。数十万〜数百万点ほどのデータ規模になります。
①-4 仮想ライブラリを作成する
計算機による分子や構造の生成技術を用いて、仮想の分子構造や結晶構造、組成を大量に生成します。特定のアプリケーションのために研究者自身がバイアスをかけて生成することもあれば、多様性を最大化するようなアプローチもあります。高速に生成し続けることができるため、データセットのサイズには限りがありません。例えば、[1,600億の仮想分子を生成したGDB-17]から化学的安定性の高い約7,000 分子をフィルターし、計算による評価を行いデータベース化(QM7)するなど、仮想分子世界上でのキュレーションが行われることもあります。(実際には同じ生成手法を用いて生成時に制約をかけているので、GDB-17からのフィルターというのは不正確な表現ですがあしからず。)
図1. MIによるワークフロー例 (いわば仮想実験を高速に回すことで、手間と時間のかかる実験の質を向上します)
ちなみにMI-6では有機半導体ポリマーや生分解性ポリマーといった高分子の自動生成も扱っています。
②記述子を設計する
化学名や製品名といった材料の名称は、コンピュータにとっては単なる識別子に過ぎず、それらの名称が持つ潜在的な情報にはアクセスできません。機械学習は複雑で高次元のデータを扱う能力を備えていますが、情報が不足していればその力を十分に引き出せません。スモールデータを扱うことが多い中、有用な情報はできる限り抽出したい。そこで「記述子」が活躍します。
例えば、N, O, P, Sという文字は、何も事前情報がなければ、ただのアルファベットの列挙です。一方、高校化学の知識があれば、それらが元素記号かもしれないと推測できます。そして、周期表に基づく{N, P}, {O, S}という分類や、それぞれの元素が持つ性質の違いを理解できます。さらに専門知識があれば、その記号から結晶構造の多様性や逆格子空間のイメージが脳裏に生成されることもあるでしょう。このように、名称や記号(例:H)がさす実体を、その構造や性質(電子配置や密度など)を通じて表現することで、機械により多くの情報を学習させることが可能になります。こういった情報のことを、文脈によって「記述子」や「特徴量」と呼びます。
アナロジーを考えます。E.T., A.I. Alien, Hannibalという単語を見たとき、「映画監督」では2グループに分けられますが、「タイトルキャラクターの生物学的分類」では4分割できます。一見後者のほうが識別力の高い記述子ということになりますが、このサンプルに特異的なだけですね。「多様なジャンルの映画を100本探索したい」という目的において「映画監督」と「タイトルキャラクターの生物学的分類」がどちらがよりよい記述子になるかというと、おそらく前者でしょう。ジャンルとタイトルキャラクターで相関がありそうですし。・・この例えは適当すぎたかもしれません。
さて、特徴量設計はマテリアルズ・インフォマティクスの中核をなす技術の一つです。そのパターンについて、代表的なものの一部に触れましょう。いずれの呼称も、特に一般的に使われるものとは限らないことにご注意ください。
②-1ハンドクラフト記述子
ハンドクラフト記述子とは、専門家の知見を反映して設計された特徴量であり、材料や化学構造の特性を数値的に表現するものです。これらは特定の物理化学的性質や挙動を捉えるために慎重に選ばれ、特にデータが少ない状況下でその効果を発揮します。統計的手法による網羅的な特徴量選定が難しい少数データにおいては、専門知識に基づいて重要な特徴のみを抽出できるため、モデルの高精度化を望めます。また、ハンドクラフト記述子は、その設計意図が明確であるため、特徴量そのものや機械学習モデルの予測結果の解釈が容易という利点も持ちます。
分子や材料の構造から網羅的に物理化学的特性を生成するアプローチも存在しますが、これらは少数データでは次元の呪いやノイズの影響が大きくなることが多々あります。その点、専門家の知見を活かして不要な特徴を排除し、本質的な要素に集中するマニュアルによる記述子選定は、少数データに特化した有効な手法と言えます。
一方で、記述子のマニュアル設計には分野に精通した高い専門性が必要であり、専門家の知識がそのままバイアスとして反映される可能性があります。そのため、設計された記述子がモデルの適用範囲や材料の探索対象を狭めてしまうリスクも存在します。また、特定の分野や特性に特化した知識を用いるため、他の分野や用途にそのまま応用することが難しい場合もあります。
ところで、大規模言語モデルを用いることで、材料の特徴を人間のコトバから機械が理解するようになってきました。色んな可能性を拓く技術ですが、例えばハンドクラフト記述子の設計を補助することも可能でしょう。
②-2 網羅的な特性記述子
網羅的な特性記述子とは、分子や材料の構造から可能な限り広範な物理化学的特性を自動的に生成するアプローチを指します。この手法では、事前に特定の知識や仮定を設けず、多様な特性を網羅的に計算することで、未知の関係性や重要な特徴を探索する可能性を広げることができます。MI-6では、5,000以上の記述子を同時に計算する手法を実装しています。
②-3 原子環境の理論的記述子
原子環境の理論的記述子は、原子周辺の局所的な幾何学的特性や電気的特性を数値的に表現するものです。Coulomb MatrixやSOAP(Smooth Overlap of Atomic Positions)、ACES (Atomic Cluster Expansion Scheme)が挙げられます。理論的記述子は原子環境を解析的に扱えるので、原子シミュレーションとも相性が良く、機械学習ポテンシャルモデルの入力データとしても活用されます。
こういった記述子は基本的には局所的な情報のみを取り扱うため、材料全体の長距離相互作用やマクロな構造的特徴を捉えるには限界があります。そのため、長距離的特性を捉える理論記述子や、ハンドクラフト記述子と組み合わせることで、より包括的な特徴量設計に繋がります。
以上、3つのパターンで記述子を紹介しました。これら以外に分子構造の記述子化(フィンガープリント)、第一原理計算や分子動力学計算おけるパラメータの記述子化、物理量の空間分布の記述子化など、様々なアプローチがあります。なお構造が分からない材料製品を用いる場合では、そのカタログ値や計測値を扱うこともありまして、これも記述子といえます。サプライチェーンを超えてもっと材料特性や構造の情報が共有されると、もっとインフォマティクスが推進されるので、こういった産業課題も解決していきたいものです。
③予測モデルを構築する
実験データセットや②で設計した記述子データを用いて、改善したい対象の物性や特性を予測するモデルをつくります。MIにおけるモデリングのパターンについても、大きく分けて説明します。
③-1 機械学習アルゴリズムの直接的な適用
材料の記述子、配合・プロセスのパラメータなどを入力とし、対象とする性能を出力とする機械学習モデルを構築します。この形式は最も一般的なアプローチであり、多くの予測タスクで用いられています。また、複数のモデルを組み合わせて性能を向上させるアンサンブル学習や、数式形式で表現するシンボリック回帰などの手法も含まれます。
③-2 転移学習や知識蒸留の活用
既存の学習済みモデルを活用することで、新しい材料や条件に適応可能な予測モデルを構築します。転移学習では、既存モデルの学習結果を新しいデータセットに適合させることで、少ないデータ量でも高精度な予測ができることがあります。たとえば、ある化学系で大規模なデータを用いて学習したモデルを、異なる化学系へ応用する際に有効です。また知識蒸留では、大規模な「教師モデル」の知識をより軽量な「生徒モデル」に移植します。たとえばデータベースは非公開だけれども学習済モデルが公開されているケースで活用できます。
③-3 機械学習の制約への知識導入
物理的・化学的な知識を機械学習モデルに組み込むことで、モデルの信頼性や汎化性能を向上させます。ニューラルネットワークの損失関数に物理的法則や制約条件を組み込む、物理法則や対称性の事前知識をアーキテクチャに導入する、材料特性間の既知な関係性をガウス過程のカーネルに反映する、など。
これらの手法ごとに、予測精度だけでなく、解釈可能性や計算時間、予測信頼性など様々な違いあります。ただ、アルゴリズムの試行錯誤に多大な時間をかけるよりは、記述子設計やデータの量・質の改善、モデルを用いた候補点検討に時間を使ったほうがしばしば生産的・・・というのは経験値です。再利用性が高いモデルについては、アルゴリズムに時間をかける価値があります。
④ 候補点をスクリーニングする
①で生成または収集した候補材料や組成のリストに対して、③で構築した予測モデルを適用させることで有望な候補点を絞ります。その後、より計算コストと精度の高いシミュレーションでさらに絞り込んだり、経験知や専門知を用いて次の実験候補を検討します。多くの場合、機械学習による推論は、高精度シミュレーションや実験と比較して遥かに速いため、ハイスループットな検討が可能です。実際の環境では必ずしも高精度な予測ができることは多くありませんが、圧倒的に高速な仮説検証イテレーションは大いに価値があります。また、広範な探索空間を一度にスキャンすることで、既存の知見にとらわれない新規候補の発見が期待できます。
スクリーニングにおいては、予測信頼度の情報を用いて絞り込み戦略を調整することもできます。たとえば、「改善幅は小さいが確実に改善する候補」や「不確実だが大きな改善が期待できる候補」といったパターンを見極め、それぞれの特性に応じた選定基準を適用することで、リスクとリターンのバランスを考慮した探索が可能になります。
予測モデルによる高速なスクリーニングと統計・機械学習的な最適化戦略をもとに候補を絞り、最終的には実験可能性や経済性その他現実的な制約条件の知識を最大限活かして候補を絞っていくことになります。
⑤実験・評価と考察
スクリーニングで得られた候補を実験で検証します。
⑥:イテレーションおよび条件の改善
実験・評価で得られたデータをもとに、予測モデルやMIプロセス全体を反復的に改善します。記述子設計の再評価や、候補点の探索戦略の見直しも含まれます。逆設計といっても、研究開発においては一発で狙い通りというわけにはそうそうなりませんので、(人がやり続けるかは別として)これは未来永劫残るプロセスです。サイクルが進むと、生産の実現可能性や材料のスケールアップに関する課題も大きくなります。実験室レベルで得られた結果が実際の生産プロセスにおいて再現可能か、あるいはコストや供給面で現実的な条件を満たすか。この評価の結果、新たな制約条件が明らかになれば、候補リストの再スクリーニングやスクリーニング条件の見直しを行います。
小括
ここまで、材料開発における逆問題の解決に対するMIの代表的なワークフローを中心に説明してきました。①候補材料のリスト作成、②記述子の設計、③予測モデルの構築、④候補点のスクリーニング、⑤実験・評価、そして⑥の反復的改善と見直し。これらのプロセスは、MIを導入する上での基礎をなす重要なステップです。
このワークフロー自体は、MIを「道具」として活用する上で非常に有効であり、特に個々の研究者や小規模な研究チームでのテーマ設定において即効性を発揮します。しかし、MIの別なる可能性を引き出すには、単なるツールの枠を超えて、データとナレッジのプラットフォームとして、組織全体で共有・活用する仕組みを構築する必要があります。
次に、この「プラットフォームとしてのMI」がどのように研究開発のDXを支え、新たな価値を生み出すのかについて考察していきます。
研究開発のDXとしてのMI
前半のMIワークフローの説明の中で理解していただきたかったのは、MIの導入が単なる道具の追加ではなく、研究開発をデータ起点で捉え直し、継続的に改善する新しいプロセスを構築する試みであるという点です。このような「データ駆動型の研究開発」を組織展開した場合では、単にデータが駆動力となるのではなく、材料科学の理論や組織のナレッジ、研究者のノウハウが総動員されることで大きな成果を生み出します。こうした視点が、MIを道具として使うだけではなく、プラットフォームとして組織に浸透させるための鍵となります。
道具としてのMIは、個々の研究者が自身のテーマに合わせて選択できる手法の一つとしての位置づけです。これを「狭義のMI」と呼ぶこともできます。その場合、「うまく使える人が、うまく使う」ということになるのでしょう。一方で、プラットフォームとしてのMIは、データとナレッジを組織全体で共有し、複利的に価値を高める仕組みを構築します。このアプローチは、優れた研究者がさらに成果を上げるだけでなく、すべての研究者が成果を出す確率を高める環境を作り上げます。プラットフォームでは、個々人のデータだけでなく、他の研究者が蓄積したデータやノウハウを共有し、それを活用することで、新たな発見や同様な失敗の回避が可能になります。この過程では、情報の要約やデータの可視化が俯瞰的な状況把握を容易にし、コミュニケーションや議論を深化させる役割を果たします。
プラットフォームとしてのMIには、「セレンディピティの戦略的獲得」と、それに紐づく研究者全体の成功確率の向上という大きな便益も期待されています。ベイズ最適化など統計的手法を活用したデータ獲得プロセスは、研究者のバイアスを抑制し、新しい領域への探索を促進するだけでなく、その行動に対する「言い訳」を与える役割も果たします。未知の複雑な空間を探索する研究開発では、どれだけ専門知や経験知を活かしても、決め打ちで成功することは難しいのが現実です。ここで重要なのが、「センス」を伴った少し外れた探索ですが、属人的なセンスは共有ができません。これにMIが統計学的な後ろ盾を与えることで、研究者が意図的にランダムネスを含む選択を行いやすくします。この結果、研究者個々の成功確率が向上し、さらに広範なデータサンプリングによる組織全体のデータ獲得戦略にも利益をもたらします。たとえば、広大なマインスイーパーをプレイしている時、各タイルの期待値が65%の確率で事前にわかっているなら(MIで確率的な予測ができていれば)、未知の領域をクリックしやすくなる(研究者の探索の背中を押す)、というような状況かもしれません。
図2. 研究開発DXを実現するMIの2つの側面 (プラットフォームとして捉えることで、高い資産性をもつデータとナレッジを最大限活用する研究組織の業務プロセスが描けます)
もしMIが「優秀な研究者だけがさらに成果を上げるための道具」に留まるなら、それは組織全体にとっての潜在的な期待価値を見失う恐れがあります。この課題を克服するには、プラットフォームの設計段階から、できるだけ多くの研究者が利益を享受できる設計指針を構築しなければなりません。MIによる生産性向上が、かえって多くの研究者のエンゲージメントを低下する結果を避けるため、提供側も利用側も、研究者一人ひとりの創造性を最大限に引き出せる環境づくりを目指す必要があると考えています。
近年、スマートデバイスの普及により、自己最適化を行う道具が増えています。これらのデバイスは、自動チューニングによって利用者の意志を超えて均質的な「最適解」を提示・実行することがあります。この一見便利な特徴は、道具を使いこなすプロセスの価値や、利用者の創造性を軽視する文化や慣習につながってしまう恐れがあります。MIを研究開発の現場に導入する際にも、同様の懸念が存在します。研究者が試行錯誤の中で得られる気づきや発想が、次の試行に活きるような体験が必要です。
一方で、現在の研究開発プロセスには、繰り返し作業による創造性に乏しい部分が多く存在するのも事実です。MIを活用して無駄を省き、研究者が本質的に創造的な業務に集中できる環境を作ることは、価値があります。ただし、私たちMI-6は「無駄な実験を減らす」だけでなく、「無駄な実験は一つもない」と肯定的に実験に望める環境を実現したいと考えています。そのためには、効率化と創造性のバランスを取りながら、研究者が自らのアイデアを試行錯誤できるプロダクトを開発していきたいと考えています。(MI-6は「人と素材の無限の可能性を信じる」という経営理念のもと、研究者がより創造的に活躍できる環境を提供し続けることを目指しています!)
おわりに
MIは道具としての価値が大いにあります。これはこの5-10年間、学術界・産業界ともに検証してきたことでした。一方で、MIは単なる道具ではなく、研究組織の業務プロセスのあり方そのものを再構築する可能性を秘めています。組織におけるデータやナレッジを共有・活用し、継続的に進化させる仕組みとして設計され、研究者がその上で活動することで、はじめてプラットフォームとしての価値が発揮されます。前者を「狭義のMI」、後者を「広義のMI」と位置づけ、そのいずれも推進していくことで研究開発DXにつながる。この考え方を共有したいと思い、執筆いたしました。これからmiLabでぜひ色んな方々と対談等を通じて議論を深めていきたいと思いますので、よろしくお願いします。