この記事について

筆者は、MI-6でHands-on MI®というサービスを担当しています。Hands-on MI®では、お客様の実験データを預かり、材料開発における課題解決を支援しています。

本記事では、統計・機械学習の立場からみた、実験データに対するマテリアルズ・インフォマティクス(MI)の特徴について概説します。

MIを適用する上で、実験データは主に以下の三つの困難を抱えています。

  1. 高次元データであること
  2. 説明変数間の相関が強いこと
  3. 関心のある母集団から偏ってサンプルされていること

一方でMIならではの利点もあります。その中でも最大のものが、物理・化学の理論に紐づく既存の知見をモデリングに活用しやすいことです。研究者の知見を活かすことで困難に対処できるというのがこの記事の主題です。

困難1. 高次元データであること

一般に、高次元データでは統計・機械学習モデルの学習が難しいです。昨今さまざまな業界でビッグデータを活用した成果が喧伝されるようになりました。一概には言えませんが、そういったデータの多くは購入履歴のような何かの行動によって蓄積されるデータで、一行一行そのものにはあまりコストがかかりません*1

一方、材料開発におけるデータは、実験によって得られるものですから、必然的にデータ一行にかかるコストが重く、購入履歴のようなデータに比べて少なくなりがちです。

また実験データでは実験条件などモデルの入力部にあたる説明変数と呼ばれるパラメータが多いことが一般的です。加えてMIでは、化学構造などを数値的に扱ったり外部データとの紐付けを行ったりするために、多数の説明変数を用います。

この結果、サンプルサイズよりも説明変数の数が多い状況がしばしば発生します。サンプルサイズよりも説明変数の数が多いデータを高次元データといいます。 高次元データで起こる問題は、モデルの学習が基本的にうまくいかないことです*2

うまくいかない理由の説明の主なものとして*3、連立一次方程式を解くこととの対応が挙げられます。 連立方程式の本数がサンプルサイズ、未知変数の数が説明変数の数に対応すると考えます。その際に未知変数を特定し切るだけの条件が不足していれば*4、その連立方程式は解けません。

*1 : データを蓄積するシステムの構築と維持・管理は大変。
*2 : この意味でデータが多いとか少ないとかは説明変数の数との相対的な関係で述べられるべきもの。
*3 : 他に見かけるものは、球面集中現象(サクサクメロンパン問題)とか、正規分布の退化とか、すべての点の距離が等しくなるとか、平均値が典型例でなくなるとか。だいたい同じことを言っているのだがいろいろある。総称すると次元の呪い。
*4 : 劣決定系という。

困難2. 説明変数間の相関が強いこと

化学構造などを数値的に扱うことや、外部データとの紐付けを行うことで発生するもう一つの問題として、説明変数間の相関が強く、解釈が難しいことが挙げられます。

たとえば、二元系の物質のバンドギャップの実験値を予測したいとしましょう。 このとき、バンドギャップの実験値に関連しそうな量として、公開されている第一原理計算によるバンドギャップの計算値を説明変数として用いることや、二元素間の電気陰性度の差などを説明変数として使うことも考えられます。

このとき、バンドギャップの計算値と二元素間の電気陰性度の差には相関があるはずです。さらに電気陰性度は周期表の列や周期が反映された量ですから、周期表上の配置に依存する量には相関があります。 たとえば地殻中の元素の存在度は酸素が最も大きくついでケイ素と続きますが、粗く見れば、周期表の下側であればあるほど小さい傾向にあります。したがってサンプルの如何によってはバンドギャップの計算値と地殻中の元素の存在度が相関してもおかしくはありません。

この相関によって起こる問題は解釈が難しくなることです*5 。 高次元の変数から重要な変数だけ選ぶ手法では、相関のある変数のうち1つだけしか選べないことがあります*6。上記のバンドギャップの実験値の例では、バンドギャップの計算値が選ばれるべきでも、地殻中の存在度が選ばれる可能性もあります。あるいは重要な量を選ばないタイプの手法では変数の重要度を按分する傾向があります*7。それにより、解釈の際に変数の重要度の順位関係や目的変数への影響の方向を見誤るリスクがあります。

*5 : 予測精度の観点では問題にならない場合もある。
*6 : 具体的にはLasso。
*7 : 具体的にはリッジ回帰などl2ノルムによる正則化全般。Feature Importanceとかもこういう傾向がある。

困難3. データセットは関心のある母集団から偏ってサンプルされていること

すでに測定した手元のデータと予測したいデータが”似ていない”場合、予測モデルの良し悪しを測ることが難しくなります。

例えば、ある物質の物性・特性を測定するためには現実に物質を購入ないし合成する必要がありますが、原理的に可能な物質 (予測したい物質) と実際に購入・合成できる物質 (すでに測定した物質) には大きな乖離が生じてしまいます。

予測したいデータ (≒未知のデータ≒母集団) に対する予測の誤差を汎化誤差*8といいます。汎化誤差は統計・機械学習においてとくに重要な概念で、汎化誤差が小さい(=未知のデータに対する予測能力が高い)モデルが良いモデルだと考えます*8

一方で、未知のデータに対しての誤差は測りようがありません。そこで汎化誤差そのものの代わりに、手元のデータから汎化誤差の推定量としてモデル選択基準*9という量を算出することで統計・機械学習モデルの良し悪しを測ります。あくまで手元のデータから算出した量ですから、手元のデータと未知のデータが似ていなければ似ていないほど、モデル選択基準上よいからと言って予測が当たる保証はありません*10 , *11

*8 : 期待損失ともいう。
*9 : クロスバリデーション誤差とか情報量基準とか。
*10:とはいえ、統計・機械学習の実応用では程度の強弱はあるが大体この問題を抱えている。
*11:それでも訓練誤差を見るよりはまし。

既存知見があることによる利点

既存知見とは教科書に載っている経験則・理論から研究者個人の肌感まで含めた広範なものです。こういったものをドメイン知識といったりします。

既存知見があることによる利点で大きいものは

  • 特徴量エンジニアリングの指針が立てやすいこと
  • データの解釈がしやすいこと

です。*12

特徴量エンジニアリングとは、予測に寄与するであろう説明変数候補を生成したり、説明変数をより予測に寄与するように加工したりといった、データサイエンスの実応用で用いられる手続きのことです。

一例としては交互作用の考慮のために、説明変数Aと説明変数Bの掛け算をとり説明変数A×Bを作成することがあります。これをすべての可能な組み合わせに適用すると高次元かつ相関の高いデータが出来上がり、困難1で述べたように問題が難しくなります*13。そのために特徴量エンジニアリングでは網羅的に試すのではなく、ドメイン知識に基づいてアタリをつけることが多いです。 簡単な例ですが、上記の実験値のバンドギャップ予測では、バンドギャップの計算値や電気陰性度に着目することと二元素間の電気陰性度の差を使おうというのが該当します。

次にデータの解釈がしやすいことについて述べます。困難2では説明変数間の相関が強いことにより解釈が難しくなること、困難3ではモデルの良し悪しを測る尺度が信用できない可能性があることを挙げました。これらの問題は既存知見があることによりカバーできる可能性があります。

高次元データから一部の使用する変数だけを選ぶ変数選択という手続きがあります。この際に、既存知見があることにより強固な仮説を持ちやすく、ある量が選ばれているのはおかしい、この量が選ばれていないのはおかしい、といった議論がしやすくなります。上記二元系のバンドギャップの例でいえば、地殻中の存在量が変数選択で選ばれた際に、酸素に引っ張られた見せかけの相関だろう*14、などの議論ができますし、モデルの良し悪しをモデル選択基準だけでなくどういった量で説明されているかによって議論もできます。

特徴量エンジニアリングもデータの解釈も、研究者の知見の活かしどころです。自身で分析するにせよ、分析者に依頼するにせよ、知見を注入していくことがMIを活用していく上で重要です。

*12 : 他にはデータの生成プロセスを模倣したようなモデルを作れる可能性がある。
*13 : サンプルが少ないためにたまたま相関が見えてしまう場合もある。
*14 : 見せかけの相関だから必ずしもダメというわけではなく、原因の理解よりも予測に関心があり、サンプルが少ないことが原因でなく、その変数が目的変数よりも先に入手できるのであれば問題にならない。

まとめ

本記事では、実験データにMIを適用する際の特徴について概説しました。

実験データにMIを適用するのは統計・機械学習的に難しくなりやすい傾向にあり、最先端の予測モデルを用いたからといって素晴らしい結果が出るわけではありません。一方で、この難しさは研究者の既存知見を活かすことで対処できうる問題でもあります。自身の知見を活かしながら、MIによって研究を深められる研究者が少しでも増えればと思い執筆いたしました。

MI-6には化学系のバックグラウンドをもつデータサイエンティストが多数在籍しております。化学系のバックグラウンドと統計・機械学習の知識とお客様の知見を掛け合わせることで、お客様の課題解決を支援しています。既存知見のMI活用にお困りでしたら、ぜひお気軽にお声がけください。

参考文献

1) 赤穂昭太郎. (2023). 少量のデータに対する機械学習. 電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review, 16(4), 247-256.
2) Hastie, T., Tibshirani, R., & Friedman, J. (2017). The elements of statistical learning: data mining, inference, and prediction.
3) 小西 貞則. (2004). 『情報量規準 (シリーズ・予測と発見の科学)』 朝倉書店