本記事の目的

近年のマテリアルズインフォマティクス (MI) の分野では、実験研究者の視点に立ったMI解析ツールが次々と登場しています。これらの解析ツールには通常、回帰モデルを用いた未知データに対する予測機能があります。また、多くの解析ツールは予測値の計算だけでなく、結果の分析をするために、回帰手法に応じた可視化機能も提供されています。しかしユーザーにとっては可視化機能が充実していたとしても、最適な回帰モデルを選択するのは容易ではなく、判断に迷う場面も少なくありません。

そこで本記事では、MI解析ツールを使い始めた実験研究者が、これらの解析ツールをより効果的に活用できるようになることを目指します。まず、回帰の基本についておさらいした後、回帰モデルを選択する際に重要となる予測性能解釈性について解説します。

回帰とは

回帰とは、結果や目標を表すデータ (目的変数) と、それに関連のある要因や条件のデータ (説明変数) の関係性を数学的なモデルで表し、そのモデルを用いて説明変数の値に基づき目的変数の値を予測する方法です。材料開発では例えば、目的変数として材料の性質や実験の結果 (例:強度、熱伝導率、収率など) がよく使われ、説明変数として実験条件、製造プロセス、または材料構造を表す特徴量 (記述子) が用いられます。

回帰は線形回帰と非線形回帰の2種類に大別されます。それぞれの特徴を示します。

線形回帰

線形回帰は最も基本的な回帰手法です。線形回帰は、目的変数と説明変数の間に線形の関係があると仮定し、目的変数を説明変数の線形結合で記述した回帰モデルです。回帰モデルの式は、式(1)で表されます。yが目的変数、wが回帰係数、xが説明変数、nが説明変数の次元数です。

$$ y = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n \quad \cdots (1) $$

式(1)より、回帰係数の大きさからどの説明変数が目的変数にとって重要かを把握しやすいです。このような解釈がしやすい回帰モデルをホワイトボックス型と呼びます。一方、線形の関係を仮定しているため、非線形な現象を扱う際には予測性能が低くなりやすいです。

線形回帰の特徴

  • 利点
    単純な数式で表現できるため、解釈性が高い場合が多い
  • 欠点
    非線形な現象の場合に、予測性能が低い場合が多い

非線形回帰

非線形回帰は、目的変数と説明変数の間に非線形の関係があると仮定し、目的変数が説明変数の非線形な関数の回帰モデルです。回帰モデルの式は、関数形が自明であれば書き下すことができますが、多くの場合で関数形が自明ではない場合が多いです。このような回帰モデルをブラックボックス型と呼びます。

非線形回帰の特徴

  • 利点
    非線形な現象の場合に、予測性能が高い場合が多い
  • 欠点
    単純な数式で表現できないため、解釈性が低い場合が多い

(補足)モデルの線形性について

なお、「線形・非線形」の分類は「変数に対して線形か非線形か」だけではなく、「パラメータに対して線形か非線形か」という観点でも議論されることがあります。例えば、多項式回帰は入力変数に対しては非線形ですが、パラメータについては線形であり、解釈しようと思えば係数ベースである程度行えます。本記事では簡単のため「変数に対して」の線形・非線形の区別に焦点をあてています。

予測性能と解釈性

予測性能と解釈性の意味を、それぞれ簡潔に表すと以下になります。

  • 予測性能
    回帰モデルが未知のデータに対してどれだけ正確に予測を行えるかの性能
  • 解釈性
    回帰モデルの出力に対し、背後にある要因を人がどれだけ理解しやすいかの性質

モデルの予測性能と解釈性はトレードオフになる場合が多く、実際の利用場面ではどちらを優先するかが重要な判断になります。この関係を図1に示します。図1は予測性能と解釈性を軸にとり、各象限に優先度を番号で表した図になります。

  • 領域①は、予測性能と解釈性の両方が高く、該当する回帰モデルを選択するのが望ましいでしょう。
  • 領域③は、予測性能と解釈性のどちらも低く、選択を避けるべきです。
  • 領域②は、予測性能は高いが解釈性が低い、もしくはその逆の領域です。この場合、目的や要件に応じてどちらを優先するかを判断します。

例えば、実験の効率化が重視される場面では予測性能を優先し、新たな知見の獲得が重要な場面では解釈性を重視する判断が考えられます。

図1. モデルの予測性能と解釈性の優先度

予測性能とは

予測性能とは、回帰モデルが未知のデータに対してどれだけ正確に予測できるかを示す性能指標を指します。一般的に、予測性能が高い回帰モデルは複雑なデータ構造や非線形関係を効果的に捉えることができます。ただし、予測性能の向上を追求することで回帰モデルが複雑になり、過学習のリスクが増すとともに解釈が難しくなることが多いです。そのため、予測性能を高めるためには、単にモデルを複雑化するのではなく、正則化や交差検証といった適切な手法を用いてモデルのバランスを取ることが重要です。交差検証や精度指標については、こちらの記事もご参照ください。

予測性能に優れた代表的な手法を以下に示します。

  • ガウス過程回帰
    データの不確実性を考慮しつつ予測値だけでなく予測の信頼区間を提供できる。小規模データや相関関係が強い場合に特に有効。ただし、計算コストが高い。
  • サポートベクター回帰
    カーネル関数で非線形関係を捉え、少ないデータでも高精度な予測が可能
  • 勾配ブースティング法
    多数の弱学習器(通常は決定木)を組み合わせて高い予測性能を実現するアンサンブル学習の一種
  • ニューラルネットワーク
    層を深くすることで高度な非線形性をモデル化できる柔軟性をもつ。大規模データに強い

回帰モデルを予測性能から選ぶ際の考え方

予測性能を重視する場合は、主に2つの場合があります。

  1. 全体の予測精度が高いモデル
    予測精度が全体的に高いモデルは、未知のデータに対しても高い予測性能を発揮する可能性が高く、頑健(ロバスト)な回帰モデルと考えられます。このようなモデルを選ぶことで、幅広いデータに対して安定した性能を期待できます。
  2. 特定の領域で予測精度が高いモデル
    モデルが全体的に高い予測精度を持たない場合でも、予測したい領域における精度が高いモデルを選ぶアプローチは、実際の問題設定において頻繁に見られるケースです。特定の目標範囲における性能が特に重要な場合は、この観点が優先されます。

図2を参考に、2種類の回帰モデルの予測性能を考えます。図では目的変数の実測値と予測値をプロットした y-yプロット を用います。

  • 横軸: 目的変数の実測値
  • 縦軸: モデルによる予測値
  • 緑色の領域: 目的変数の目標範囲(例: 目標範囲を超える値が良い)

左図:小さい実測値の領域では高い予測精度を持つが、大きい実測値の領域では予測精度が低いモデル。

右図:小さい実測値の領域では予測精度が低いが、大きい実測値の領域では高い予測精度を持つモデル。

どちらのモデルが良いか?
仮に左図のモデルの全体的な予測精度が右図よりも高い場合でも、右図のモデルの方が適している場合があります。これは、右図のモデルが目標範囲(緑色の領域)をより高精度で予測しているためです。最終的には、目的に応じて重要な領域での予測精度を重視するべきです。このような視点でモデル選択を行うことで、実際の目標達成に適した回帰モデルを選ぶことができます。

図2. 2パターンのy-yプロット

解釈性とは

解釈性とは、回帰モデルの出力する結果や背後にある要因を、人がどれだけ理解しやすいかを指す性質を指します。解釈性の高いモデルでは、各説説明変数が目的変数にどのような影響を与えているのかが明確に説明できます。

解釈性に優れた代表的な手法を以下に示します。

  • 最小二乗法
    残差平方和 (目的変数の実測値と予測値の、誤差の二乗の合計) を最小化する手法。シンプルで解釈しやすく、各説明変数の影響が直接的に回帰係数として得られる。
  • LASSO
    残差平方和と、回帰係数の絶対値の和を最小化する手法。重要でない説明変数の回帰係数をゼロにして変数選択を自動的に行うことで、モデルを簡素化し、解釈性を向上します。

回帰モデルを解釈性から選ぶ際の考え方

回帰モデルを解釈性の観点から選択する方法を考えます。目的変数を最大化する問題において、最小二乗法とLASSOを用いてそれぞれ異なる回帰係数が得られた際に、どちらを選択すべきかを考えてみます。以下に問題を整理します。

  • 問題
    特性の最大化
  • 目的変数
    特性(物性や性能)
  • 説明変数
    原料A, 原料B, 原料C, 原料D, 原料E
  • データ点数
    100点
  • 回帰手法
    最小二乗法
    LASSO
  • 交差検証
    10-fold Cross-Validation
  • 交差検証の予測精度
    最小二乗法のR2:0.80
    LASSOのR2:0.81

上記の状況で、図3に示されるような回帰係数の結果が得られたとします。この図では、横軸が回帰係数で縦軸が説明変数を表しています。回帰係数が大きいほど、その説明変数が特性予測において重要であることを示します。本来、回帰係数は負の値を取る場合もありますが、ここでは簡単のため、すべて正だった場合とします。

それでは具体的に見ていきましょう。まず最小二乗法は、原料Bと原料Eの回帰係数が大きな値を示しています。一方LASSOでは、原料Aと原料Cの回帰係数が大きな値を取っています。つまり、予測精度は変わらないにも関わらず、回帰係数が異なっているという状況です。

図3. 回帰手法に対する回帰係数の違いの例

このような状況では、ドメイン科学における理論、経験・ノウハウ、データ科学の観点から回帰モデルを選ぶことが重要です。

回帰モデルの選択における視点について、理論・経験・データ科学のそれぞれの観点を例示してみます。

理論的な視点

回帰モデルの結果が、既存の理論やメカニズムと一致しているかを確認します。

上記の例だと、原料Aが特性に寄与する明確な化学的、物理的、または工学的な根拠があるかどうか考察します。原料Aが触媒反応において活性中心として働くなど、特性に直接関与する役割を果たしているならば、LASSOが示す結果(原料Aの回帰係数が大きい)が信頼性を持つ可能性が高いです。

モデルの結果が既知の理論と矛盾する場合、それがモデルの欠陥によるものか、新たな知見を示している可能性があるかを評価します。

経験的な視点

過去の実験データや知見に基づき、どの説明変数が重要かを判断します。

例えば、原料Bと原料Eがこれまでの開発において特性に大きな影響を与えると検証されている場合、最小二乗法(OLS)をより肯定的に選択できます。逆に、これまで重要とされていなかった変数がモデルで大きな係数を持つ場合、新たな検証が必要です。

ただし、経験に基づく判断は主観的になる可能性があるため、過去のデータの偏りや信頼性を確認しつつ、他の視点と組み合わせて評価します。

データ科学的な視点

モデルの結果をデータに基づいて評価し、結果の妥当性を検証します。

例えば、原料Aや原料Cの値と目的変数(特性)の間に線形関係が存在するかを確認します。仮に明確な関係が見える場合、その変数の重要性をデータとして裏付けられます。また、変数間の関係性を統計検定や相関分析を用いて定量的に評価したり、交互作用を考慮した追加の解析なども考えられます。

以上のように、理論・経験・データ科学の観点から考察することで、モデル選択における判断材料を検討することができます。

まとめ

本記事では、材料開発における回帰モデルの選び方について記してきました。回帰モデルの選択においては予測性能解釈性という2つの観点があります。図5に回帰モデルの選択のフローを示しますので、ご参考になれば幸いです。

図4. 回帰モデルを選択する際のフロー

補足として、本記事では詳しく紹介しませんでしたが、説明可能なAI (Explainable AI; XAI) という概念が注目されています。XAIは、これまでブラックボックスとされていた機械学習モデルの解釈性を向上させる技術群です。モデルがどのような根拠で予測を行ったかを明らかにできるため、解釈性と予測性能のバランスを取るための有力な手段となっています。興味のある方は、ぜひ調べてみてください。