本記事の目的

回帰モデルはデータ解析や機械学習の中核的な手法の一つであり、その予測性能を正しく評価することが、モデルの効果的な活用に不可欠です。本記事では一般的な回帰モデルの評価方法と精度指標について、基礎的な内容をご紹介します。

回帰モデルの予測性能の評価目的

回帰モデルの予測性能の評価目的は、既知のデータ (学習データ) に対してだけでなく、未知のデータ (テストデータ) に対しても正確な予測が可能かを確認することです。未知のデータに対しての予測性能は汎化性能と呼ばれ、これはモデルの実世界における有用性を左右する重要な指標です。汎化性能を評価する一つのアプローチとして、データを学習データとテストデータに分割して評価する方法が広く採用されています。学習データは回帰モデルの構築 (パラメータの調整) に用いるデータセット、テストデータは構築したモデルに予測させ、性能を検証するためのデータセットです。

ここで、回帰モデルは必ずしも学習データに適合する程良いというわけではありません。学習データに過度に適合した回帰モデルは汎化性能が低くなる可能性があるため、学習データに適合しすぎない回帰モデルの構築が重要になります。モデルが学習データに過度に適合し、汎化性能が低下する現象を、過学習 (Overfitting) と呼びます。過学習は、学習データ上での誤差とテストデータ上での予測誤差の差をみることで推定されます。

過学習が起こるとどのような問題があるのでしょうか。たとえば、これまで実験を行ったことがある材料データを元に学習した予測モデルを、新しく実験に用いる材料を対象に適用させたいとき、過学習したモデルだと予測の信頼性を損ねます。そこで、ある程度のロバストネスを持ち汎化性能のあるモデルになるよう学習させることで、実用性が向上します。このような学習のためには、汎化性能を評価できなくてはなりません。

汎化性能を効果的に評価するための具体的な手法を、次のセクションで見ていきましょう。

回帰モデルの予測性能の評価方法

回帰モデルの予測性能は、以下の2つの考え方で評価することが一般的です。

  1. 回帰モデルが学習データをどの程度学習できるか

    これを、In-Sample評価と呼びます。

  2. 回帰モデルが未知データをどの程度予測できるか

    これを、Out-of-Sample評価と呼びます。

これら2つの視点をバランスよく評価することで、モデルの適合度と汎化性能を理解できます。

1. In-Sample評価

In-Sample評価では、学習データそのものを用いてモデルの性能を評価します。始めに、学習データを用いて回帰モデルを構築します。次に、学習データ自体を回帰モデルに代入して性能を評価する、という方法です。これにより構築した回帰モデルが、学習データのパターンをどの程度捉えているかを確認できます。ただし、学習データに対して高い適合度を示すモデルが、未知のデータ (テストデータ) に対して同じ性能を発揮するとは限りません。過学習により、汎化性能を正しく判断できない可能性がある点に注意が必要です。

In-Sampleのデータを用いて汎化性能を見積もるために、情報量基準 (例:赤池情報量基準 AIC、 ベイズ情報量基準 BIC) を用いる方法があります。モデルの適用度と複雑さのバランスを考慮し、複雑なモデルにはペナルティを課すことで汎化性能を向上させるアプローチですが、詳しくは本記事では割愛します。

図1. In-Sample評価におけるデータの考え方

2. Out-of-Sample評価

Out-of-Sampleでは、学習データとは異なるデータを使用してモデルの性能を測定します。一部のデータを学習データから除き、後の評価でのみ用いることで、未知のデータへの予測性能を推定しようとするものです。代表的な手法は、ホールドアウト法k-fold Cross-Validation (k-fold CV; k-分割交差検証) です。

(1)ホールドアウト法

ホールドアウト法では、まずデータの一部を学習データとして回帰モデルを構築します。次に残ったデータをテストデータとして回帰モデルに代入して、予測性能を評価する、というシンプルな方法です。ホールドアウト法の問題点として、データの分割方法によって、予測性能の評価値が大きな影響を受ける点が挙げられます。そこで、より頑健な評価方法としてk-fold CVがあります。

図2. ホールドアウト法

(2) k-fold CV (k分割交差検証) 

k-fold CVは、データの分割による偏りを軽減するための手法です。まず、データをk個の等しいサイズのセットに分割し、うちk-1セットを学習データとしてモデルを学習させ、残りの1セットをテストデータとして予測性能を評価します。これをk通り行い、予測性能を平均化する手法です。これにより、データ分割によるモデル評価の不安定さを軽減することができます。図3において、3-fold CVの場合を例示します。ここでkがデータ数に等しい場合はLeave-One-Out (LOOCV) 法と呼ばれます。この手法は、データの1点をテストデータ、残りを学習データとする手順を、全データ点に対して1回ずつ行い評価する方法です。

図3. 3-fold CV

(3) 手法選択のポイント

k-fold CVやLeave−One-Out法では、k回またはデータ点数分の回数の学習が必要になり、評価コストが大きくなります。そのため、データ量が大きい場合や、学習コストの大きい複雑なモデルを用いる際には、k-fold CVにおいてkの数を小さくするか、ホールドアウト法を用います。逆に、データ量が少ない場合はLeave-One-Out法が適しています。

その他、Leave-p-Out法やブートストラップ法など、様々なバリデーション手法がデータや目的、モデリング手法などにあわせて用いられます。

ここまで回帰モデルの性能評価の方法について述べてきました。次に、予測性能を評価する際の精度指標を示します。

回帰モデルの精度指標

回帰モデルの精度指標は、モデルの予測性能を数値的に評価するための基本的なツールです。それぞれの指標は異なる観点からモデル性能を測定し、状況に応じた適切な選択が求められます。代表的な精度指標を以下に示します。

  • Mean Absolute Error (MAE; 平均絶対誤差)
  • Mean Squared Error (MSE; 平均二乗誤差)
  • Root Mean Squared Error (RMSE; 二乗平均平方根誤差)
  • Coefficient of determination (R2; 決定係数)

これらの精度指標の定義式を以下に示します。nがデータ数、yiが実測値、ŷiが予測値、Ӯが平均値です。MAE、MSE、RMSEは値が小さい方が予測値が実測値と近く、高精度な回帰モデルが構築できていると言えます。ただし、外れ値が存在する場合は、その外れ値の影響を受けやすいため、精度指標の値だけを確認するのではなく、実測値と予測値の回帰プロット (y-yプロットと呼ばれます) も確認することが重要です。

一方R2は-∞〜1までの値をとり、1に近い方が高精度であることを意味します。

MAEは式(1)で定義されます。MAEは実測値と予測値の差の絶対値の平均です。単位が元のデータと同じため、直感的に理解しやすい特徴を持ちます。また、外れ値の影響を比較的受けづらいです。

MSEは式(2)で定義されます。RMSEは実測値と予測値の差の二乗の平均です。誤差を二乗するため、大きな誤差 (外れ値) に敏感です。外れ値が予測性能評価の重要な要素となる場面で用いられることが多いです。

RMSEは式(3)で定義されます。RMSEはMSEの正の平方根です。MSEと同様、大きな誤差に敏感ですが、MAEのように元のスケールで直接解釈ができます。そのため、直感的にも理解がしやすいです。

R2は一般的には式(4)で定義されます。R2は実測値と予測値の差分の二乗和を、実測値と平均値の差分の二乗和で割った値を1から引いた値です。モデルが実測値の分散をどの程度説明できるかを表す指標と言えます。基本的には0から1の値をとるため、モデルの説明性を直感的に評価しやすいことから多用されます。

精度指標を用いる際の実用的な考え方

上述のとおり、MAE、MSE、RMSE、R²はそれぞれ異なる特性を持つため、一つの指標だけでモデルの良し悪しを判断しないことが重要です。また、目的に応じた使い分けもできると良いでしょう。たとえば、外れ値の影響が大きい場合、MAEとRMSEを組み合わせて評価することで、外れ値に対するロバスト性と敏感性の両方を確認できます。また、精度指標の値だけではモデルの特性を完全に把握できません。実測値と予測値のy-yプロットや残差プロットを活用し、誤差分布や外れ値の影響を視覚的に評価することが推奨されます。

基本として、下記の3点を意識して用いることが実用上大切です。

  1. 複数の指標を併用する
  2. 指標だけでなく視覚的評価を行う
  3. モデル活用の目的に応じた選択

まとめ

本記事では、回帰モデルの予測性能を適切に評価する方法と、評価時に用いる精度指標の基礎について解説しました。回帰モデルの性能評価については、学習データに対する適合度 (In-Sample評価) と未知のデータに対する予測性能 (Out-of-Sample評価) のそれぞれを説明しました。実用においては、これらのバランスを理解することが重要です。また、単一の手法や指標だけでなく、複数の視点を統合したアプローチが有効であることを説明しました。未知データへの汎化性能の向上と適切な評価手法の選択が、モデルの実用性を高める鍵となります。本記事の内容は、回帰モデルを活用する研究者や実務者にとって、モデル構築や評価の基礎を整理する一助となることを願います。