はじめに
データ分析の場面で「相関係数」という言葉をよく耳にすることはないでしょうか?「暑い日にはアイスが売れやすい」「勉強時間が増えると成績も上がる」など、2つのデータがどれくらい一緒に変化するかを数値で示したものです。データの関係性を理解するためによく利用されるこの相関係数ですが、皆さんどのように解釈されているでしょうか。単に、相関係数の値が高い組み合わせのみに着目して終わってしまっていないでしょうか。
本記事では、この相関係数の基本をわかりやすく解説し、研究開発データからできるだけ多くの考察を引き出すための解釈方法をご紹介したいと思います。
相関係数とは
まず相関係数とは、2つの変数間の線形関係や順位関係の強さと方向を示す統計的指標です。探索的データ解析(EDA)やデータモデリングの初期段階でしばしば使用されます。相関係数には様々な種類があり1つを指すものではありません。代表的な相関係数には、「ピアソンの積率相関係数」「スピアマンの順位相関係数」「ケンドールの順位相関係数」などが挙げられます。一般的に相関係数と呼ばれる際はこの「ピアソンの積率相関係数」を指すことが多いです。本記事でも単に相関係数と記載する場合はこのピアソンの積率相関係数を意味します。
ピアソンの積率相関係数
ピアソンの積率相関係数(Pearson correlation coefficient)は、2つの変数間の線形関係の強さを示します。値は-1から1の範囲で示され、以下のように解釈されます。
- 1に近い:強い正の相関(片方の変数が増加するともう片方も増加する傾向がある)
- -1に近い:強い負の相関(片方の変数が増加するともう片方が減少する傾向がある)
- 0に近い:相関関係がない(独立であるか、他の非線形関係が存在する可能性もある)
相関係数の高い・低いに基準はないですが、一般的に絶対値が0.7程度以上から高い、0.4程度以下から低い、と判断する場合が多いです。
図1. ピアソンの積率相関係数
ちなみに相関係数 r は次の式で定義されますが、難しい数式はひとまず置いておいて、「値が-1から1の間にある」ということだけまずは覚えておけばOKです。
$$ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2} \sqrt{\sum (Y_i - \bar{Y})^2}} $$
$$ (\bar{X} \text{と} \bar{Y} \text{は対象とする2つの変数} X, Y \text{の平均を示す}) $$
相関係数を活用する上での注意事項3選
相関係数は便利な指標ですが、過信は禁物です。2つの変数間の線形関係を示す指標ではあるものの、実際の関係性を必ずしも表現していない可能性を認識しておくことが重要です。
まずは代表的な以下の3項目の観点を意識しましょう。
1. 非線形関係を適切に表現できない
ピアソンの相関係数はあくまで線形関係を測る指標であり、特徴的な非線形関係が存在していたとしても無相関と評価されてしまう可能性があります。例えば、温度と材料の弾性率に関係があるとします。温度が上がると、最初は材料の弾性率が上がりますが、一定の温度を超えると逆に弾性率が低下する場合です(図2)。このような「山形」の関係では、相関係数は0に近づきます。しかし、明らかに温度と弾性率には特徴的な関係があります。この場合、相関係数だけを見ると相関が弱いと誤解されやすくなってしまいます。
図2. 温度と弾性率の非線形関係の例
データを散布図に描画して目視で確認することで特徴的な関係に気づけることも多いため、相関係数の値だけでなく散布図を一緒に確認することを推奨します。対象とするパラメータが膨大な場合、目視での確認が難しいため、順位相関係数や非線形の相関を評価する統計的指標によるスクリーニングを用いるのが良いでしょう。非線形指標の代表例として、MIC(Maximal Information Coefficient)やHSIC(Hilbert-Schmidt Independence Criterion)が挙げられます。
2. 相関関係と因果関係は必ずしも一致しない
相関関係があることは必ずしも因果関係(原因と結果の関係)を示しません。例えば、原料Aと目的変数に高い正の相関があると確認できたとします。このとき、原料Aの増加が目的変数の増加を引き起こすという因果関係が存在する可能性も勿論ありますが、それ以外にも、その2変数に直接の因果関係はなく、原料Aの配合量と比例して添加した原料Bが直接の影響を及ぼして目的変数の値が増えていた、などという可能性も考えられます(図3)。
図3. 相関と因果は必ずしも一致しない例
このような場合、目的変数と直接の因果関係にある因子がデータに含まれているケースと含まれていないケースが考えられます。データに含まれている場合は、変数間の相関関係を網羅的に評価し、相関係数の高い2変数の組み合わせ以外に各変数と高い相関を持つ他の変数がないか注意深く確認することで気づくことが可能です。一方で、データに含まれていない場合はより厄介です。データ取得の経緯を遡り、系中で生じるメカニズムの仮説から考察することが必要です。
3. データの特性が相関係数を歪める場合がある
多くの研究開発データで相関係数を利用していると、データの特性が原因で相関係数が実際の関係性を正確に反映しない場合があります。 例えば、線形相関が小さい場合でも非線形な依存関係が存在しているケースや、相関係数が大きく見えても交絡因子やデータ収集のバイアスによって誤解を招くケースです。このような場合、単に相関係数の大小だけで結論を出さず、慎重に解釈することが推奨されます。以下に代表的な5パターンを紹介します。
3-1. データに外れ値が含まれる場合
一つ目に、相関係数は外れ値の存在に影響を受けやすいため、外れ値を除いた変数間の関係性を適切に値に反映していない場合があります。例えば、下グラフのように、多くのデータが密集する領域から外れた値を1点でも含むか否かで相関係数の値は大きく変動しやすいです(図4)。あらかじめ外れ値検出手法を用いて処理する、相関係数だけでなく散布図も合わせて確認する、などの対策が重要です。ただし、外れ値が意味を持つ場合もあり得るため、その解釈には慎重になるべきでしょう。
図4. 外れ値を含む散布図の例
3-2. 変数が大きく偏った分布を有する場合
二つ目に、相関係数はいずれかの変数が大きく偏った分布を有する場合、誤った関係性を推定してしまうことがあります。例えば、下グラフは、触媒の添加量(縦軸)と所望の生成物の収率(横軸)を各軸に作成した散布図の例です。収率はデータの過半数で0%を与えており、プロットの多くがグラフ左下に密集していることが確認できます(図5)。このような場合、見かけ上高い相関係数の値が出ているだけであり、実際には相関がない可能性も高いです。散布図と合わせて確認することを意識しておきましょう。
図5. 分布の偏りを含む散布図の例
3-3. データ数が少ない場合
三つ目に、データ数が少ない場合、相関係数は不安定になりやすく、偶然に高い(低い)相関係数を与えることがあります。例えば、下グラフのように、取得済みのデータ3点が偶然に対角線上付近に並び、高い相関係数を与える場合があります(図6)。しかし実際にこの変数間で強い関係性があるかどうかは現段階では何とも言えません。十分なデータ数で評価することが重要であることを把握しておきましょう。
図6. データ数が少ない散布図の例
3-4. 評価する2変数以外の属性ごとに特徴がある場合
四つ目に、ある属性に基づいてグループ分けしたデータで相関を評価すると、全データと異なる傾向が確認できる場合があります。例えば、ある摩擦特性のデータを摩擦特性(縦軸)と摺動速度(横軸)を各軸に、散布図を作成した例を下に示します(図7)。一見すると、この2変数に特に高い相関は無いようです。しかし、このデータには摺動部材の材質が異なる2種類(樹脂・金属)由来のデータが混在しており、材質ごとに分けて評価すると実際は、材質に樹脂を利用した場合のみ、2変数間で高い相関が確認できます。このように、評価する2変数以外の属性にも着目して仮説を立てることも重要です。
図7. グループごとのデータで相関関係を評価する例
3-5. 利用データのバイアスが存在する場合
五つ目に、データの収集時または解析時に利用データのバイアスが存在しており、誤った関係性を推測してしまう場合があります。例えば、下グラフは、ある耐熱材料の寿命評価を短期・長期で行った測定値を各軸に取った散布図を示しています(図8)。現時点で図中の青色プロットのみが取得されており、一見すると相関係数r=-0.76と強い負の相関関係にあるように見えます。しかし実際は、この実験工程では、短期評価である程度基準をクリアしたサンプルのみ長期評価を実施するという順序があるため、取得データに選抜が加えられています。橙色プロットは、仮に全ての短期-長期データが取得された場合のプロットを表しており、実際には2変数には相関関係は特に存在しない可能性も十分考えられます。このように、バイアスを含んだデータで評価を行っている可能性を想定しておくことも重要です。データの選抜によるバイアス以外にも、異なるデータ収集方法による測定バイアスや、交絡因子による見かけ上の相関が生じるバイアスなどがあります。データ収集プロセスを慎重に設計し、バイアスの影響を最小限に抑える統計手法を活用することを推奨します。
図8. データのバイアスを考慮して相関関係を評価する例
終わりに
いかがだったでしょうか。本記事では、相関係数の基本を解説し、研究開発データから考察を引き出すための解釈方法をご紹介しました。単に相関係数を算出して終わりではなく、系中のメカニズムやデータ取得経緯まで様々に思考を張り巡らせて考察することで、これまでと違った視点が得られるのではないでしょうか。
本記事が、皆様にとって少しでもお役に立てていれば幸いです。