誰もが一度は聞いたことがある「相関係数」は、ビジネスの場面でもよく出てくる単語で、社会人にとって最低限知識としておさえておくべきものです。しかし、なんとなくわかっているつもりでもそのロジックや計算方法などに関しては理解できていない部分がある方も多いでしょう。
- 相関係数とはそもそもどのように算出された指標なのか?
- 相関係数って、どんな時に役立つのか?
- 相関係数がいくつだと「相関がある」と言えるのか?
そこで本記事では、相関係数の意味から求め方まで、どこよりもわかりやすく解説していきます。
この記事を読んでいただければ、相関係数を人に説明できるレベルで理解することが可能です。それだけでなく、ビジネスにも活用し、仕事で成果を出すことにも繋がるでしょう。
ぜひあなたも相関係数を理解し、使いこなせるようになりましょう!
1.相関係数の意味
それではさっそくですが、相関係数がどういった指標で、どんな意味を持つのかを説明していきます。
1-1.相関係数とは2種類のデータ間の関連性を示す指標
相関係数を一言でいうと、「2種類のデータ間の関連性(相関関係)の強さを示す指標」です。
より詳細に説明すると、y=ax+bという一次関数の式で示されるような、直線的な相関関係の強さを示します。つまり、相関係数によって、どれだけ直線関係に近いかがわかるわけですね。
また、相関係数は-1から+1までの値をとり、一般的に使用される記号は「r」です。
一方の数値が増加すると、もう一方が増加または減少するような、二つの数値の関係のこと。相関関係があるからといって、必ずしも原因と結果の関係(因果関係)があるとは限らない。
参考:『相関分析とは?分析初心者でもわかる解説とExcelでのやり方を紹介』
1-2.相関係数から分かる3種の相関
相関係数の数値から分かる「2種類のデータ間の関連性」には、以下の3種類があります。
- 相関係数が1に近い:正の相関
- 相関係数が‐1に近い:負の相関
- 相関係数が0に近い:相関がない
1-2-1.正の相関
相関係数が1に近い値を取るとき、「正の相関がある」といいます。これは、「片方の値が増加すると、もう一方も増加する傾向がある」ことを意味します。
例えば、身長と体重の関係は正の相関にあると言えるでしょう。
1-2-2.負の相関
相関係数が-1に近い値を取るとき、「負の相関がある」といいます。これは、正の相関とは逆に、「片方の値が増加すると、もう一方が減少する傾向がある」ことを意味します。
例としては、製品の供給量と価格の関係があります。
1-2-3.相関がない
相関係数が0に近い値を取るとき、「ほとんど相関がない」といいます。これは、「2種のデータ間に直線的な関連性がない」ことを意味します。
例えば、身長とテストの点数などは関連があまりなさそうですよね。
相関係数はあくまで「直線的な」関連性を示す指標です。値が0に近いからといって、関連性を完全に否定することはできません。例えば、以下のデータは相関係数r=-0.08であり、この数値からはほとんど相関がないと解釈されてしまいます。
しかしながら、実際には、xとyの関係は二次関数の式で表されます。
この点を含めた、相関係数を扱う際の注意点について、5章で詳しく解説します。
1-3.相関係数を評価する際の基準
相関係数からはざっくり以下3つの相関がわかります。
- 相関係数が1に近い:正の相関
- 相関係数が‐1に近い:負の相関
- 相関係数が0に近い:相関がない
1に近いや0に近いの『近い』って具体的にどの程度なのか、というところですが、厳密な基準はありません。ただし、経験的には、次の表に示した基準が用いられています。実際、私も、絶対値0.5-0.6を基準に判断することが多いです。
以下に、参考として相関係数ごとの散布図を示します。相関係数の絶対値が0.5を超えてくると、少しずつパターンが可視化されてきますよね。
2.相関係数の使いどころ
相関係数が特に有効に使えるのは、以下2つの場面です。
- 改善したい指標と強く関連する要素を知りたい時
- データの解釈に根拠を与えたい時
それぞれ、詳しく解説していきます。
2-1.改善したい指標と強く関連する要素を知りたい時
何らかの指標に対して、どういった要素が強く影響するのかを知りたいとき、有効です。
例えば、ある商品の売上に対して、強く影響する要因を調べたい時を考えてみましょう。この時、「売上」に影響する可能性のある要素として、「TVコマーシャル費用」、「WEB広告費用」、および「販売スタッフ数」が考えられるとします。
そこで、それぞれの要素と売上との相関係数を求めたところ、以下の図のような結果が得られたとします。この場合には、WEB広告費用が売上に強く影響するという予測がたつわけです。
2-2.データの解釈に根拠を与えたい時
相関係数を活用すれば、「2種類のデータ間の関連性がどの程度であるか」を数値的な根拠を持って示すことができます。そのため、統一された指標をもとに客観的な解釈が可能です。
例えば、2-1で示した「売上とWEB広告費用の関係」を人に説明する時。グラフだけを見せても、その解釈は人によって異なるでしょう。あなたが「相関がある」とどれだけ強く主張しても、「ホント?根拠あるの?」と言われてしまう可能性があるわけです。
そこで効果を発揮する一つの指標が、相関係数です。この客観的な数値によって相関関係を示すことで、「相関がある(またはない)」というデータの解釈に、根拠を与えることができます。
3.相関係数の公式と導き方
相関係数の意味や使い方を理解したところで、ここでは公式と導出するステップを見ていきましょう。
x,yの間の相関係数rは、以下の公式で求まります。
この公式における文字は、それぞれ以下の値を表します。
- n:データ(x,y)の個数
- xi,yi:x,yそれぞれの個々の数値
- x:xの平均
- y:yの平均
また、以下の分子は、xとyの「共分散」と呼びます。
そして、以下の分母は、x,yの「標準偏差」と言います。
以降、相関係数の出し方のステップを解説します。
ステップ1:平均値を求める
ここでは実際のイメージを掴むために、統計検定3級の例題の数字を使って求めてみましょう。
まず、平均値を求めます。
<xの平均>
<yの平均>
ステップ2:標準偏差を求める
<xの標準偏差>
<yの標準偏差>
参考:『標準偏差とは?意味から求め方、分散との違いまでわかりやすく解説』
ステップ3:共分散を求める
ステップ4:相関係数を求める
これで、無事に相関係数を求めることができました。この例では、相関係数が-0.24ですので、xとyにはほとんど相関がないと解釈することができます。
ちなみに、散布図を描くと、以下のようになります。
Excelを利用する場合は、CORREL関数を使います。先ほどと同じ例を使用して求めてみましょう。以下のように入力することで、簡単に算出できます。
4.相関係数を扱う際に意識すべき3つの注意点とその対処法
相関係数には扱う際に注意しなければならない点もいくつかあります。この点を把握しておかないと、誤った結論を導いてしまう可能性があるので注意する必要があります。以下、特に注意すべき3つのポイントに関して解説します。
4-1.データ数は最低100は確保する
相関係数を求める際のデータが少ない場合、データの選ばれ方によって、たまたま相関係数が大きい(または小さい)値になっている可能性があります。
具体的には、データ数を100以上用意できると、信頼できる値を得られるでしょう。
少ないデータで得られた結果から、「全てにおいて当てはまる」と一般化してしまわないように注意しましょう。これは、他の人が示したデータを見る際にも注意しておくと良いポイントですね。
4-2.外れ値に大きく影響されるため、散布図でデータ全体を可視化し外れ値に関して確認する
データ全体の中で、他の値から大きく外れた値を外れ値といいます。相関係数は、少しでも外れ値があると大きく影響されることがあります。
例えば、3章で扱ったデータに1点だけ外れ値(x=50,y=50)が入っていた場合を考えてみましょう。これだけで、相関係数が-0.24から0.99まで、非常に大きくなってしまいました。
このように、相関係数を扱う際には、外れ値を考慮して考える必要があります。これを避けるには、単に計算上の相関係数を鵜吞みにしないように気を付けましょう。一度散布図を描いて、データの全体像を確認することが効果的です。
ここで大切なのが、「外れ値は必ずしも悪者ではない」ということです。新たな知見が眠っている可能性があるので、安易に排除せず、以下のように分析すると良いです。
- 散布図を書いて外れ値がないか確認する
- 外れ値があった場合、外れ値とその他を分けて考える
- 外れ値のないデータで相関分析を行い相関を確認し、外れ値は個別にデータを確認して外れ値になる原因について仮説を立てる
4-3.直線関係しか分からないので、散布図でデータ全体を可視化し関係性を確認する
相関係数はあくまで、一次関数の式(y=ax+b)で表される「直線的な」関連性を示す指標です。たとえ直線的ではなくとも、2種のデータ間に関連性がある可能性はあるので、注意しましょう。
例えば、以下のような散布図になった場合、明らかに何らかの関係性がありそうですよね。しかし、相関係数の値は0.02となり、「相関がない」と判断できてしまいます。
相関係数の数値だけで関連性を判断するのは危険です。これを避けるためには、対策として、必ず散布図を作成するようにしましょう。
5.まとめ
本記事では、相関係数の意味や求め方、扱う際の注意点について紹介しました。
相関係数は、「2種類のデータ間の関連性」を数値的な根拠とともに示すことができる、とても便利な指標です。しかしながら、今回解説したように、扱う際には気をつけなければいけない点もあります。特に、以下3点は頭に入れておきましょう。
- データの点数が少ないと意味がない
- 外れ値に大きく影響される
- 直線関係しかわからない
Excelを使って簡単に求めることのできる指標ですので、これから有効活用してみてください。
また、相関係数を学んでみて「データから何かを見出すこと」を実践してみたいと感じた方は、データ分析に挑戦してみると良いですよ。データ分析の基本を以下の記事で紹介しているので、ぜひご一読ください。
https://data-viz-lab.com/correlation-coefficient
相関係数を求める式の分母は、0.82+1.7ではなく、0.82×1.7ではないですか?
もったいないから早く訂正したほうが良いです。
ご指摘ありがとうございます。
仰る通り、3. 相関係数の公式と導き方、ステップ4に記載している式の分母が誤っておりましたので、修正いたしました。
お忙しい中ご丁寧に誤記を指摘いただきましたこと、誠にありがとうございました。
今後ともよろしくお願いいたします。