データを扱っていると、それらのデータから興味深い関係性を見つけたり、注目しているデータに「関係性がある!」と説得力のある主張をしたいときは誰しもあるでしょう。そのようなときにデータ初学者でも簡単に活用できるのが相関分析です。相関分析によって、データ間の関係性の強さを求めることができます。
本記事では相関分析の概要やExcelでの使用方法、分析時の注意点を網羅的に解説しています。本記事を読むことで、初学者でも簡単に相関分析を理解し、活用できるようになるはずです。
目次
1.相関分析とはデータの”関係性”を理解する分析手法である
相関分析は、2つの要素が「どの程度同じような動きをするか」という要素間の関係性を明らかにする手法です。データの特徴を容易に把握できることから広く一般的に使用されています。
データの関係性を知ることはデータ分析の基本です。データの関係性を探ることで、今まで知り得なかった要素間の関係を発見したり、関係性のある要素をまとめてデータの解釈を容易にすることに繋がります。
2.相関分析で見るべき3つの「相関」
データの要素間の関係は、よく「相関」と表現されます。この相関は主に「正の相関」、「負の相関」、「無相関」の3種類に大別されます。相関分析では、分析する項目がこの3種類の相関のそれに当てはまるかを確認することがゴールです。
➀正の相関:同じ方向に動きやすい
「片方の数値が大きくなる(小さくなる)とき、もう片方の値も同様に大きくなる(小さくなる)」という関係性がある場合、「正の相関がある」と言います。「身長と体重の関係」や「気温の高さとアイスクリームの売上の関係」はわかりやすい正の相関の例です。
➁負の相関:逆方向に動きやすい
「片方の数値が大きくなる(小さくなる)とき、もう片方の値は反対に小さくなる(大きくなる)」という関係性があるとき、「負の相関がある」と言います。例えば「平均気温と積雪量の関係性」や「年齢と足の速さ」は負の相関にあると言えます。
③無相関:お互いランダムに動く
「片方の数値が大きくなる(小さくなる)としても、もう片方の値に決まった変化が見られない」という場合、相関関係が無い(=無相関)と言います。例えば、「平均睡眠時間と町にいるバッタの数」や「食べログの評価と店長の靴のサイズ」なんかは関係性が薄そうですよね。この場合、両者は無相関であると言います。
3.相関分析が有効な2つの使いどころ
相関分析の使い時は「①大量のデータの中から関係性がある項目を抽出したいとき」と「➁関係性があることと客観的に示したいとき」です。それぞれ詳しく解説します。
➀大量のデータから関係性のある項目を抽出したいとき
相関分析を用いることで大量のデータの中から、関係性のある項目だけを抜き出すことができます。特にデータの項目が多いとき、ただの目視では注目すべき項目が多すぎて何から見ればいいかわかりにくいです。そのようなときに相関分析を行うことでデータの関係性がある部分に焦点を当てることができ、データの理解がさらに深まり、分析の仮説の導出などに役立ちます。ちょうど下記のようなイメージです。
例えば商品の売上データがあったとき、生のデータを眺めるだけでは各商品がどのような特徴を持っているかわかりにくいです。しかし相関分析を行うことで各商品間の関係性を明確にすることができます。その結果、「Aの商品の売上を考えるときは商品Bと商品Eを見ればいい」というようにデータの見通しが良くなります。
➁関係性があることを客観的に示したいとき
相関分析を行うことで、関係性がどのくらいあるのかを数値によって示すこともできます。数値によって表現することで、個人の主観的な解釈に依存せず、統一指標のもとで客観的な判断を下すことができます。
上の折れ線グラフだと、2本は似たような形をしているため、AとBは正の相関関係にありそうなことがわかります。しかしグラフだけでは「その相関関係がどれだけ強いか」というのはわからず、グラフを見る人の解釈に依存してしまいます。
この時、例えば相関係数という尺度で相関関係を示すことによって、「相関がある」ということと「0.86程度の強い相関がある」といった客観的な評価を行うことができるようになります。
4.Excelで相関分析をするための2つのステップ
変数間の相関を見る方法はいくつかありますが、本記事では最も一般的で解釈しやすい相関係数を使用した相関分析のやり方を紹介します。相関係数を用いる場合、以下の2ステップを踏むのが分析の一般的な流れです。
- 散布図を描画する
- 相関係数を算出する
以下、それぞれについて実例とともに解説していきます。
また、本記事ではExcelを使用した例を紹介します。もちろんPythonやR、BIツールなど様々なツールでも分析はできますが、Excelが最も手軽に扱えるツールだと思います。ただしExcelだとデータ量が約100万行以下に限られたり、継続的な運用に向いていないなどの限界があるため、データ量が100万行を超える場合や何度も分析を行う場合はExcel以外のツールを使用することがオススメです。
Excel以外の代表的なツール | 特徴 |
---|---|
Python, R |
|
TableauなどのBIツール |
|
SPSS, SAS |
|
Step1:散布図を作って視覚的に相関関係を把握する
散布図は縦軸と横軸にそれぞれ変数を設定し、データを点でプロットした図のことです。散布図を用いることで、データがどのようにばらついているか(相関関係があるのか)を目視で確認できるようになります。
散布図の描画は相関分析の基本です。次章で詳しく触れていますが、散布図を確認しないとミスリーディングな分析に繋がることが往々にしてあるので、相関分析を行う際は必ず描画することをオススメします。
散布図の作成方法:「挿入タブ」→「散布図」を選択
Excelでも簡単に散布図を描画できます。。まずデータを下図のようにエクセルに入力します。そして数値のある範囲を選択した状態で、「挿入」タブの「グラフ」メニューから「散布図(X,Y)またはバブルチャートの挿入」を選択し、その中から「散布図」を選択します。
以上がエクセルで散布図を作るときの基本になります。サクッと作れて便利な事がわかります。
Step2:相関関係を相関係数で表現する
散布図を作成したら、相関係数で関係性を定量的に表現します。散布図だけだとその見た目に解釈が依存し、散布図を見た人によって解釈がばらつきます。関係性を相関係数という一つの数値にすることによって、客観的な解釈を行うことが可能になります。
Excelで相関係数を算出する場合、見たい項目が2項目1セットのみの場合と2セット以上ある場合で異なる算出方法を適用できるので、本稿ではその両方を紹介します。
相関係数は、その相関の強さを-1から1までの数値で表すことができます。簡単に言うと、➀-1に近いほど負の相関が強く、②1に近いほど正の相関が強く、➂0に近いほど相関が無い、という3点が重要な考え方です。
さらに相関係数はその絶対値の大きさによって、おおよそ以下の4段階で解釈されることが多いです。
- 0~0.2:相関が無い
- 0.2~0.4:弱い相関がある
- 0.4~0.7:中程度の相関がある
- 0.7~1:強い相関がある
そのため、たとえ相関係数の符号が正でもその値が小さい場合、そこには相関が無いかもしれないと解釈されます。
ケース1)1セットのみの相関係数を見たい場合はCORREL関数を用いる
1つの組に対して相関係数を算出したい場合はCORREL関数が便利です。以下のように入力することで、すぐに相関係数を求めることができます。
上記の例では相関係数は0.86と算出されまる。そのためXとYには強い正の相関関係があると解釈することができます。
ケース2)複数セットの相関係数を見たい場合は「分析ツール」機能を用いる
項目が3つ以上あり、全ての組について相関係数を算出したい場合、Excelの「分析ツール」機能を使用すると便利です。以下のようにして簡単に相関係数の組を算出できます。
まず、データを用意して、「分析ツール」を開き、「相関」を選択します。
「入力範囲」で分析するデータを指定し、必要個所に入力をして「OK」を選択します。この時、列名(先頭行)を含めておくと結果が見やすくなります。(見やすさのために最小限の編集を行っています)
出力は表の左下が埋まった形で出てきます。各セルに表示されている値は、その節の行と列それぞれの項目間の相関係数を表しています。この表を踏まえると、気温はどのコーヒーに対しても「負の相関」にあると仮借することができます。
なおExcelの「分析ツール」は使用するまでにちょっとした設定が必要です(ただし30秒ほどしかかかりません)。以下の記事で「分析ツール」の詳細な導入方法や、相関分析の例についても紹介しているため、本稿と合わせて読んでいただくことでより一層理解が深まります。
5.相関分析をする時に気を付けるべき3つのポイント
相関分析は算出した数値をそのまま読み取れば良いので、初学者にも理解しやすく大変便利な分析ですが、その分気を付けなければならない点もいくつかあります。本記事は中でも特に気を付けたい3つのポイントについて解説します。
➀”相関”はわかるが”因果”はわからない
相関分析の結果から因果関係を推測することは、誤った因果を想定する危険性があるので注意が必要です。
因果は相関の一部であり、よく相関と因果は混同されがちです。相関と因果は以下のような包含関係にあります。
ここで特に気を付けるのは、見かけ上の相関(疑似相関)というものです。疑似相関とは、因果関係がないのにも関わらず相関がみられるため因果関係があるように見えてしまうことを言います。
- 因果の向きが逆:「暑い→アイスが売れる」であり「アイスが売れる→暑い」という因果は不自然であるが、相関分析では見分けがつかない。
- 第3の変数が介入:地域におけるスーパーとコンビニの数は正の相関にあるが、スーパーの数とコンビニの数の間に因果関係はない。両方とも「地域の人口」という第3の変数に相関しているため、スーパーとコンビニも相関してしまう。
- データが選抜されている:受験生全体で見たら実技テストと学力テストは無相関なのに、合格者だけのデータに絞ったら実技テストと学力テストの点数に負の相関が生じてしまう。
このように、相関分析から因果はわかりません。そのため相関分析の結果はあくまで「仮説」と捉え、そこに因果関係を見出す際には「検証」が必要であることを念頭に置くことをオススメします。
➁一直線以外の関係性は捉えられない
基本的な相関分析が対象としているのは直線的な関係であり、非線形の関係性を捕捉することはできません。
例えば以下の3つの散布図は、どれも一直線以外の何かしらの法則性に基づいて分布しているように思われます。しかし相関係数はすべて-0.06程度しかありません。相関係数だけを見ると3つともすべてXとYの間には何の関係性もないと誤って解釈してしまいます。
このように、相関分析の結果の数値だけを見て判断をすると思わぬ見落としがあります。そのため相関分析をする際には散布図を描画し、見落としを防ぐ必要があります。
③相関分析の結果は外れ値に影響されやすい
相関分析の結果は外れ値(異常に大きかったり小さかったりする値)にとても影響されます。
例を見るとわかりやすいです。以下の2つの図の右側は、左側のデータにただ1つだけデータを加えたものです。ただ1つだけでも外れ値が入ることによって、相関係数は0.89から0.76へ大きく変化していることがわかります。
このように、相関分析を行う際には外れ値を考慮して分析を進める必要があります。ここで重要なのは、外れ値は必ずしも悪いというわけではないということです。外れ値という異常な値に、「一般的なものとは異なる新たな知見」が眠っていることがあります。そのため、以下のように分析をすると、相関分析と外れ値の両方の旨味を得ることができます。
- 散布図を書いて外れ値がないか確認する。
- 外れ値があった場合、外れ値とその他を分けて考える。
- 外れ値のないデータで相関分析を行い相関を確認し、外れ値は個別にデータを確認して外れ値になる原因について仮説を立てる。
6.まとめ
本記事では相関係数について、その概要や使用方法、使用時の注意点を紹介しました。
相関分析は手軽に行えてインパクトのある発見や説得材料を与えてくれるので非常に便利な手法です。しかし本記事でも紹介した通り、あくまで見れるのは「相関」までであることに注意する必要があります。因果関係まで言及したい場合は、より高度な手法を用いるか、論理によって因果関係の可能性を示唆するという方針が一般的です。
データの管理・活用でお困りの場合はデータビズラボへお問い合わせください。
データビズラボでは状況やニーズに合わせた様々なサポートをご提供いたします。
また、幣社では本記事の他、データサイエンスや統計に関する記事をいくつも紹介しています。興味がある方はぜひこちらからご一読ください。
『データ分析のためのPythonを学び始める時につまずかないための6つのステップ』
コメント