散布図
2つの変数の関係を表す。相関図ともいう。
関係の仕方により、右上がり、右下がり、U字型曲線相関、逆U字型曲線相関、無相関などの関係性を見ることができる。
共分散
定義
- 平均からの偏差の積「\((x_1-\bar x)(y_1-\bar y)\)」の平均
数式
- \({s_x}_y=\frac{(x_1-\bar x)(y_1-\bar y)+(x_2-\bar x)(y_2-\bar y)+・・・+(x_n-\bar x)(y_n-\bar y)}{n}\)
特徴
- 値の符号によって、散布図が右上がりか右下がりかがわかる。
- 絶対値が大きいほど、右上がり、又は右下がりの傾向の強いことがわかる。
欠点
- 単位に依存して値が変化する。つまり単位を変えただけで値が大きく変化してしまう。
相関係数
ピアソンの積率相関係数
数式
- \({r_x}_y (又は r) = \frac{{s_x}_y}{s_xs_y}\)
- \({s_x}_y\):共分散
- \(s_x\):\(x\)の分散
- \(s_y\):\(y\)の分散
値の評価
0 < 殆ど相関なし < 0.2 < 弱い相関あり < 0.4 < 中程度の相関あり < 0.7 < 強い相関あり
相関係数の解釈注意点
1.外れ値の存在
- 外れ値が一つあるだけで、相関係数が大きく変わる場合がある。
- 相関係数算出時は、散布図を描いて外れ値の存在を確認する必要がある。
2.疑似相関
- 3つ目の変数の存在により、本来相関関係のない変数に高い相関係数が現れる場合がある。
- 疑似相関を見破る決定的な方法はないので、常にその可能性を考慮する必要がある。
3.層別データ
- データの中に複数の集団が含まれている場合、全体として意味のない相関係数が算出される場合がある。
- 常にどのような集団の相関係数を、算出しようとしているのか考慮する必要がある。
4.選抜効果
- 本来の集団の一部で相関係数を算出すると本来の相関係数よりも小さい数値が出る場合がある。
- 本来の集団の存在を考慮する必要がある。
5.因果関係と相関関係
- 因果関係・・・原因と結果の関係。Aが起きたからBが起きた。「A→B」の関係
- 相関関係・・・因果関係のような方向性はない。どちらが原因で、どちらが結果とは言えない関係。例)身長と靴のサイズ
- 相関関係がある場合に、恣意的に原因と結果を当てはめるようなことは慎むべきである。
相関と連関の違い
- 相関・・・量的変数どうしの関係 散布図 相関係数
- 連関・・・質的変数どうしの関係 クロス集計表 連関係数
連関係数
- クラメールの連関係数
- ファイ係数
コメント