次の表 3 は、20歳男性の身長(cm)と体重(kg)に関するデータである。
No. | 身長 ($x$) | 体重 ($y$) |
1 | 155 | 44 |
2 | 176 | 64 |
3 | 181 | 71 |
4 | 165 | 58 |
5 | 172 | 61 |
6 | 168 | 58 |
7 | 165 | 58 |
8 | 172 | 56 |
9 | 168 | 55 |
10 | 174 | 65 |
11 | 176 | 69 |
12 | 168 | 66 |
13 | 177 | 66 |
14 | 166 | 52 |
15 | 163 | 50 |
このデータをグラフで表現し、身長と体重の関係を調べよ。
2 つの量的な変数($x$ と $y$、ここでは身長と体重)があるとき、この 2 つの変数の関係を視覚的にとらえて把握するためには、散布図と呼ばれるグラフを適用する。また、変数の相関を示す指標として相関係数がある。
散布図とは、2 つの変数のうち、一方を横軸にとり、もう一方を縦軸にとって、対応するデータを 1 点ずつプロットしたグラフである。散布図から、相関関係の有無を視覚的に確認することができる。
相関係数は、一般に $r$ で表され、$-1\leqq r\leqq 1$ の値をとる。相関係数の符号は、正のときには正の相関関係を、負のときには負の相関関係があることを示している。
相関関係の強さは、$|r|$ または $r^2$ で評価する。どちらも 1 に近いほど相関が強いことを意味する。相関関係が存在しないときには、相関係数は 0 に近い値を示す。
ここでは、次式にもとづく表計算から相関係数を求める。
\begin{eqnarray} r &=& \displaystyle{\frac{S(xy)}{\sqrt{S(x)S(y)}}} \\ S(x) &=& \sum_{i=1}^n\ (x_i-\bar{x})^2 \qquad\qquad\quad\cdots xの偏差平方和 \\ S(y) &=& \sum_{i=1}^n\ (y_i-\bar{y})^2 \qquad\qquad\quad\cdots yの偏差平方和 \\ S(xy)&=& \sum_{i=1}^n\ (x_i-\bar{x})(y_i-\bar{y}) \qquad\cdots xとyの偏差平方和 \end{eqnarray}