※作成中
既に表 3 にあげた20歳男性の身長と体重との間には、正の相関があることが分かった。それでは、身長から体重を予測するにはどのようにすればよいか。
2 つの変数($x$ と $y$、ここでは身長と体重)の間に関係があることが分かったならば、さらに分析を進めて、具体的にどんな関係があるのかを知りたいという場合がある。このようなとき、2 つの変数 $x$ と $y$ の関係式を求めるために、回帰分析と呼ばれる手法を適用する。
対になったデータ $x_i$ と $y_i\ (i=1\sim n)$ から、$y=\alpha +\beta x$ なる 1 次式(直線の式)を求めることを考える。この例では、図 4 の点の分布を最も代表するような右上がりの直線を想像することができる。
さて、ここで求めたいのは、$\alpha$(直線の $y$ 切片)と $\beta$(直線の傾き)である。回帰分析では、$\alpha$ のことを定数項、$\beta$ のことを回帰係数と呼ぶ。また、回帰分析によって求めた 1 次式のことを回帰直線と呼び、$y$ を従属変数(目的変数)、$x$ を独立変数(説明変数)と呼ぶ。
回帰直線は以下のようにして求めることができる。
\begin{eqnarray} y &=& \alpha +\beta x \hspace{3em}\cdots 回帰直線\\ \beta &=& \frac{S(xy)}{S(x)} \\ \alpha &=& \bar{y}-\beta \bar{x} \end{eqnarray}
また、$\alpha,\ \beta$ は関数:INTERCEPT と SLOPE でも求めることができ、回帰式による予測値は関数:TREND でも求めることができる。
従属変数 $y$ の変動のうち、回帰によって(独立変数 $x$ によって)説明できる割合を決定係数(寄与率)といい、通常、$R^2$ という記号で表す。決定係数は、$0\leqq R^2\leqq 1$ の値をとり、1 に近いほど直線の当てはめがうまくいっていることを示している。したがって、回帰式の適合度の指標として利用される。
決定係数は以下のようにして求めることができる。
\begin{eqnarray} R^2 &=& \frac{S(xy)^2}{S(x)S(y)} \end{eqnarray}
上式からも分かるように、決定係数 $R^2$ は先に見た相関係数 $r$ の 2 乗($R^2=r^2$)である。
#ref(): File not found: "regression.png" at page "n03"
ここでは、上式にもとづく表計算から、回帰係数($\alpha,\ \beta$)および決定係数($R^2$)を求める。また、図 5 には Excel グラフの [近似曲線の追加] 機能を用いて、回帰直線と回帰係数(回帰直線の式)を求める。