既に表 3 にあげた新生児体重と胎盤重量との間には、正の相関があることが分かった。それでは、新生児体重から胎盤重量を予測するにはどのようにすればよいか。
2 つの変数($x$ と $y$、ここでは新生児体重と胎盤重量)の間に関係があることが分かったならば、さらに分析を進めて、具体的にどんな関係があるのかを知りたいという場合がある。このようなとき、2 つの変数 $x$ と $y$ の関係式を求めるために、回帰分析と呼ばれる手法を適用する。
対になったデータ $x_i$ と $y_i\ (i=1\sim n)$ から、$y=\alpha +\beta x$ なる 1 次式(直線の式)を求めることを考える。この例では、図 4 の点の分布を最も代表するような右上がりの直線を想像することができる。
さて、ここで求めたいのは、$\alpha$(直線の $y$ 切片)と $\beta$(直線の傾き)である。回帰分析では、$\alpha$ のことを定数項、$\beta$ のことを回帰係数と呼ぶ。また、回帰分析によって求めた 1 次式のことを回帰直線と呼び、$y$ を目的変数(従属変数)、$x$ を説明変数(独立変数)と呼ぶ。
回帰直線は以下のようにして求めることができる。
\begin{eqnarray} y &=& \alpha +\beta x \hspace{3em}\cdots 回帰直線\\ \beta &=& \frac{S(xy)}{S(x)} \\ \alpha &=& \bar{y}-\beta \bar{x} \end{eqnarray}
また、$\alpha,\ \beta$ は関数:INTERCEPT と SLOPE でも求めることができ、回帰式による予測値は関数:TREND でも求めることができる。
目的変数 $y$ の変動のうち、回帰によって(説明変数 $x$ によって)説明できる割合を決定係数(寄与率)といい、通常、$R^2$ という記号で表す。決定係数は、$0\leqq R^2\leqq 1$ の値をとり、1 に近いほど直線の当てはめがうまくいっていることを示している。したがって、回帰式の適合度の指標として利用される。
決定係数は以下のようにして求めることができる。
\begin{eqnarray} R^2 &=& \frac{S(xy)^2}{S(x)S(y)} \end{eqnarray}
上式からも分かるように、決定係数 $R^2$ は先に見た相関係数 $r$ の 2 乗($R^2=r^2$)である。
ここでは、上式にもとづく表計算から、回帰係数($\alpha,\ \beta$)および決定係数($R^2$)を求める。また、図 5 には Excel グラフの [近似曲線の追加] 機能を用いて、回帰直線と回帰係数(回帰直線の式)を求める。