表 1 のデータに関して、次の統計量を算出し、データを要約せよ。

平均値、中央値、最頻値、範囲、分散、標準偏差、歪度、尖度

考え方と適用手法

データの集まりは、いくつかの数値に要約することができる。 このときに用いられるのが統計量である。 統計量とは、データをもとに計算された平均値などの数値のことで、 分布の中心位置を示す統計量、ばらつきを示す統計量、形を示す統計量などがある。

基本統計量

<分布の中心位置を示す指標>

  1. 平均値 (Excel関数:AVERAGE)

 $n$ 個のデータ $x_1,x_2,\dots x_n$ があるときに、 これらのデータの平均値は次のように表される。 一般に、平均値は $\bar{x}$ で表す。

$$ \bar{x}=\frac{1}{n}\left(x_1+x_2+\dots +x_n\right) $$

  1. 中央値 (Excel関数:MEDIAN)

 データを数値の小さい順(あるいは大きい順)に並べたときに、真ん中の順位にくるデータの値を中央値(メジアン)という。一般に、中央値は $M_e$ で表す。

  1. ''最頻値}\ \ (Excel関数:MODE)\\  最もたびたび現れる値を最頻値(モード)という。 基本的に度数分布表の形に要約されたデータの場合に意味を持ち、度数の最も大きい階級値を指す。生のデータに適用すると、データの個数が少なく範囲が広い場合など、すべてのデータの頻度が1となり意味をなさない。 一般に、最頻値は $M_o$ で表す。 \end{enumerate}

\begin{indention}{1zw} 左右対称のきれいな分布(正規分布)の場合には、 平均値、中央値、最頻値はそれぞれ同様な値をとることになるが、 非対称の場合にはそれぞれが特徴的な値を示すことになる。 \end{indention} \newpage

''<分布の広がりを示す指標>} \begin{enumerate} \setcounter{enumi}{3}

  1. ''範囲}\ \ (Excel関数:MAX, MIN)\\  既に度数分布表の作成時に利用した統計量である。 データの中の最大値と最小値の差が範囲である。

\[ 範囲R=最大値-最小値 \]

 範囲は、ばらつきの大きさを示す指標の1つであり、最も簡単に求めることができる。 ただし、データの数が10のときにも、100のときにも、 利用するデータは最大値と最小値の2つだけなので、 データの数が多いときには情報の損失が多くなってしまう。

  1. ''分散}\ \ (Excel関数:VAR.S)\\  $n$ 個のデータ $x_1,x_2,\dots,x_n$ があるときに、まず、 これらのデータの平均値 $\bar{x}$ を計算する。\\  次に、各データと平均値 $\bar{x}$ との差(''偏差}と呼ぶ)を求める。

\[ x_1-\bar{x},\ x_2-\bar{x},\ \dots,\ x_n-\bar{x} \]

 これら $n$ 個の偏差の値は1つ1つ違っていて、同じ値にはならないので、 偏差全体の大きさを考えることにする。このためには、 偏差の合計値を求めればよさそうだが、 偏差は平均値との差であるから平均値よりも大きなデータのときには $+$、 小さなデータのときには $-$ となり、合計すると $+-$ 相殺しあって、常に0になってしまう。

\[ \sum_{i=1}^n\left(x_i-\bar{x}\right)=0 \]

 これでは、ばらつきの尺度として使えないので、各偏差を2乗してから合計する。

\begin{eqnarray*} S |=| \left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2+\dots +\left(x_n-\bar{x}\right)^2 \\ |=| \sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \end{eqnarray*}

 こうして得られた値のことを''偏差平方和}という。 偏差平方和は、通常 $S$ で表す。\\  ところで、偏差平方和は合計値であるから、データの数が多くなると、 ばらつきの大きさに関係なく大きくなっていく。 これでは、データの数が違うグループのばらつきを比較するのに不便である。 そこで、偏差平方和をデータの数に応じて調節した、次のような指標 $V$ を考える。

\[ V=\frac{S}{n-1} \]

 このような $V$ を分散という。 \newpage

  1. ''標準偏差}\ \ (Excel関数:STDEV.S)\\  平均値の単位は、もとのデータの単位と同じである。 しかし、偏差平方和や分散の単位は、公式からもわかるように、 もとのデータの単位を2乗したものになる。 そこで、単位をもとのデータの単位にそろえるために、 分散の平方根をとった指標 $s$ を考える。

\[ s=\sqrt{V}=\sqrt{\frac{S}{n-1}} \]

 このような指標 $s$ を標準偏差という。 \end{enumerate}

''<分布の形を示す統計量>} \begin{enumerate} \setcounter{enumi}{6}

  1. ''歪度}\ \ (Excel関数:SKEW)\\  歪度は、分布の対称性を示す指標で、次のように表される。 歪度は通常 $b_1$、あるいは $\sqrt{b_1}$ で表す。

\[ b_1=\frac{n}{(n-1)(n-2)}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{s}\right)^3 \] \vskip-5mm \begin{eqnarray*} b_1=0 |\rightarrow | 左右対称 \\ b_1>0 |\rightarrow | 右に裾が伸びている \\ b_1<0 |\rightarrow | 左に裾が伸びている \end{eqnarray*}

\vspace{1zh} \begin{figure}[h] \begin{center} \includegraphics{skew.eps} \end{center} \caption{分布の対称性(歪度)}\label{waido-t} \end{figure} \newpage

  1. ''尖度}\ \ (Excel関数:KURT)\\  尖度は、分布の裾の長さ(頂上の尖り度合い)を示す指標で、 次のように表される。尖度は通常 $b_2$ で表す。

\[ b_2=\frac{n(n+1)}{(n-1)(n-2)(n-3)}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{s}\right)^4-3\frac{(n-1)^2}{(n-2)(n-3)} \] \vskip-5mm \begin{eqnarray*} b_2=0 |\rightarrow | 正規分布型 \\ b_2>0 |\rightarrow | 尖っている \\ b_2<0 |\rightarrow | 平坦である \end{eqnarray*} \end{enumerate}

\vspace{1zh} \begin{figure}[h] \begin{center} \includegraphics{kurt.eps} \end{center} \caption{分布の裾の長さ(尖度)}\label{send-t} \end{figure}

■データの要約}

ここで求めた統計量(平均値、中央値、最頻値、範囲、分散、標準偏差、歪度、尖度)と図\ref{histgram}のヒストグラムを見比べると、 各統計量がヒストグラムの形状(分布の特徴)をよく表していることが分かるだろう。


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS