データの特徴を読む
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[表 1>データの特徴を見る#t01]] のデータに関して、次の統計量を算出し、データを要約せよ。
平均値、中央値、最頻値、範囲、分散、標準偏差、歪度、尖度
*考え方と適用手法 [#sc0c3fc7]
データの集まりは、いくつかの数値に要約することができる。このときに用いられるのが統計量である。統計量とは、データをもとに計算された平均値などの数値のことで、分布の中心位置を示す統計量、ばらつきを示す統計量、形を示す統計量などがある。
*基本統計量 [#iab1679d]
**分布の中心位置を示す指標 [#s12505bd]
***平均値 (Excel関数:AVERAGE) [#e869096e]
$n$ 個のデータ $x_1, x_2,\dots, x_n$ があるときに、これらのデータの平均値は次のように表される。一般に、平均値は $\bar{x}$ で表す。
$$
\bar{x}=\frac{1}{n}\left(x_1+x_2+\dots +x_n\right)
$$
***中央値 (Excel関数:MEDIAN) [#raf3185f]
データを数値の小さい順(あるいは大きい順)に並べたときに、真ん中の順位にくるデータの値を中央値(メディアン; median)という。一般に、中央値は $M_e$ で表す。また、変数 $x$ の中央値としては $\tilde{x}$ で表す。
-データが 17, 29, 13, 23, 11 の 5 個(奇数)のときは、それを昇順に並び替えた 11, 13, 17, 23, 29 の中央に位置する値 17 が中央値となる。
-データが 17, 29, 13, 23, 11, 19 の 6 個(偶数)のときは、それを昇順に並べ替えた 11, 13, 17, 19, 23, 29 の中央で並びあう 17 と 19 の平均値 18 が中央値となる。
***最頻値 (Excel関数:MODE) [#f105381e]
最も頻繁に現れる値を最頻値(モード; mode)という。基本的に度数分布表の形に要約されたデータの場合に意味を持ち、度数の最も大きい階級値を指す。生のデータに適用すると、データの個数が少なく範囲が広い場合など、すべてのデータの頻度が1となり意味をなさない。一般に、最頻値は $M_o$ で表す。また、変数 $x$ の最頻値としては $\hat{x}$ で表す。
左右対称のきれいな分布(正規分布)の場合には、平均値、中央値、最頻値はそれぞれ同様な値をとることになるが、非対称の場合にはそれぞれが特徴的な値を示すことになる。
**分布の広がりを示す指標 [#d1491557]
***範囲 (Excel関数:MAX, MIN) [#ob1197c9]
既に度数分布表の作成時に利用した統計量である。データの中の最大値と最小値の差が範囲である。
$$
範囲R=最大値-最小値
$$
範囲は、ばらつきの大きさを示す指標の 1 つであり、最も簡単に求めることができる。ただし、データの数が 10 のときにも、100 のときにも、利用するデータは最大値と最小値の 2 つだけなので、データの数が多いときには情報の損失が多いことに注意が必要である。
***分散 (Excel関数:VAR.S) [#q4318ca0]
$n$ 個のデータ $x_1, x_2, \dots, x_n$ があるとき、各データと平均値 $\bar{x}$ との差(''偏差''と呼ぶ)を求める。すなわち、各データが分布の中央である平均値からそれぞれどの程度離れているかを考える。
$$
x_1-\bar{x},\ x_2-\bar{x},\ \dots,\ x_n-\bar{x}
$$
次に、偏差全体の大きさを考えるために、偏差の合計値を求めたいのだが、偏差は平均値との差であるため平均値よりも大きなデータのときには $+$、小さなデータのときには $-$ となり、合計すると $+-$ 相殺しあって、常に 0 になる。
$$
\sum_{i=1}^n\left(x_i-\bar{x}\right)=0
$$
これでは、ばらつきの尺度として使えないので、各偏差を 2 乗してから合計する。
\begin{eqnarray}
S &=& \left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2+\dots +\left(x_n-\bar{x}\right)^2 \\
&=& \sum_{i=1}^n\left(x_i-\bar{x}\right)^2
\end{eqnarray}
こうして得られた値のことを''偏差平方和''という。偏差平方和は、通常 $S$ で表す。ところで、偏差平方和は合計値であるから、データの数が多くなると、ばらつきの大きさに関係なく大きくなっていく。これでは、データの数が違うグループのばらつきを比較するのに不便である。そこで、偏差平方和をデータの数に応じて調節した、次のような指標 $V$ を考える。
$$
V=\frac{S}{n-1}
$$
このような $V$ を分散という。ところで、分母の $n-1$ (自由度という)であるが、これが $n$ (単純に $n$ で割る;高校数学)であれば偏差平方和の平均値であり、各データが分布の中心である平均値から平均的にどの程度離れているか(偏差の2乗)を表すことになる。$n$ で割るか $n-1$ で割るかの使い分けは、分析対象としているデータが母集団そのもの(すべてのデータ)であれば $n$ で割り、標本(無限、あるいは有限であってもすべてのデータをそろえることが不可能なため、母集団から無作為に選んだ一部のデータ)であれば自由度(分散であれば $n-1$ であるが、複雑な統計量になると $n-2$ などと自由度が小さくなる)で割ることで、本来の分散により近い値(不偏推定量)が求められる。
***標準偏差 (Excel関数:STDEV.S) [#j6025536]
平均値の単位は、もとのデータの単位と同じである。しかし、偏差平方和や分散の単位は、公式からもわかるように、もとのデータの単位を2乗したものになる。そこで、単位をもとのデータの単位にそろえるために、分散の平方根をとった指標 $s$ を考える。
$$
s=\sqrt{V}=\sqrt{\frac{S}{n-1}}
$$
このような指標 $s$ を標準偏差という。
**分布の形を示す統計量 [#t7cf7b95]
***歪度 (Excel関数:SKEW) [#j0238068]
歪度は、分布の対称性を示す指標で、次のように表される。歪度は通常 $b_1$、あるいは $\sqrt{b_1}$ で表す。
$$
b_1=\frac{n}{(n-1)(n-2)}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{s}\right)^3
$$
\begin{eqnarray}
b_1=0 & \rightarrow & 左右対称 \\
b_1>0 & \rightarrow & 右に裾が伸びている \\
b_1<0 & \rightarrow & 左に裾が伸びている
\end{eqnarray}
&aname(f02);
#ref(skew.png,center)
CENTER:図 2 分布の対称性(歪度)
***尖度 (Excel関数:KURT) [#u732f623]
尖度は、分布の裾の長さ(頂上の尖り度合い)を示す指標で、次のように表される。尖度は通常 $b_2$ で表す。
$$
b_2=\frac{n(n+1)}{(n-1)(n-2)(n-3)}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{s}\right)^4-3\frac{(n-1)^2}{(n-2)(n-3)}
$$
\begin{eqnarray}
b_2=0 &\rightarrow & 正規分布型 \\
b_2>0 &\rightarrow & 尖っている \\
b_2<0 &\rightarrow & 平坦である
\end{eqnarray}
&aname(f03);
#ref(kurt.png,center)
CENTER:図 3 分布の裾の長さ(尖度)
*データの要約 [#a7dff701]
ここで求めた統計量(平均値、中央値、最頻値、範囲、分散、標準偏差、歪度、尖度)と[[図 1>データの特徴を見る#f01]] のヒストグラムを見比べると、各統計量がヒストグラムの形状(分布の特徴)をよく表していることが分かるだろう。
RIGHT:[[[授業計画に戻る>データサイエンスII#c1bb5116]]]
終了行:
[[表 1>データの特徴を見る#t01]] のデータに関して、次の統計量を算出し、データを要約せよ。
平均値、中央値、最頻値、範囲、分散、標準偏差、歪度、尖度
*考え方と適用手法 [#sc0c3fc7]
データの集まりは、いくつかの数値に要約することができる。このときに用いられるのが統計量である。統計量とは、データをもとに計算された平均値などの数値のことで、分布の中心位置を示す統計量、ばらつきを示す統計量、形を示す統計量などがある。
*基本統計量 [#iab1679d]
**分布の中心位置を示す指標 [#s12505bd]
***平均値 (Excel関数:AVERAGE) [#e869096e]
$n$ 個のデータ $x_1, x_2,\dots, x_n$ があるときに、これらのデータの平均値は次のように表される。一般に、平均値は $\bar{x}$ で表す。
$$
\bar{x}=\frac{1}{n}\left(x_1+x_2+\dots +x_n\right)
$$
***中央値 (Excel関数:MEDIAN) [#raf3185f]
データを数値の小さい順(あるいは大きい順)に並べたときに、真ん中の順位にくるデータの値を中央値(メディアン; median)という。一般に、中央値は $M_e$ で表す。また、変数 $x$ の中央値としては $\tilde{x}$ で表す。
-データが 17, 29, 13, 23, 11 の 5 個(奇数)のときは、それを昇順に並び替えた 11, 13, 17, 23, 29 の中央に位置する値 17 が中央値となる。
-データが 17, 29, 13, 23, 11, 19 の 6 個(偶数)のときは、それを昇順に並べ替えた 11, 13, 17, 19, 23, 29 の中央で並びあう 17 と 19 の平均値 18 が中央値となる。
***最頻値 (Excel関数:MODE) [#f105381e]
最も頻繁に現れる値を最頻値(モード; mode)という。基本的に度数分布表の形に要約されたデータの場合に意味を持ち、度数の最も大きい階級値を指す。生のデータに適用すると、データの個数が少なく範囲が広い場合など、すべてのデータの頻度が1となり意味をなさない。一般に、最頻値は $M_o$ で表す。また、変数 $x$ の最頻値としては $\hat{x}$ で表す。
左右対称のきれいな分布(正規分布)の場合には、平均値、中央値、最頻値はそれぞれ同様な値をとることになるが、非対称の場合にはそれぞれが特徴的な値を示すことになる。
**分布の広がりを示す指標 [#d1491557]
***範囲 (Excel関数:MAX, MIN) [#ob1197c9]
既に度数分布表の作成時に利用した統計量である。データの中の最大値と最小値の差が範囲である。
$$
範囲R=最大値-最小値
$$
範囲は、ばらつきの大きさを示す指標の 1 つであり、最も簡単に求めることができる。ただし、データの数が 10 のときにも、100 のときにも、利用するデータは最大値と最小値の 2 つだけなので、データの数が多いときには情報の損失が多いことに注意が必要である。
***分散 (Excel関数:VAR.S) [#q4318ca0]
$n$ 個のデータ $x_1, x_2, \dots, x_n$ があるとき、各データと平均値 $\bar{x}$ との差(''偏差''と呼ぶ)を求める。すなわち、各データが分布の中央である平均値からそれぞれどの程度離れているかを考える。
$$
x_1-\bar{x},\ x_2-\bar{x},\ \dots,\ x_n-\bar{x}
$$
次に、偏差全体の大きさを考えるために、偏差の合計値を求めたいのだが、偏差は平均値との差であるため平均値よりも大きなデータのときには $+$、小さなデータのときには $-$ となり、合計すると $+-$ 相殺しあって、常に 0 になる。
$$
\sum_{i=1}^n\left(x_i-\bar{x}\right)=0
$$
これでは、ばらつきの尺度として使えないので、各偏差を 2 乗してから合計する。
\begin{eqnarray}
S &=& \left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2+\dots +\left(x_n-\bar{x}\right)^2 \\
&=& \sum_{i=1}^n\left(x_i-\bar{x}\right)^2
\end{eqnarray}
こうして得られた値のことを''偏差平方和''という。偏差平方和は、通常 $S$ で表す。ところで、偏差平方和は合計値であるから、データの数が多くなると、ばらつきの大きさに関係なく大きくなっていく。これでは、データの数が違うグループのばらつきを比較するのに不便である。そこで、偏差平方和をデータの数に応じて調節した、次のような指標 $V$ を考える。
$$
V=\frac{S}{n-1}
$$
このような $V$ を分散という。ところで、分母の $n-1$ (自由度という)であるが、これが $n$ (単純に $n$ で割る;高校数学)であれば偏差平方和の平均値であり、各データが分布の中心である平均値から平均的にどの程度離れているか(偏差の2乗)を表すことになる。$n$ で割るか $n-1$ で割るかの使い分けは、分析対象としているデータが母集団そのもの(すべてのデータ)であれば $n$ で割り、標本(無限、あるいは有限であってもすべてのデータをそろえることが不可能なため、母集団から無作為に選んだ一部のデータ)であれば自由度(分散であれば $n-1$ であるが、複雑な統計量になると $n-2$ などと自由度が小さくなる)で割ることで、本来の分散により近い値(不偏推定量)が求められる。
***標準偏差 (Excel関数:STDEV.S) [#j6025536]
平均値の単位は、もとのデータの単位と同じである。しかし、偏差平方和や分散の単位は、公式からもわかるように、もとのデータの単位を2乗したものになる。そこで、単位をもとのデータの単位にそろえるために、分散の平方根をとった指標 $s$ を考える。
$$
s=\sqrt{V}=\sqrt{\frac{S}{n-1}}
$$
このような指標 $s$ を標準偏差という。
**分布の形を示す統計量 [#t7cf7b95]
***歪度 (Excel関数:SKEW) [#j0238068]
歪度は、分布の対称性を示す指標で、次のように表される。歪度は通常 $b_1$、あるいは $\sqrt{b_1}$ で表す。
$$
b_1=\frac{n}{(n-1)(n-2)}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{s}\right)^3
$$
\begin{eqnarray}
b_1=0 & \rightarrow & 左右対称 \\
b_1>0 & \rightarrow & 右に裾が伸びている \\
b_1<0 & \rightarrow & 左に裾が伸びている
\end{eqnarray}
&aname(f02);
#ref(skew.png,center)
CENTER:図 2 分布の対称性(歪度)
***尖度 (Excel関数:KURT) [#u732f623]
尖度は、分布の裾の長さ(頂上の尖り度合い)を示す指標で、次のように表される。尖度は通常 $b_2$ で表す。
$$
b_2=\frac{n(n+1)}{(n-1)(n-2)(n-3)}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{s}\right)^4-3\frac{(n-1)^2}{(n-2)(n-3)}
$$
\begin{eqnarray}
b_2=0 &\rightarrow & 正規分布型 \\
b_2>0 &\rightarrow & 尖っている \\
b_2<0 &\rightarrow & 平坦である
\end{eqnarray}
&aname(f03);
#ref(kurt.png,center)
CENTER:図 3 分布の裾の長さ(尖度)
*データの要約 [#a7dff701]
ここで求めた統計量(平均値、中央値、最頻値、範囲、分散、標準偏差、歪度、尖度)と[[図 1>データの特徴を見る#f01]] のヒストグラムを見比べると、各統計量がヒストグラムの形状(分布の特徴)をよく表していることが分かるだろう。
RIGHT:[[[授業計画に戻る>データサイエンスII#c1bb5116]]]
ページ名: