次の表 1 は、全国の1住宅当たりの敷地面積(1993年、単位:$m^2$)に関するデータである。
北海道 | 283 | 石川 | 288 | 岡山 | 258 |
青森 | 339 | 福井 | 321 | 広島 | 215 |
岩手 | 350 | 山梨 | 331 | 山口 | 267 |
宮城 | 348 | 長野 | 335 | 徳島 | 282 |
秋田 | 386 | 岐阜 | 283 | 香川 | 278 |
山形 | 390 | 静岡 | 261 | 愛媛 | 225 |
福島 | 360 | 愛知 | 253 | 高知 | 183 |
茨城 | 423 | 三重 | 286 | 福岡 | 267 |
栃木 | 393 | 滋賀 | 284 | 佐賀 | 311 |
群馬 | 350 | 京都 | 173 | 長崎 | 233 |
埼玉 | 239 | 大阪 | 132 | 熊本 | 322 |
千葉 | 272 | 兵庫 | 199 | 大分 | 282 |
東京 | 150 | 奈良 | 235 | 宮崎 | 315 |
神奈川 | 189 | 和歌山 | 212 | 鹿児島 | 290 |
新潟 | 340 | 鳥取 | 310 | 沖縄 | 273 |
富山 | 399 | 島根 | 285 |
データの個数が多いときには、まず、データの要約を行う。 データの要約とはデータをまとめることである。 データをまとめ、視覚的に特徴をみる方法に、度数分布表、ヒストグラムがある。
度数分布表とは、データの分布範囲を適当な間隔で分割し(階級化)、 その分割された範囲に含まれる観測データの個数をもとにした表である。
なお、関数:FREQENCYは、各階級の境界値の上限値(第1階級であれば $a_0$ 以上~ $a_1$ 未満)の $a_1$ を引数に指定するが、関数としては $a_1$ 以下として度数を求める仕様となっているので注意が必要である。また、複数の値(各階級の度数)を返す配列関数なので、他の関数と違い少々特殊な扱いが必要となる。
境界値 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
$a_0\sim a_1$ | $\frac{a_0+a_1}{2}$ | $f_1$ | $\frac{f_1}{N}$ | $f_1$ | $\frac{f_1}{N}$ |
$a_1\sim a_2$ | $\frac{a_1+a_2}{2}$ | $f_2$ | $\frac{f_2}{N}$ | $f_1+f_2$ | $\frac{f_1+f_2}{N}$ |
$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
$a_{n-1}\sim a_n$ | $\frac{a_{n-1}+a_n}{2}$ | $f_n$ | $\frac{f_n}{N}$ | $f_1+f_2+\cdots +f_n$ | $\frac{f_1+f_2+\cdots +f_n}{N}$ |
ヒストグラムとは、度数分布表をグラフ表現したもので、横軸に階級、縦軸に度数をとった棒グラフである。ヒストグラムから、データの分布の状態を読みとることができる。 また、図 1 中には、合わせて累積相対度数を折れ線グラフ(右側第2軸)で示している。