次の表 1 は、全国の 1 住宅当たりの延べ面積(2018年、単位:$m^2$)に関するデータである。
北海道 | 91 | 石川 | 127 | 岡山 | 106 |
青森 | 122 | 福井 | 138 | 広島 | 94 |
岩手 | 120 | 山梨 | 112 | 山口 | 102 |
宮城 | 97 | 長野 | 122 | 徳島 | 111 |
秋田 | 132 | 岐阜 | 122 | 香川 | 109 |
山形 | 135 | 静岡 | 103 | 愛媛 | 100 |
福島 | 113 | 愛知 | 95 | 高知 | 95 |
茨城 | 108 | 三重 | 110 | 福岡 | 85 |
栃木 | 107 | 滋賀 | 115 | 佐賀 | 112 |
群馬 | 107 | 京都 | 87 | 長崎 | 97 |
埼玉 | 87 | 大阪 | 77 | 熊本 | 101 |
千葉 | 90 | 兵庫 | 93 | 大分 | 100 |
東京 | 66 | 奈良 | 111 | 宮崎 | 94 |
神奈川 | 78 | 和歌山 | 106 | 鹿児島 | 89 |
新潟 | 129 | 鳥取 | 122 | 沖縄 | 76 |
富山 | 145 | 島根 | 123 |
データの個数が多いときには、まず、データの要約を行う。データの要約とはデータをまとめることである。データをまとめ、視覚的に特徴をみる方法に、度数分布表、ヒストグラムがある。
度数分布表とは、データの分布範囲を適当な間隔で分割し(階級化)、その分割された範囲に含まれる観測データの個数をもとにした表である。
なお、関数:FREQENCY は、各階級の境界値の上限値(第 1 階級であれば $a_0$ 以上~ $a_1$ 未満)の $a_1$ を引数に指定するが、関数としては $a_1$ 以下として度数を求める仕様となっているので注意が必要である。また、複数の値(各階級の度数)を返す配列関数なので、他の関数と違い少々特殊な扱いが必要となる。
境界値 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
$a_0\sim a_1$ | $\frac{a_0+a_1}{2}$ | $f_1$ | $\frac{f_1}{N}$ | $f_1$ | $\frac{f_1}{N}$ |
$a_1\sim a_2$ | $\frac{a_1+a_2}{2}$ | $f_2$ | $\frac{f_2}{N}$ | $f_1+f_2$ | $\frac{f_1+f_2}{N}$ |
$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
$a_{n-1}\sim a_n$ | $\frac{a_{n-1}+a_n}{2}$ | $f_n$ | $\frac{f_n}{N}$ | $f_1+f_2+\cdots +f_n$ | $\frac{f_1+f_2+\cdots +f_n}{N}$ |
ヒストグラムとは、度数分布表をグラフ表現したもので、横軸に階級、縦軸に度数をとった棒グラフである。ヒストグラムから、データの分布の状態を読みとることができる。また、図 1 中には、合わせて累積相対度数を折れ線グラフ(右側第 2 軸)で示している。