データの特徴を見る
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
次の&aname(t01){表 1}; は、全国の 1 住宅当たりの延べ面積(2018年、単位:$m^2$)に関するデータである。
CENTER:表 1 1住宅当たりの延べ面積&aname(t01);
#br
|CENTER:|RIGHT:|CENTER:|RIGHT:|CENTER:|RIGHT:|c
|~北海道| 91 |~石川 | 127 |~岡山 | 106 |
|~青森 | 122 |~福井 | 138 |~広島 | 94 |
|~岩手 | 120 |~山梨 | 112 |~山口 | 102 |
|~宮城 | 97 |~長野 | 122 |~徳島 | 111 |
|~秋田 | 132 |~岐阜 | 122 |~香川 | 109 |
|~山形 | 135 |~静岡 | 103 |~愛媛 | 100 |
|~福島 | 113 |~愛知 | 95 |~高知 | 95 |
|~茨城 | 108 |~三重 | 110 |~福岡 | 85 |
|~栃木 | 107 |~滋賀 | 115 |~佐賀 | 112 |
|~群馬 | 107 |~京都 | 87 |~長崎 | 97 |
|~埼玉 | 87 |~大阪 | 77 |~熊本 | 101 |
|~千葉 | 90 |~兵庫 | 93 |~大分 | 100 |
|~東京 | 66 |~奈良 | 111 |~宮崎 | 94 |
|~神奈川| 78 |~和歌山| 106 |~鹿児島| 89 |
|~新潟 | 129 |~鳥取 | 122 |~沖縄 | 76 |
|~富山 | 145 |~島根 | 123 |~ | |
#br
*考え方と適用手法 [#tca82031]
データの個数が多いときには、まず、''データの要約''を行う。データの要約とはデータをまとめることである。データをまとめ、視覚的に特徴をみる方法に、度数分布表、ヒストグラムがある。
*度数分布表(Excel関数:MAX, MIN, FREQENCY) [#m3cb15ad]
度数分布表とは、データの分布範囲を適当な間隔で分割し(階級化)、その分割された範囲に含まれる観測データの個数をもとにした表である。
+観測データの中から最大値 (''max'') と最小値 (''min'') を探し、範囲 $R=\max-\min$ を求める。
+階級の幅および階級の数 $n$ を定め、範囲 $R$ を $n$ 等分する。$n$ の値はデータの個数 $N$ にしたがって、$7\sim 15$ 程度とするのが一般的である。
+境界値と階級値を決める。境界値とは 1 つ 1 つの級の境目の値、階級値とは境界と境界の中間すなわち各級の中央の値である。
+各階級 $a_{i-1}\sim a_i$ に属するデータの個数 $f_i$(度数)を関数:''FREQENCY'' を用いて求め、相対度数、累積度数、累積相対度数も求める。
なお、関数:''FREQENCY'' は、各階級の境界値の上限値(第 1 階級であれば $a_0$ 以上~ $a_1$ ''未満'')の $a_1$ を引数に指定するが、関数としては $a_1$ ''以下''として度数を求める仕様となっているので注意が必要である。また、複数の値(各階級の度数)を返す配列関数なので、他の関数と違い少々特殊な扱いが必要となる。
CENTER:表 2 度数分布表&aname(t02);
|CENTER: |CENTER: |CENTER: |CENTER: |CENTER: |CENTER: |c
|境界値 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |h
|~$a_0\sim a_1$ | $\frac{a_0+a_1}{2}$ | $f_1$ | $\frac{f_1}{N}$ | $f_1$ | $\frac{f_1}{N}$ |
|~$a_1\sim a_2$ | $\frac{a_1+a_2}{2}$ | $f_2$ | $\frac{f_2}{N}$ | $f_1+f_2$ | $\frac{f_1+f_2}{N}$ |
|~$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
|~$a_{n-1}\sim a_n$ | $\frac{a_{n-1}+a_n}{2}$ | $f_n$ | $\frac{f_n}{N}$ | $f_1+f_2+\cdots +f_n$ | $\frac{f_1+f_2+\cdots +f_n}{N}$ |
*ヒストグラム [#h26db45e]
ヒストグラムとは、度数分布表をグラフ表現したもので、横軸に階級、縦軸に度数をとった棒グラフである。ヒストグラムから、データの分布の状態を読みとることができる。また、&aname(f01){図 1}; 中には、合わせて累積相対度数を折れ線グラフ(右側第 2 軸)で示している。
&aname(f01);
#ref(histgram.png,center)
CENTER:図 1 敷地面積のヒストグラム
RIGHT:[[[授業計画に戻る>データサイエンスII#c1bb5116]]]
終了行:
次の&aname(t01){表 1}; は、全国の 1 住宅当たりの延べ面積(2018年、単位:$m^2$)に関するデータである。
CENTER:表 1 1住宅当たりの延べ面積&aname(t01);
#br
|CENTER:|RIGHT:|CENTER:|RIGHT:|CENTER:|RIGHT:|c
|~北海道| 91 |~石川 | 127 |~岡山 | 106 |
|~青森 | 122 |~福井 | 138 |~広島 | 94 |
|~岩手 | 120 |~山梨 | 112 |~山口 | 102 |
|~宮城 | 97 |~長野 | 122 |~徳島 | 111 |
|~秋田 | 132 |~岐阜 | 122 |~香川 | 109 |
|~山形 | 135 |~静岡 | 103 |~愛媛 | 100 |
|~福島 | 113 |~愛知 | 95 |~高知 | 95 |
|~茨城 | 108 |~三重 | 110 |~福岡 | 85 |
|~栃木 | 107 |~滋賀 | 115 |~佐賀 | 112 |
|~群馬 | 107 |~京都 | 87 |~長崎 | 97 |
|~埼玉 | 87 |~大阪 | 77 |~熊本 | 101 |
|~千葉 | 90 |~兵庫 | 93 |~大分 | 100 |
|~東京 | 66 |~奈良 | 111 |~宮崎 | 94 |
|~神奈川| 78 |~和歌山| 106 |~鹿児島| 89 |
|~新潟 | 129 |~鳥取 | 122 |~沖縄 | 76 |
|~富山 | 145 |~島根 | 123 |~ | |
#br
*考え方と適用手法 [#tca82031]
データの個数が多いときには、まず、''データの要約''を行う。データの要約とはデータをまとめることである。データをまとめ、視覚的に特徴をみる方法に、度数分布表、ヒストグラムがある。
*度数分布表(Excel関数:MAX, MIN, FREQENCY) [#m3cb15ad]
度数分布表とは、データの分布範囲を適当な間隔で分割し(階級化)、その分割された範囲に含まれる観測データの個数をもとにした表である。
+観測データの中から最大値 (''max'') と最小値 (''min'') を探し、範囲 $R=\max-\min$ を求める。
+階級の幅および階級の数 $n$ を定め、範囲 $R$ を $n$ 等分する。$n$ の値はデータの個数 $N$ にしたがって、$7\sim 15$ 程度とするのが一般的である。
+境界値と階級値を決める。境界値とは 1 つ 1 つの級の境目の値、階級値とは境界と境界の中間すなわち各級の中央の値である。
+各階級 $a_{i-1}\sim a_i$ に属するデータの個数 $f_i$(度数)を関数:''FREQENCY'' を用いて求め、相対度数、累積度数、累積相対度数も求める。
なお、関数:''FREQENCY'' は、各階級の境界値の上限値(第 1 階級であれば $a_0$ 以上~ $a_1$ ''未満'')の $a_1$ を引数に指定するが、関数としては $a_1$ ''以下''として度数を求める仕様となっているので注意が必要である。また、複数の値(各階級の度数)を返す配列関数なので、他の関数と違い少々特殊な扱いが必要となる。
CENTER:表 2 度数分布表&aname(t02);
|CENTER: |CENTER: |CENTER: |CENTER: |CENTER: |CENTER: |c
|境界値 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |h
|~$a_0\sim a_1$ | $\frac{a_0+a_1}{2}$ | $f_1$ | $\frac{f_1}{N}$ | $f_1$ | $\frac{f_1}{N}$ |
|~$a_1\sim a_2$ | $\frac{a_1+a_2}{2}$ | $f_2$ | $\frac{f_2}{N}$ | $f_1+f_2$ | $\frac{f_1+f_2}{N}$ |
|~$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
|~$a_{n-1}\sim a_n$ | $\frac{a_{n-1}+a_n}{2}$ | $f_n$ | $\frac{f_n}{N}$ | $f_1+f_2+\cdots +f_n$ | $\frac{f_1+f_2+\cdots +f_n}{N}$ |
*ヒストグラム [#h26db45e]
ヒストグラムとは、度数分布表をグラフ表現したもので、横軸に階級、縦軸に度数をとった棒グラフである。ヒストグラムから、データの分布の状態を読みとることができる。また、&aname(f01){図 1}; 中には、合わせて累積相対度数を折れ線グラフ(右側第 2 軸)で示している。
&aname(f01);
#ref(histgram.png,center)
CENTER:図 1 敷地面積のヒストグラム
RIGHT:[[[授業計画に戻る>データサイエンスII#c1bb5116]]]
ページ名: