次の表 6 は、ポスター印刷に関わる3項目(インク濃度、粘度、熱処理時間)と、できあがったポスターの品質の関係を調べたものである。

表 6 ポスター印刷に関わる3項目と品質の関係 |No. | インク濃度($x_1$) | 粘度($x_2$) | 熱処理時間($x_3$) | 品質($y$) |
115.732.022.4
216.834.421.1
313.635.011.4
419.935.715.8
512.733.417.3
619.435.817.5
717.934.419.2
816.833.823.4
919.833.022.5
1019.232.423.9
1114.031.914.6不良
1215.231.319.9不良
1314.935.411.9不良
1417.431.423.9不良
1512.432.116.8不良
1613.334.213.0不良
1712.733.414.0不良
1813.931.517.4不良
1914.532.615.1不良

|20 | 15.1 | 32.2 | 14.3 | 不良 |

 

層別散布図により、2 つの変数による良・不良の判別が、どの程度可能であるかを検討し、良・不良を判別するための式を求めよ。

考え方と適用手法

ある観測対象が所属するグループを予測するための手法のひとつに判別分析がある。グループの予測とは、たとえば、良品グループと不良品グループ、購入者と非購入者といったように、2 つ以上に分類されるグループの中で、どのグループに属するかを予測することである。

また、変数が複数($\geqq 3$)ある場合には、層別散布図を用いて、判別の可能性を視覚的に検討することができる。

層別散布図

変数が 2 つ(以下)の場合には、散布図により観測データ間の関係を視覚的に把握することができる。しかし、変数が 3 つ以上になると、3 次元、4 次元のグラフとなり、もはや視覚的に把握することは困難となる。そこで、任意の 2 変数をとり出し、複数の散布図から把握することを考える。このような散布図を層別散布図という。

#ref(): File not found: "poster.png" at page "データが属するグループを判別する"

図 8 インク濃度 $x_1$ と粘度 $x_2$ の層別散布図

判別分析

$k$ 個($k\geqq 2$)のグループが存在していて、どのグループに属するかわかっている観測対象について、何らかのデータが収集されているとする。このときに、どのグループに属するか不明な対象が得られた場合、すでに収集されているデータにもとづいて、その対象が属するグループを予測するのが判別分析である。ここでは、グループが 2 つの場合についてのみ考える。

判別分析にはいくつかの方法があるが、ここでは回帰分析の応用として、重回帰分析を用いた方法をとりあげる。すなわち、変数 $x_1 \sim x_3$ と $y$ の関係を超平面の式(変数が 2 つなら 2 次元上の関係で直線の式、3 次元なら平面の式)

$$ y=b_0+b_1x_1+b_2x_2+b_3x_3 $$

で表すことを考える。判別分析ではこの式を判別式とよぶ。

しかし、ここで問題になるのが目的変数 $y$ である。$y$ は良・不良といった質的変量であるため、このままでは利用できない。そこで、良ならば $y=1$、不良ならば $y=-1$ というように量的変量に変換して利用する。

Excel では [ツール]-[分析ツール]-[回帰分析] を利用すれば、上式の $b_0\sim b_3$ を簡単に求めることができる。また、判別式の係数や予測値は Excel 関数 : LINEST および TREND で求めることができる。


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS