次の表 6 は、ポスター印刷に関わる3項目(インク濃度、粘度、熱処理時間)と、できあがったポスターの品質の関係を調べたものである。
1 | 15.7 | 32.0 | 22.4 | 良 |
2 | 16.8 | 34.4 | 21.1 | 良 |
3 | 13.6 | 35.0 | 11.4 | 良 |
4 | 19.9 | 35.7 | 15.8 | 良 |
5 | 12.7 | 33.4 | 17.3 | 良 |
6 | 19.4 | 35.8 | 17.5 | 良 |
7 | 17.9 | 34.4 | 19.2 | 良 |
8 | 16.8 | 33.8 | 23.4 | 良 |
9 | 19.8 | 33.0 | 22.5 | 良 |
10 | 19.2 | 32.4 | 23.9 | 良 |
11 | 14.0 | 31.9 | 14.6 | 不良 |
12 | 15.2 | 31.3 | 19.9 | 不良 |
13 | 14.9 | 35.4 | 11.9 | 不良 |
14 | 17.4 | 31.4 | 23.9 | 不良 |
15 | 12.4 | 32.1 | 16.8 | 不良 |
16 | 13.3 | 34.2 | 13.0 | 不良 |
17 | 12.7 | 33.4 | 14.0 | 不良 |
18 | 13.9 | 31.5 | 17.4 | 不良 |
19 | 14.5 | 32.6 | 15.1 | 不良 |
|20 | 15.1 | 32.2 | 14.3 | 不良 |
層別散布図により、2 つの変数による良・不良の判別が、どの程度可能であるかを検討し、良・不良を判別するための式を求めよ。
ある観測対象が所属するグループを予測するための手法のひとつに判別分析がある。グループの予測とは、たとえば、良品グループと不良品グループ、購入者と非購入者といったように、2 つ以上に分類されるグループの中で、どのグループに属するかを予測することである。
また、変数が複数($\geqq 3$)ある場合には、層別散布図を用いて、判別の可能性を視覚的に検討することができる。
変数が 2 つ(以下)の場合には、散布図により観測データ間の関係を視覚的に把握することができる。しかし、変数が 3 つ以上になると、3 次元、4 次元のグラフとなり、もはや視覚的に把握することは困難となる。そこで、任意の 2 変数をとり出し、複数の散布図から把握することを考える。このような散布図を層別散布図という。
#ref(): File not found: "poster.png" at page "データが属するグループを判別する"
$k$ 個($k\geqq 2$)のグループが存在していて、どのグループに属するかわかっている観測対象について、何らかのデータが収集されているとする。このときに、どのグループに属するか不明な対象が得られた場合、すでに収集されているデータにもとづいて、その対象が属するグループを予測するのが判別分析である。ここでは、グループが 2 つの場合についてのみ考える。
判別分析にはいくつかの方法があるが、ここでは回帰分析の応用として、重回帰分析を用いた方法をとりあげる。すなわち、変数 $x_1 \sim x_3$ と $y$ の関係を超平面の式(変数が 2 つなら 2 次元上の関係で直線の式、3 次元なら平面の式)
$$ y=b_0+b_1x_1+b_2x_2+b_3x_3 $$
で表すことを考える。判別分析ではこの式を判別式とよぶ。
しかし、ここで問題になるのが目的変数 $y$ である。$y$ は良・不良といった質的変量であるため、このままでは利用できない。そこで、良ならば $y=1$、不良ならば $y=-1$ というように量的変量に変換して利用する。
Excel では [ツール]-[分析ツール]-[回帰分析] を利用すれば、上式の $b_0\sim b_3$ を簡単に求めることができる。また、判別式の係数や予測値は Excel 関数 : LINEST および TREND で求めることができる。