次の表 6 は、同品種のコーヒー豆の品質に関わる3項目(苦味、酸味、香り)と、その生産地の関係を調べたものである。
No. | 苦味($x_1$) | 酸味($x_2$) | 香り($x_3$) | 生産地($y$) |
1 | 3.7 | 3.0 | 3.4 | A |
2 | 3.4 | 3.1 | 2.6 | A |
3 | 3.9 | 3.5 | 3.9 | A |
4 | 3.4 | 2.6 | 3.8 | A |
5 | 3.5 | 3.7 | 3.5 | A |
6 | 4.4 | 3.6 | 3.2 | A |
7 | 4.9 | 3.1 | 3.5 | A |
8 | 4.6 | 3.4 | 2.9 | A |
9 | 3.0 | 3.9 | 3.9 | A |
10 | 4.4 | 3.8 | 3.9 | A |
11 | 2.9 | 2.8 | 3.9 | B |
12 | 3.3 | 1.7 | 3.8 | B |
13 | 3.2 | 2.2 | 4.4 | B |
14 | 3.9 | 1.4 | 3.3 | B |
15 | 2.6 | 1.0 | 4.7 | B |
16 | 3.7 | 2.7 | 4.6 | B |
17 | 3.7 | 2.9 | 4.6 | B |
18 | 3.5 | 1.2 | 4.2 | B |
19 | 3.7 | 1.4 | 3.5 | B |
20 | 3.2 | 1.0 | 3.7 | B |
層別散布図により、3 つの変数中の任意の 2 つの変数の組み合わせによる生産地の判別がどの程度可能であるかを検討し、生産地を判別するための式を求めよ。
ある観測対象が所属するグループを予測するための手法のひとつに判別分析がある。グループの予測とは、たとえば、良品グループと不良品グループ、購入者と非購入者といったように、2 つ以上に分類されるグループの中で、どのグループに属するかを予測することである。
また、変数が複数($\geqq 3$)ある場合には、層別散布図を用いて、判別の可能性を視覚的に検討することができる。
変数が 2 つ(以下)の場合には、散布図により観測データ間の関係を視覚的に把握することができる。しかし、変数が 3 つ以上になると、3 次元、4 次元のグラフとなり、もはや視覚的に把握することは困難となる。そこで、任意の 2 変数をとり出し、複数の散布図から把握することを考える。このような散布図を層別散布図という。
$k$ 個($k\geqq 2$)のグループが存在していて、どのグループに属するかわかっている観測対象について、何らかのデータが収集されているとする。このときに、どのグループに属するか不明な対象が得られた場合、すでに収集されているデータにもとづいて、その対象が属するグループを予測するのが判別分析である。ここでは、グループが 2 つの場合についてのみ考える。
判別分析にはいくつかの方法があるが、ここでは回帰分析の応用として、重回帰分析を用いた方法をとりあげる。すなわち、変数 $x_1 \sim x_3$ と $y$ の関係を超平面の式($y=0$ とおいたときの残りの変数が 2 つなら 2 次元(平面)を 2 つに分かつ直線の式、3 つなら 3 次元(空間)を 2 つに分かつ平面の式であり、ここでは 図8d の白丸と黒丸を分かつ平面の式となる)
$$ y=b_0+b_1x_1+b_2x_2+b_3x_3 $$
で表すことを考える。判別分析ではこの式を判別式とよぶ。
しかし、ここで問題になるのが従属変数 $y$ である。$y$ は生産地 A、B といった質的変量であるため、このままでは利用できない。そこで、生産地 A ならば $y=1$、B ならば $y=-1$ というように量的変量に変換して利用する。
Excel では [ツール]-[分析ツール]-[回帰分析] を利用すれば、上式の $b_0\sim b_3$ を簡単に求めることができる。また、判別式の係数や予測値は Excel 関数 : LINEST および TREND で求めることができる。