①統計的仮説検定の基礎 | 統計・確率の基本を理解したい！

仮説検定の基本的考え方
仮説検定の手順概略

仮説検定の基本的考え方

まず対象に「差はない」という仮説(\(H_0\))と「差がある」という仮説(\(H_1\))を立てる。
差について計算を行う。
計算結果が「差がない」という仮説(\(H_0\))の下ではありえない結果となった。（矛盾発生）
「差がない」という仮説(\(H_0\))は間違っていた、と判断して棄却する。
その結果「差がある」という仮説(\(H_1\))を採択する。

このような考え方を行う根拠となっているのは、「仮説検定の非対称性」である。また考え方の筋道の中で「2種類の過誤」を犯す可能性を考慮している。

仮説検定の手順概略

仮説設定（帰無仮説、対立仮説）（片側検定、両側検定）
標本統計量の選択（検定統計量の決定）
仮説の正否の判断基準となる確率の決定（有意水準）
標本統計量の実現値（具体的値）の計算
仮説の正否の判断

仮説設定

帰無仮説と対立仮説

帰無仮説・・・否定されること、つまり棄却されることを前提に設定される仮説。記号は、\(H_0\)。本来主張したいこととは逆の命題を設定する。
対立仮説・・・「差がない」という帰無仮説に対して、「差がある」という命題を設定した仮説。記号は\(H_1\)。本来はこちらが証明したい仮説である。対立仮説設定時には、両側検定と片側検定のどちらを利用するか決定する必要がある。

統計的仮説検定の仮説において「帰無仮説」と「対立仮説」は代替的な関係である。つまりこのどちらかを、必ず採択しなければならない。なので「帰無仮説」を棄却した以上、「対立仮説」を採択するしかない。

両側検定と片側検定

同じ有意水準5％の検定でも、

両側検定の場合・・・標本分布の右すその2.5％と左すその2.5％が棄却域になる。
片側検定の場合・・・標本分布の右すそ（又は左すそ）の5％が棄却域になる。

どちらの検定を使うかは、あらかじめ決定しなければならない。検定統計量Zの実現値を見てから決定するのは、反則である。

検定統計量

差についての計算を行うために「差」を求めるための標本統計量を決定しなければならない。この標本統計量のことを検定検定量という。

代表的な検定統計量には、\(t,\chi^2,F\)などがある。

仮説検定の非対称性

1.仮説と計算結果が矛盾している場合

仮説は間違いと結論できる。

2.仮説と計算結果が矛盾していない場合

仮説は正しいと結論づけることはできない。何故なら今回だけたまたま矛盾していなかっただけで、別のデータを使って計算した場合は矛盾が発生する可能性を否定できない。

このように、矛盾している場合と矛盾していない場合の論理展開が対称的ではないことから、非対称性と呼ばれる。

この論理の特徴の内、「1.仮説と計算結果が矛盾している場合⇒仮説は間違いと結論できる。」というロジックを使用して仮説検定を組み立てている。

仮説と計算結果が矛盾している、という状況は、「差がない」つまり「等しい」という仮説を否定するデータが一つでもあれば、発生させることができる。

有意水準

有意水準・・・帰無仮説を棄却し対立仮説を採択するかどうかを決める時、どの程度低い確率が算出されたら帰無仮説を棄却するか、その基準となるのが有意水準である。

棄却域・・・帰無分布におけるすそ野部分で、その確率が\(\alpha\)となる領域のこと。標準正規分布の場合は、棄却域の面積がイコール\(\alpha\)となる。
採択域・・・帰無分布における中心部分で、その確率が\(1-\alpha\)となる帰無仮説を採択することになる領域のこと。
帰無分布・・・帰無仮説が正しいと仮定したときの標本分布のこと。
標本分布・・・標本から計算される標本統計量である検定統計量の分布が、ここでの標本分布となる。
臨界値・・・棄却域と採択域の境界となるZの実現値のこと。

２種類の過誤

第１種の過誤・・・\(H_0\)が正しいのに、\(H_0\)を棄却する間違い

第１種の過誤を犯す確率は、有意水準\(\alpha\)と等しくなる。つまり第１種の過誤を犯す確率は、有意水準\(\alpha\)を設定することにより、コントロールできる。
第１種の過誤を犯すことは、薬や工業製品において消費者に不利な結果を招く。

第２種の過誤・・・\(H_0\)が間違っているのに、\(H_0\)を棄却しない間違い。

第２種の過誤を犯す確率\(\beta\)は、直接コントロールすることはできない。但し標本数ｎを変化させることによりコントロールすることは可能である。
第２種の過誤を犯すことは、薬や工業製品において生産者に不利な結果を招く。

通常、生産者側が主張したい仮説が対立仮説、それを否定する仮説が帰無仮説として設定されるので、第１種の過誤を犯す方が、第２種の過誤を犯すよりも（消費者側にとって）重大な結果を招くことになる。そこで第１種の過誤を犯す確率を高々\(\alpha\)にコントロールすることによって第２種の過誤を犯す確率をできるだけ小さくする。

帰無仮説と対立仮説を逆にすると、有意水準\(\alpha\)を意図的に生産者側に有利に設定しコントロールすることにより、消費者側に不利な結果を招くことが考えられる。

仮説の正否の判断

有意差・・・標本から算出した検定統計量の実現値が棄却域に入った場合、結果には「意味のある差がある」（＝誤差とは言えない差がある）という意味で有意差がある、という。棄却域に入らない場合は、結果には「統計的に意味のある差がない」（＝結果は誤差の範囲である）という意味で有意差がない、という。

※「有意差がない」とは、決して「等しい」ということではない。ここで主張できるのは、あくまで今回の結果は誤差の範囲である、ということだけである。

有意差がある場合の結果記述の仕方