カイ二乗検定とは
カイ二乗検定は、集計結果に出た差が偶然なのか、それとも何か意味(原因)があるために生じた差なのかを確認するための統計的手法です。具体的には、観測されたデータと期待されるデータとの間に統計的に有意な差があるかどうかを判断します。
どのような分布か?
カイ二乗検定は、カイ二乗分布という特定の分布を利用します。カイ二乗分布は、「理論値からの食い違いの大きさ」に関する確率を表したものです。
カイ二乗分布とは
カイ二乗分布は、確率分布の一つで、正規分布に従う独立な確率変数の二乗和が従う分布を指します。具体的には、複数の正規分布に従う変数をそれぞれ二乗して、その合計がどのような分布になるかを示したものです。 イメージしてみよう * あなたがサイコロを振ることを考えてみてください。サイコロの目は1から6までの数字がランダムに出ますよね。 * 今度は、サイコロを振って出た目の数字を二乗してみましょう。例えば、3が出たら9になります。 * さらに、複数のサイコロを振って、それぞれの目を二乗した結果を合計します。 このような操作を繰り返すと、合計の結果がある特定の形になることがわかります。これがカイ二乗分布です。
カイ二乗分布の特徴
- カイ二乗分布は常に0以上の値を取ります。なぜなら、正規分布の二乗和なので、マイナスの値は出ません。
- カイ二乗分布の形は「自由度」というパラメータによって決まります。自由度は、二乗和を取る正規分布の変数の数に関連しています。自由度が大きくなると、分布のピークは右に移動し、形も広がってきます。
ボンフェローニ補正とは
統計的な検定を行う際、複数の検定を同時に行うことがあります。しかし、複数の検定を行うと、誤って「有意な結果」と判断する確率(αエラー)が増えてしまうことが知られています。ボンフェローニ補正は、このαエラーの増大を防ぐための方法の一つです。
補正方法
ボンフェローニ補正の方法は簡単です。通常の有意水準(α、普通は0.05)を、実施する検定の数(N)で割ります。具体的には、α/Nという計算を行います。 例: * 有意水準が0.05で、2つの検定を行いたい場合、それぞれの検定の有意水準は0.05 ÷ 2 = 0.025となります。 * したがって、検定の結果、P値(確率値)が0.025より小さければ、その結果は有意と判断します。
カイ二乗検定のメリットとデメリット
メリット:
- 計算が簡単で、直感的に理解しやすい。
デメリット:
- 検出力が低くなる可能性がある。これは、実際には有意な差があるのに、それを見逃してしまうリスクが増えることを意味します。ボンフェローニ補正は「保守的な」方法とも言われ、他の補正方法に比べて有意な結果を得るのが難しくなることがある。
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ] 価格:3,080円 |