統計的仮説検定とは?サンプルサイズの決め方も解説
2018.5.18
こんにちは。データサイエンスチーム tmtkです。
この記事では、統計的仮説検定をするときのサンプルサイズの決め方の入門的解説を行います。
この記事は、永田靖『サンプルサイズの決め方』を参考に書かれています。
統計的仮説検定の枠組み
最初に、統計的仮説検定について復習します。
まずは身近な例で説明します。いま、表と裏が等確率で出るとされているコインがあるとします。このコインを10回投げて、10回とも全部表が出たとしたら、コインの表が出る確率が裏が出る確率より高いと疑うのではないでしょうか。実際、表と裏が等確率で出るコインを10回投げて、10回連続で表が出る確率は
です。つまり、表裏が等確率で出るコインを投げて表が10回連続で出たとすると、0.1%程度の確率しかないことが起こっているということになります。この場合、非常に低確率なことが起こっているので、「このコインはおかしい」と判断することができそうです。統計的仮説検定はこのような判断を統計的に正しく行う枠組みです。
統計的仮説検定をより正確に説明します。ここでは、母分散が既知の正規分布について、母平均を両側検定する場合について説明します。現実には母分散が既知であることは考えづらいのですが、話が簡単になるため学習用によく持ち出される設定です。
いま、データが独立に正規分布にしたがっているとします。ここで、母分散は既知であるとします。統計的仮説検定では、帰無仮説(多くの場合、として、母平均として信じられてきたが母平均であることを否定したい値を設定する)が成り立っていると仮定し、有意水準を(通常はと)設定し、検定統計量
が上側点に対して
を満たしていれば、帰無仮説を棄却し、を結論づけます。これが統計的仮説検定の(母分散が既知の正規分布の母平均を両側検定する場合の)枠組みです。
(のイメージ)
以下、統計的仮説検定を単に仮説検定と呼びます。
また、サンプルの大きさをサンプルサイズと呼びます。上のコイン投げの例でいう、正規分布の母平均の仮説検定の例でいうがサンプルサイズです。
【事例集】AIや機械学習によるビッグデータ活用をしたい方にオススメ!
「AIによるキャスト評価システムの構築」「データ分析基盤の運用費用9割削減」など、AWSを利用したAI、機械学習の成功事例をご紹介します。
なぜサンプルサイズを決める必要があるか
サンプルサイズが大きくなればなるほど、推定量の精度は高くなることが多いです。たとえば、正規分布に独立にしたがうデータに対して、もとの正規分布の母平均の推定量として標本平均を考えます。このとき、推定量は正規分布に従うことが知られています。サンプルサイズが大きくなれば大きくなるほど、平均の推定量の母分散が小さくなっていき、推定量は真の値に近い値をとる確率が高くなっていきます。このような推定量を、一致推定量といいます。
サンプルサイズが大きくなれば、推定の精度はどんどん上がっていきます。精度は高ければ高いほどいいので、統計的仮説検定を行うサンプルサイズは大きければ大きいほどよいようにも思えます。
しかし、現実には仮説検定でつかうサンプルサイズは大きすぎないほうがよいといわれています。なぜでしょうか。
その答えは、仮説検定は帰無仮説が成り立つかどうかを判定するだけであり、母平均が帰無仮説での値からどれだけ離れているかを判定することはしないからです。標語的になってしまいますが、別のいいかたをすれば、サンプルサイズをいくらでも大きくできれば、どんな仮説検定でも棄却できるということもできます。以下で詳しく説明します。
帰無仮説の母平均と真の母平均が離れている場合
例として、母分散が既知の正規分布の母平均の両側検定について考えます。有意水準はとします。簡単にするため、既知である母分散がであり、帰無仮説の母平均がに従うとしましょう。つまり、考えている分布は帰無仮説のもとでは標準正規分布です。
ここで、真の母平均がとなっていたとします。つまり、真の分布はであったとします。この状態でサンプルサイズをとして仮説検定をおこなったとき、帰無仮説が棄却される確率(これを検出力といいます)はいくつでしょうか。
この設定のもとでは、検定統計量
は正規分布にしたがいます。帰無仮説が棄却されるのはのときですから、この条件のもとで帰無仮説が棄却される確率は、標準正規分布に従う確率変数の値がより大きいか、より小さい場合の確率に等しいです。後者の場合の確率は無視できるほど小さく、前者の場合の確率は、正規分布の数値表から約だとわかります。
したがって、まとめると、真の母平均と帰無仮説の母平均がぶんだけ離れていて、サンプルサイズがのとき、検出力の確率で帰無仮説を棄却できることがわかりました。
この場合はという高確率で帰無仮説を棄却でき、仮説検定が威力を発揮することができます。
帰無仮説の母平均と真の母平均が離れている場合
次に、前の例と同様にして、今度は真の分布がであった場合について考察しましょう。
前の例と同様の計算で、サンプルサイズがの場合には、統計検定量は正規分布に従います。したがって、帰無仮説が棄却される確率は、標準正規分布に従う確率変数の値がより大きいか、より小さい場合の確率に等しいです。これは約です。つまり、この場合には帰無仮説の母平均と真の母平均がほとんど等しいので、検出力が有意水準とほとんど同じになっています。帰無仮説から母平均がたったのだけ間違っていたからといって、帰無仮説が間違いだと判断したいことは少ないでしょうから、この場合に検出力がほとんどないことは望ましいことです。
しかし、サンプルサイズを莫大にして、とした場合にはどうなるでしょうか。
この場合には、統計検定量は正規分布にしたがいます。二つ前の計算と同様にして、この場合の検出力はとなります。
母平均がたったのずれているだけなのに、帰無仮説が高確率で否定されてしまうことになりました。サンプルサイズを大きくしすぎたために、仮説検定が微小すぎる差まで検出して帰無仮説を棄却してしまうという望ましくない状態になっています。
これまで見てきたように、サンプルサイズを大きくすれば大きくするほど、検出力は上がります。サンプルサイズをいくらでも大きくすれば検出力をいくらでも大きくすることができるため、帰無仮説で設定した母数が非常に小さい誤差だけでもずれていれば、サンプルサイズを大きくすることによって帰無仮説を棄却することができます。世の中で出てくる値にはたいてい小さくとも誤差があるため、標語的にいえば、どんな仮説検定でもサンプルサイズを大きくすれば帰無仮説を棄却できるということができます。
これの現象を防ぐためには、サンプルサイズを調節して、帰無仮説と真の値で意味のある差があれば帰無仮説を棄却できる程度にサンプルサイズを大きく、意味のない微小な差なら帰無仮説が棄却されない程度にサンプルサイズを小さく設定する必要があります。これがサンプルサイズを決めることが必要な理由です。
AWSのビッグデータ活用・機械学習導入支援サービス
サンプルサイズの決め方(母分散が既知の正規分布の母平均を仮説検定する場合)
それでは、母分散が既知の正規分布の母平均を仮説検定する場合について、サンプルサイズの決め方を説明します。とはいっても、上でやった計算とほとんど同じです。上の計算ではサンプルサイズから検出力を計算しましたが、サンプルサイズを設計するときには逆に検出力からサンプルサイズを計算します。
これまでと同様に、母分散が既知の正規分布の母平均を仮説検定する場合について考えます。
これまでと同じように、既知の母分散はで、帰無仮説は母平均とします。いま、検出力の設定として、真の母平均がだったときに検出力で帰無仮説を棄却したいとします。このとき必要なサンプルサイズを計算します。求めるサンプルサイズをとおきます。
帰無仮説が棄却されるのは統計検定量
が
を満たすときでした。ここで、は有意水準です。
この条件を満たす確率が検出力となるようにサンプルサイズを設定すればいいわけです。統計検定量を変形すると、
となります。ただし、
とおきました。するとは標準正規分布にしたがい、統計検定量は正規分布にしたがいます。
したがって、帰無仮説が棄却される確率は
となります。これが検出力と等しくなるが求めるサンプルサイズです。サンプルサイズは以上のようにして計算します。
具体例
具体的な数値を使って、計算方法を実際に確認してみましょう。有意水準を、母分散を、帰無仮説をとします。母平均がのとき、検出力で検出できるような仮説検定をしたいとします。このとき必要なサンプルサイズを計算しましょう。
ここで成り立つべき式は
ですから、今回の値では
が成り立つようにサンプルサイズを定めます。
が成り立つと仮定して計算を進めると、これが検出力と等しくなるためには
が成り立てばよいことがわかります。これを計算すると
となるので、サンプルサイズは
とすればよいことがわかります。また、上でおいた仮定の近似が成り立っていることも確認できます。
上のほうでサンプルサイズをとすると検出力がとなることを見ましたが、検出力がでいいならば、サンプルサイズはだけでよいことがわかりました。
以上がサンプルサイズの計算の仕方です。
まとめ
この記事では、サンプルサイズを決める必要性についての説明と、母分散が既知の正規分布の母平均を仮説検定する場合のサンプルサイズの決め方について解説しました。
母分散が既知の正規分布の母平均を仮説検定する状況は現実にはあまりありませんが、別の状況でもここで説明した考え方を応用することができます。たとえば、A/Bテストのサンプルサイズの決定に応用することが考えられます。ただし、ユーザの多いウェブサービス上でのA/Bテストの場合は、非常に大きいサンプルサイズを取得することができることが多いため、統計的仮説検定やサンプルサイズの決定などの手続きを踏む必要性が低い場合があります。
AWSのビッグデータ活用・機械学習導入支援サービス
参考
- 倉田博史、星野崇宏『入門統計解析』
統計学の入門書です。仮説検定の枠組みなど基本的なことがわからない場合は参照してください。 - 永田靖『サンプルサイズの決め方』
サンプルサイズの決め方について書かれた本です。この記事はこの本を参考に書かれました。
これからビッグデータ活用を始める方にオススメ!
AIブームなどにより、先端ビジネスの主要テーマのひとつとなっている「ビッグデータ」。事例を交えながら、ビッグデータの解析や活用方法について解説します。
テックブログ新着情報のほか、AWSやGoogle Cloudに関するお役立ち情報を配信中!
Follow @twitterデータ分析と機械学習とソフトウェア開発をしています。 アルゴリズムとデータ構造が好きです。
Recommends
こちらもおすすめ
-
Pythonで実装する画像認識アルゴリズム SLIC 入門
2018.2.13
-
R で集計していたら Inf に遭遇した話
2018.3.8
-
機械学習の受託案件を通じて気づいた5つのこと
2019.3.8
Special Topics
注目記事はこちら
データ分析入門
これから始めるBigQuery基礎知識
2024.02.28
AWSの料金が 10 %割引になる!
『AWSの請求代行リセールサービス』
2024.07.16