統計的仮説検定とは？サンプルサイズの決め方も解説

tmtk

2018.5.18

Topics

統計的仮説検定の枠組み
なぜサンプルサイズを決める必要があるか
サンプルサイズの決め方（母分散が既知の正規分布の母平均を仮説検定する場合）
まとめ
参考

こんにちは。データサイエンスチーム tmtkです。
この記事では、統計的仮説検定をするときのサンプルサイズの決め方の入門的解説を行います。
この記事は、永田靖『サンプルサイズの決め方』を参考に書かれています。

統計的仮説検定の枠組み

最初に、統計的仮説検定について復習します。
まずは身近な例で説明します。いま、表と裏が等確率で出るとされているコインがあるとします。このコインを10回投げて、10回とも全部表が出たとしたら、コインの表が出る確率が裏が出る確率より高いと疑うのではないでしょうか。実際、表と裏が等確率で出るコインを10回投げて、10回連続で表が出る確率は

${}_{10} \mathrm{C}_{10} (\frac{1}{2})^{10} (\frac{1}{2})^0 \approx 0.001$

です。つまり、表裏が等確率で出るコインを投げて表が10回連続で出たとすると、0.1%程度の確率しかないことが起こっているということになります。この場合、非常に低確率なことが起こっているので、「このコインはおかしい」と判断することができそうです。統計的仮説検定はこのような判断を統計的に正しく行う枠組みです。
統計的仮説検定をより正確に説明します。ここでは、母分散が既知の正規分布について、母平均を両側検定する場合について説明します。現実には母分散が既知であることは考えづらいのですが、話が簡単になるため学習用によく持ち出される設定です。
いま、データ $x_1, x_2, \ldots, x_n$ が独立に正規分布 $N(\mu, \sigma_0^2)$ にしたがっているとします。ここで、母分散 $\sigma_0^2$ は既知であるとします。統計的仮説検定では、帰無仮説 $H_0 \colon \mu = \mu_0$ （多くの場合、 $\mu_0$ として、母平均として信じられてきたが母平均であることを否定したい値を設定する）が成り立っていると仮定し、有意水準 $\alpha$ を（通常は $\alpha=0.05$ と）設定し、検定統計量

$u_0 = \frac{\overline{x} - \mu_0}{\sqrt{\sigma_0^2/n}}$

が上側 $\alpha/2$ 点 $z_{\alpha/2}$ に対して

$|u_0| \geq z_{\alpha/2}$

を満たしていれば、帰無仮説 $H_0$ を棄却し、 $\mu \neq \mu_0$ を結論づけます。これが統計的仮説検定の（母分散が既知の正規分布の母平均を両側検定する場合の）枠組みです。

（ $z_{\alpha/2}$ のイメージ）

以下、統計的仮説検定を単に仮説検定と呼びます。
また、サンプルの大きさをサンプルサイズと呼びます。上のコイン投げの例でいう $10$ 、正規分布の母平均の仮説検定の例でいう $n$ がサンプルサイズです。

なぜサンプルサイズを決める必要があるか

サンプルサイズが大きくなればなるほど、推定量の精度は高くなることが多いです。たとえば、正規分布 $N(\mu, \sigma^2)$ に独立にしたがうデータ $x_1, x_2, \ldots, x_n$ に対して、もとの正規分布の母平均 $\mu$ の推定量として標本平均 $\overline{x} = \frac{1}{n}\sum_{i=1}^n x_i$ を考えます。このとき、推定量 $\overline{x}$ は正規分布 $N(\mu, \frac{\sigma^2}{n})$ に従うことが知られています。サンプルサイズ $n$ が大きくなれば大きくなるほど、平均 $\mu$ の推定量 $\overline{x}$ の母分散が小さくなっていき、推定量 $\overline{x}$ は真の値 $\mu$ に近い値をとる確率が高くなっていきます。このような推定量を、一致推定量といいます。
サンプルサイズが大きくなれば、推定の精度はどんどん上がっていきます。精度は高ければ高いほどいいので、統計的仮説検定を行うサンプルサイズは大きければ大きいほどよいようにも思えます。
しかし、現実には仮説検定でつかうサンプルサイズは大きすぎないほうがよいといわれています。なぜでしょうか。
その答えは、仮説検定は帰無仮説 $H_0 \colon \mu = \mu_0$ が成り立つかどうかを判定するだけであり、母平均 $\mu$ が帰無仮説での値 $\mu_0$ からどれだけ離れているかを判定することはしないからです。標語的になってしまいますが、別のいいかたをすれば、サンプルサイズをいくらでも大きくできれば、どんな仮説検定でも棄却できるということもできます。以下で詳しく説明します。

帰無仮説の母平均と真の母平均が $\frac{1}{2}\sigma_0$ 離れている場合

例として、母分散が既知の正規分布の母平均の両側検定について考えます。有意水準 $\alpha$ は $\alpha =0.05$ とします。簡単にするため、既知である母分散が $\sigma_0^2 = 1^2$ であり、帰無仮説の母平均が $\mu_0 = 0$ に従うとしましょう。つまり、考えている分布は帰無仮説のもとでは標準正規分布 $N(0, 1^2)$ です。
ここで、真の母平均 $\mu$ が $\mu = \frac{1}{2}\sigma_0 = 0.5$ となっていたとします。つまり、真の分布は $N(0.5, 1^2)$ であったとします。この状態でサンプルサイズを $n=100$ として仮説検定をおこなったとき、帰無仮説が棄却される確率 $1-\beta$ （これを検出力といいます）はいくつでしょうか。
この設定のもとでは、検定統計量

$\displaystyle\begin{aligned} u_0 &= \frac{\overline{x} - \mu_0}{\sqrt{\sigma_0^2/n}} \\ &= \frac{\overline{x} - \mu}{\sqrt{\sigma_0^2/n}} + \frac{\mu - \mu_0}{\sqrt{\sigma_0^2/n}} \\ &= \frac{\overline{x} - \mu}{\sqrt{\sigma_0^2/n}} + 5 \end{aligned}$

は正規分布 $N(5, 1^2)$ にしたがいます。帰無仮説が棄却されるのは $|u_0| > z_{\alpha/2} = 1.96$ のときですから、この条件のもとで帰無仮説が棄却される確率は、標準正規分布に従う確率変数の値が $-3.04$ より大きいか、 $-6.96$ より小さい場合の確率に等しいです。後者の場合の確率は無視できるほど小さく、前者の場合の確率は、正規分布の数値表から約 $99.88\%$ だとわかります。
したがって、まとめると、真の母平均と帰無仮説の母平均が $\frac{1}{2}\sigma_0$ ぶんだけ離れていて、サンプルサイズが $n=100$ のとき、検出力 $1-\beta=99.88\%$ の確率で帰無仮説を棄却できることがわかりました。
この場合は $99.88\%$ という高確率で帰無仮説を棄却でき、仮説検定が威力を発揮することができます。

帰無仮説の母平均と真の母平均が $\frac{1}{10000}\sigma_0$ 離れている場合

次に、前の例と同様にして、今度は真の分布が $N(0.0001, 1^2)$ であった場合について考察しましょう。
前の例と同様の計算で、サンプルサイズが $n=100$ の場合には、統計検定量 $u_0$ は正規分布 $N(0.001, 1^2)$ に従います。したがって、帰無仮説が棄却される確率は、標準正規分布に従う確率変数の値が $1.959$ より大きいか、 $-1.961$ より小さい場合の確率に等しいです。これは約 $5\%$ です。つまり、この場合には帰無仮説の母平均と真の母平均がほとんど等しいので、検出力 $1-\beta \approx 0.05$ が有意水準 $\alpha = 0.05$ とほとんど同じになっています。帰無仮説 $\mu_0 = 0$ から母平均 $\mu$ がたったの $0.0001\sigma_0$ だけ間違っていたからといって、帰無仮説 $\mu_0 = 0$ が間違いだと判断したいことは少ないでしょうから、この場合に検出力がほとんどないことは望ましいことです。
しかし、サンプルサイズを莫大にして、 $n = 25\times 10^8 = 2500000000$ とした場合にはどうなるでしょうか。
この場合には、統計検定量 $u_0$ は正規分布 $N(5, 1^2)$ にしたがいます。二つ前の計算と同様にして、この場合の検出力は $99.88\%$ となります。
母平均がたったの $0.0001\sigma_0$ ずれているだけなのに、帰無仮説 $H_0\colon \mu = \mu_0$ が高確率で否定されてしまうことになりました。サンプルサイズを大きくしすぎたために、仮説検定が微小すぎる差まで検出して帰無仮説を棄却してしまうという望ましくない状態になっています。
これまで見てきたように、サンプルサイズを大きくすれば大きくするほど、検出力は上がります。サンプルサイズをいくらでも大きくすれば検出力をいくらでも大きくすることができるため、帰無仮説で設定した母数が非常に小さい誤差 $0.00\cdots 001$ だけでもずれていれば、サンプルサイズを大きくすることによって帰無仮説を棄却することができます。世の中で出てくる値にはたいてい小さくとも誤差があるため、標語的にいえば、どんな仮説検定でもサンプルサイズを大きくすれば帰無仮説を棄却できるということができます。
これの現象を防ぐためには、サンプルサイズを調節して、帰無仮説と真の値で意味のある差があれば帰無仮説を棄却できる程度にサンプルサイズを大きく、意味のない微小な差なら帰無仮説が棄却されない程度にサンプルサイズを小さく設定する必要があります。これがサンプルサイズを決めることが必要な理由です。
AWSのビッグデータ活用・機械学習導入支援サービス

サンプルサイズの決め方（母分散が既知の正規分布の母平均を仮説検定する場合）

それでは、母分散が既知の正規分布の母平均を仮説検定する場合について、サンプルサイズの決め方を説明します。とはいっても、上でやった計算とほとんど同じです。上の計算ではサンプルサイズから検出力を計算しましたが、サンプルサイズを設計するときには逆に検出力からサンプルサイズを計算します。
これまでと同様に、母分散が既知の正規分布の母平均を仮説検定する場合について考えます。
これまでと同じように、既知の母分散は $\sigma_0^2$ で、帰無仮説 $H_0$ は母平均 $\mu = \mu_0$ とします。いま、検出力の設定として、真の母平均が $\mu$ だったときに検出力 $1-\beta$ で帰無仮説を棄却したいとします。このとき必要なサンプルサイズを計算します。求めるサンプルサイズを $n$ とおきます。
帰無仮説が棄却されるのは統計検定量

$\displaystyle u_0 = \frac{\overline{x} - \mu_0}{\sqrt{\sigma_0^2/n}}$

が

$|u_0| \geq z_{\alpha/2}$

を満たすときでした。ここで、 $\alpha$ は有意水準です。
この条件 $|u_0| \geq z_{\alpha/2}$ を満たす確率が検出力 $1-\beta$ となるようにサンプルサイズ $n$ を設定すればいいわけです。統計検定量 $u_0$ を変形すると、

$\displaystyle\begin{aligned} u_0 &= \frac{\overline{x} - \mu_0}{\sqrt{\sigma_0^2/n}} & \\ &= \frac{\overline{x} - \mu}{\sqrt{\sigma_0^2/n}} &+ \frac{\mu - \mu_0}{\sqrt{\sigma_0^2/n}} \\ &= u &+ \frac{\mu - \mu_0}{\sqrt{\sigma_0^2/n}}\end{aligned}$

となります。ただし、

$\displaystyle u = \frac{\overline{x} - \mu}{\sqrt{\sigma_0^2/n}}$

とおきました。すると $u$ は標準正規分布 $N(0, 1^2)$ にしたがい、統計検定量 $u_0$ は正規分布 $N(\frac{\mu - \mu_0}{\sqrt{\sigma_0^2/n}}, 1^2)$ にしたがいます。
したがって、帰無仮説が棄却される確率は

$\displaystyle\begin{aligned} P(|u_0| \geq z_{\alpha/2}) &= P(|u + \frac{\mu - \mu_0}{\sqrt{\sigma_0^2/n}}| \geq z_{\alpha/2}) \\ &= P(u \leq -z_{\alpha/2} - \sqrt{n}\frac{\mu-\mu_0}{\sigma_0}) + P(u \geq z_{\alpha/2} - \sqrt{n}\frac{\mu-\mu_0}{\sigma_0}) \end{aligned}$

となります。これが検出力 $1-\beta$ と等しくなる $n$ が求めるサンプルサイズ $n$ です。サンプルサイズは以上のようにして計算します。

具体例

具体的な数値を使って、計算方法を実際に確認してみましょう。有意水準を $\alpha=0.05$ 、母分散を $\sigma_0^2=1^2$ 、帰無仮説を $H_0\colon \mu = \mu_0 = 0$ とします。母平均が $\mu = 0.5$ のとき、検出力 $1-\beta = 0.8$ で検出できるような仮説検定をしたいとします。このとき必要なサンプルサイズ $n$ を計算しましょう。
ここで成り立つべき式は

$\displaystyle\begin{aligned} 1-\beta &= P(u \leq -z_{\alpha/2} - \sqrt{n}\frac{\mu-\mu_0}{\sigma_0}) + P(u \geq z_{\alpha/2} - \sqrt{n}\frac{\mu-\mu_0}{\sigma_0}) \end{aligned}$

ですから、今回の値では

$\displaystyle\begin{aligned} 0.8 &= P(u \leq -1.96 - 0.5\sqrt{n}) + P(u \geq 1.96 - 0.5\sqrt{n}) \end{aligned}$

が成り立つようにサンプルサイズ $n$ を定めます。

$P(u \leq -1.96 - 0.5\sqrt{n}) + P(u \geq 1.96 - 0.5\sqrt{n}) \approx P(u \geq 1.96 - 0.5\sqrt{n})$

が成り立つと仮定して計算を進めると、これが検出力 $1-\beta = 0.8$ と等しくなるためには

$1.96 - 0.5\sqrt{n} = z_{0.8} = -0.842$

が成り立てばよいことがわかります。これを計算すると

$n \approx 31.4$

となるので、サンプルサイズ $n$ は

$n=31$

とすればよいことがわかります。また、上でおいた仮定の近似が成り立っていることも確認できます。
上のほうでサンプルサイズを $n=100$ とすると検出力が $1-\beta = 99.88%$ となることを見ましたが、検出力が $1-\beta = 0.8$ でいいならば、サンプルサイズは $n=31$ だけでよいことがわかりました。
以上がサンプルサイズの計算の仕方です。

まとめ

この記事では、サンプルサイズを決める必要性についての説明と、母分散が既知の正規分布の母平均を仮説検定する場合のサンプルサイズの決め方について解説しました。
母分散が既知の正規分布の母平均を仮説検定する状況は現実にはあまりありませんが、別の状況でもここで説明した考え方を応用することができます。たとえば、A/Bテストのサンプルサイズの決定に応用することが考えられます。ただし、ユーザの多いウェブサービス上でのA/Bテストの場合は、非常に大きいサンプルサイズを取得することができることが多いため、統計的仮説検定やサンプルサイズの決定などの手続きを踏む必要性が低い場合があります。
AWSのビッグデータ活用・機械学習導入支援サービス