なぜ「片側検定」はあまり使われないの?
両側検定との違いからわかりやすく解説
統計を学び始めたばかりの方にとって、「仮説検定」は最初の難関かもしれません。そして、その中でも「片側検定」と「両側検定」という言葉が出てきて、「片側検定ってあまり使わないって聞くけど、なんで?」と疑問に思う方もいるのではないでしょうか。
この記事では、統計初心者の方向けに、片側検定がなぜあまり行われないのかを、両側検定との違いからわかりやすく解説します。
1. 推測統計学における仮説検定の概要
まず、仮説検定が何のために行われるのか、その概要を簡単に説明します。
私たちは、何かを知りたいとき、すべてのデータを調べることは難しいことがほとんどです。例えば、日本の成人男性の平均身長を知りたいと思っても、すべての成人男性の身長を測るのは現実的ではありません。
そこで、一部のデータ(これを「標本」と呼びます)を調べて、そこから全体のデータ(これを「母集団」と呼びます)について推測しようとします。これが「推測統計学」の考え方です。
「仮説検定」は、この推測統計学の重要な手法の一つで、「ある仮説が正しいかどうかを統計的に判断する」ために使われます。
例えば、「新しい薬は、既存の薬よりも効果があるのか?」という疑問があったとします。このとき、以下のような「仮説」を立てて、その仮説が正しいかどうかをデータに基づいて判断するわけです。
- 帰無仮説($H_0$): 新しい薬と既存の薬に効果の差はない。
- 対立仮説($H_1$): 新しい薬は、既存の薬よりも効果がある。(あるいは、効果に差がある)
私たちは、この帰無仮説が「どれくらいありそうか?」を統計的に計算し、もし「かなりありえなさそうだ」と判断できれば、帰無仮説を棄却し、対立仮説を採択するという流れになります。
2. 両側検定と片側検定:それぞれの概要と違い
仮説検定を行う際、対立仮説の立て方によって「両側検定」と「片側検定」の2種類があります。
2-1. 両側検定(Two-tailed test)
「両側検定」は、差があるかどうか、あるいは関係があるかどうかを知りたい場合に用いられます。つまり、どちらの方向に差があるかは問わず、とにかく「違いがあること」を検出したいときに使います。
例:新しい薬と既存の薬で、効果に「差があるか」どうかを調べたい。
- 帰無仮説($H_0$):新しい薬と既存の薬に効果の差はない。($\mu_1 = \mu_2$)
- 対立仮説($H_1$):新しい薬と既存の薬に効果の差がある。($\mu_1 \neq \mu_2$)
この場合、新しい薬の効果が既存の薬よりも「優れていても」、あるいは「劣っていても」、どちらの方向でも差があれば対立仮説を採択します。グラフで考えると、分布の両端に棄却域が設定されます。
2-2. 片側検定(One-tailed test)
「片側検定」は、特定の方向に差があるかどうかを知りたい場合に用いられます。つまり、「AがBよりも優れている(あるいは劣っている)」という、方向性のある仮説を検証したいときに使います。
例:新しい薬が、既存の薬よりも効果が「優れているか」どうかを調べたい。
- 帰無仮説($H_0$):新しい薬の効果は、既存の薬の効果以下である。($\mu_1 \le \mu_2$)
- 対立仮説($H_1$):新しい薬の効果は、既存の薬の効果よりも優れている。($\mu_1 > \mu_2$)
この場合、新しい薬の効果が既存の薬よりも「優れている」場合にのみ対立仮説を採択します。グラフで考えると、分布の一方の端にのみ棄却域が設定されます。
3. 通常は両側検定を行う理由
さて、本題です。なぜ、通常は両側検定が用いられることが多いのでしょうか?
それは、より公平で、予期せぬ結果も見落とさないためです。
片側検定は、対立仮説が特定の方向に限定されているため、その方向で有意な差が出やすいという特徴があります。しかし、これは「都合の良い結果だけを見つけやすい」ことの裏返しでもあります。
もし、あなたが新しい薬の効果を検証していて、「効果が優れているか」という片側検定を行ったとします。そして、期待に反して実は「効果が劣っていた」場合、片側検定ではその事実を検出できません。それは、あなたが立てた対立仮説の範囲外の出来事だからです。
研究やビジネスにおいて、私たちは「自分が期待する結果」だけでなく、「予期せぬ結果」も含めて、真実を明らかにしたいと考えるはずです。期待と逆の結果が出たとしても、それは重要な知見となり得ます。
両側検定であれば、「差があるかどうか」を幅広く検証するため、期待する方向だけでなく、逆の方向への差も検出できます。これにより、より客観的で包括的な結論を得ることができます。
4. 対立仮説としては、優れていることを暗に思っているのに、片側検定は行わない理由
「新しいAという方法が、従来のBという方法より優れているはずだ!」というように、研究者は心の中で「優れていること」を期待していることがよくあります。そうであれば、片側検定で「AがBより優れている」という対立仮説を立てれば良いではないか、と思われるかもしれません。
しかし、それでも片側検定を行わないのは、以下のような理由からです。
- 科学的な客観性の確保: 科学的な研究では、研究者の「思い込み」や「期待」によって結果が歪められることを避けなければなりません。片側検定は、結果を特定の方向に誘導する可能性があるため、その客観性が疑われることがあります。
- 予期せぬ負の影響の検出: たとえ「優れている」と期待していても、実際には「劣っている」あるいは「望ましくない影響がある」という結果が出る可能性も十分にあります。片側検定では、そうした負の側面を見落としてしまうリスクがあります。例えば、新しい治療法が期待された効果はなかったものの、実は副作用が重篤だった場合、両側検定であればその「差」を検出できた可能性があります。
- 結果の信頼性・説得力: 多くの科学コミュニティや査読付きジャーナルでは、原則として両側検定が推奨されています。片側検定を用いた場合、「都合の良い結果だけを選んだのではないか」という疑念を持たれる可能性があり、結果の信頼性や説得力が低下する恐れがあります。
私たちは、自分が期待する結果を裏付けるためだけに検定を行うのではなく、「真実を探究する」という姿勢が重要です。そのためには、多角的にデータを評価できる両側検定が適しているのです。
5. 片側検定が行われる場面例
それでは、片側検定は全く使われないのかというと、そうではありません。限定的な状況ではありますが、片側検定が適切であると判断される場面も存在します。その代表例は、非劣性試験と呼ばれるものです。
非劣性試験(Non-inferiority trial)
非劣性試験は、新しい治療法や薬が、既存の標準治療法や薬に比べて「劣っていない」ことを証明したい場合に行われる臨床試験です。「優れている必要はないが、少なくとも遜色ない効果であること」を示すのが目的です。
例えば、新しい薬Aが既存薬Bと同等の効果を持つと仮定します。このとき、薬Aが薬Bより効果が「劣っていない」ことを示せれば、例えば「副作用が少ない」「服用回数が少ない」といった別のメリットを考慮して、新しい薬Aが選択肢として導入される可能性があります。
この場合、以下のような仮説を立てます。
- 帰無仮説($H_0$): 新しい薬Aは、既存薬Bに対して設定された許容範囲を超えて劣っている。
- 対立仮説($H_1$): 新しい薬Aは、既存薬Bに対して設定された許容範囲内で劣っていない(非劣性である)。
ここで重要なのが「設定された許容範囲(非劣性マージン)」です。これは、「これくらいの差であれば、薬Aは薬Bに劣っていないとみなせる」という、事前に専門家や規制当局との間で合意された科学的・臨床的に意味のある最大許容差のことです。この非劣性マージンに基づいて、片側検定が行われます。薬Aが薬Bより優れているのであれば問題ありませんが、劣っている場合でも、このマージン内に収まっていれば「非劣性である」と判断します。つまり、「これ以上劣っていなければOK」という片側のみに関心があるため、片側検定が適切になるのです。
非劣性試験における片側検定の厳密性
ただし、この非劣性試験における片側検定は、通常の探索的な分析で安易に適用できるものではありません。非常に厳密な計画と実施が求められます。
- 非劣性マージンの設定: 試験計画の段階で、適切なコンセンサスに基づいた非劣性マージンを決定します。このマージンの設定が不適切だと、試験の結果が無意味になる可能性があります。
- サンプルサイズ計算: 設定されたマージンに基づいて、正確なサンプルサイズ計算を行い、十分な検出力を持つ試験デザインを構築します。
- 解析計画: 試験実施前に、詳細な解析計画を策定し、その計画通りに結果を解析します。
このように、非劣性試験は、特定の目的のために事前に周到に計画された場合にのみ片側検定が用いられる、非常に限定的かつ特殊な場面であると言えます。実臨床のデータを「なんとなく探索的に検定する」ような場合には、決して使われるべきではありません。
その他、極めて限定的なケース
非劣性試験以外にも、理論的に一方向の可能性しかない、あるいは特定の方向への差のみが関心事であるごく稀なケースで片側検定が用いられることがあります。
- 理論的に一方向の可能性しかない場合: 物理法則など、理論的に結果が一方向にしか動かないことが確実な場合。例えば、摩擦によって物体の速度が減少することはあっても、自然に増加することはない、といったケースです。しかし、統計的検定を用いるような複雑な現象で、ここまでの厳密な一方向性が保証されることは稀です。
- 品質管理などの特殊な目的: 例えば、製品の不良率が「ある基準値以下であること」を保証したい場合などです。不良率が基準値より「低い」ことのみが関心事であり、「高い」ことは既に問題として認識されているため、片側検定が用いられることがあります。
これらの例は、いずれも「片方の方向に差が出ることしか考えられない、あるいは、逆方向に差が出ることには全く関心がない」という、極めて特殊で限定的な状況であることがわかります。
ちなみに、新しい薬とプラセボ(偽薬)を比較する試験では、通常、両側検定が用いられます。なぜなら、新しい薬がプラセボよりも効果が劣る可能性も考慮する必要があるためです。万が一、悪化するようなことがあれば、それは重要な情報であり、両側検定でその「差」を検出できます。
6. 両側検定か片側検定か迷うほど仮説が十分でないなら両側検定
もし、あなたが「両側検定と片側検定のどちらを使えば良いのだろう?」と迷うような状況であれば、基本的には両側検定を選択すべきです。
なぜなら、迷うということは、あなたの立てている仮説が、特定の方向性について十分な根拠や確信を持っていないことを示しているからです。
本当に片側検定を用いるべき状況であれば、迷うことなく「この方向への差しかありえない」と断言できるだけの強力な理論的根拠や過去のデータが存在するはずです。
「もしかしたら、〇〇の方が優れているかもしれない」という程度の期待や推測で片側検定を用いると、前述の通り、客観性や結果の信頼性を損なうことになりかねません。
まずは両側検定で「差があるかどうか」を広く検証し、もしそこで有意な差が検出された後に、その方向性について深く考察するという進め方が、より健全な統計的アプローチと言えるでしょう。
まとめ
- 片側検定がほとんど行われない理由は、その性質上、結果の客観性を損なう可能性があり、予期せぬ重要な知見を見落とすリスクがあるからです。
- 統計的検定は、私たちの仮説を都合よく肯定するためではなく、データが示す真実を客観的に解明するためのツールです。
- 両側検定:「差があるか、ないか」を広く検証し、より客観的な結論を導きます。ほとんどの場面で推奨されます。
- 片側検定:「特定の方向に差があるか」を検証しますが、非劣性試験のように適用できる場面は極めて限定的です。
- 統計分析を行う際には、「なぜこの検定手法を選ぶのか」という理由を常に意識することが重要です。迷った場合は、より安全で一般的な「両側検定」を選ぶのが、統計初心者にとっての賢い選択と言えるでしょう。