【統計の落とし穴!?】
単変量で「有意差なし」なのに
多変量で「有意差あり」ってどういうこと?
統計解析、特に医療や社会調査の論文を読んでいると、「単変量解析では有意差がなかったのに、多変量解析では有意差が認められた」という記述に遭遇することがあります。これってどういうこと?単変量解析で有意差があったものが多変量解析で消えるケースとどう違うの?統計初心者の方にも分かりやすく解説します!
はじめに:単変量解析と多変量解析、それぞれの役割
まず、単変量解析と多変量解析がそれぞれ何を目指しているのかを簡単に確認しましょう。
- 単変量解析(Univariate Analysis): ある一つの要因(変数)が、結果(目的変数)に影響を与えているかを個別に検討する手法です。「喫煙は肺がんのリスクを高めるか?」といった問いに答えるイメージです。シンプルで分かりやすいのが特徴です。
- 多変量解析(Multivariate Analysis): 複数の要因(変数)が、結果(目的変数)に同時に、そして互いに影響し合いながら、どのように関与しているかを検討する手法です。「喫煙だけでなく、年齢、性別、飲酒習慣なども考慮に入れた上で、肺がんのリスク要因を特定する」といった、より複雑な問いに答えることができます。
ケース1:単変量解析で「有意差なし」なのに、多変量解析で「有意差あり」となる場合
これは統計初心者にとって最も混乱しやすいケースかもしれません。個別に見ていくと影響がなさそうに見えたものが、他の要因を考慮すると急に重要になってくる、という状況です。
📊 例え話:隠れたスーパーヒーローの秘密
あるクラスで「算数のテストの点数」が「先生への質問回数」と関係があるか調べているとしましょう。
単変量解析の場合: 「質問回数が多い子ほど点数が高いか?」を個別に調べたら、特に強い関係は見られませんでした。「質問をたくさんしているけど、点数がいまいち伸びない子」もいれば、「全然質問しないけど、なぜか点数が高い子」もいて、統計的には「有意な差はない」と出ました。
多変量解析の場合: ここで、「元々の算数の得意さ(潜在的な学力)」という要素を加えて考えてみましょう。
- 元々算数が得意な子は、質問しなくても高得点を取る傾向があります。
- 元々算数が苦手な子も、たくさん質問することで点数が伸びる可能性があります。
- そして、元々算数が苦手な子が、質問もしなかったら、点数が伸び悩むでしょう。
多変量解析では、「元々の算数の得意さ」という強力な要因の影響を取り除いて、「質問回数」の純粋な効果を評価することができます。その結果、「元々の学力を調整すると、実は質問回数が多いほど点数が高くなる」という隠れた関係が明らかになることがあります。
💡 なぜこのようなことが起こるのか?「交絡( confounding )」の存在
この現象の背景には、「交絡( confounding )」という統計的な問題が潜んでいます。交絡とは、結果に影響を与える要因(例:質問回数)と、本来調べたい要因(例:先生への質問回数)の両方に関係する、別の要因(例:元々の算数の得意さ)が存在することです。
単変量解析では、この交絡因子の影響が混じり合ってしまっているため、本来見たい関係がマスクされてしまうことがあります。多変量解析では、これらの交絡因子を統計的に「調整」することで、個々の要因の独立した影響をより正確に評価できるようになります。つまり、隠れたスーパーヒーローが、他の妨害因子がいなくなって初めてその能力を発揮する、といったイメージです。
ケース2:単変量解析で「有意差あり」なのに、多変量解析で「有意差なし」となる場合
こちらは、単変量解析では関係があるように見えたものが、他の要因を考慮すると実はそうではなかった、というケースです。
📊 例え話:見せかけの関係
ある街で「アイスクリームの売上」と「水難事故の発生件数」を調べているとしましょう。
単変量解析の場合: 「アイスクリームの売上が多い月ほど、水難事故の件数も多い」という強い正の相関が見られました。単変量解析では「有意な差がある」と出ました。
多変量解析の場合: ここで、「気温」という要素を加えて考えてみましょう。
- 気温が高い夏は、アイスクリームがよく売れます。
- 気温が高い夏は、水辺で遊ぶ人が増えるため、水難事故も増えます。
多変量解析では、「気温」という共通の要因の影響を調整します。すると、アイスクリームの売上と水難事故の件数の間に、直接的な関係はほとんどないことが明らかになります。つまり、アイスクリームの売上と水難事故は、どちらも「気温」という真の犯人の「共犯者」だったにすぎない、ということです。
💡 なぜこのようなことが起こるのか?「共通の原因」や「メディエーター」
このケースも、しばしば「交絡」が関係していますが、他にも「共通の原因(common cause)」や、特定の要因が別の要因を介して結果に影響を与える「メディエーター(mediator)」といった複雑な関係が背景にあることがあります。単変量解析では、これらの間接的な関係を直接的な関係と誤認してしまうことがあるのです。
論文への記載方法
これらの結果を論文に記載する際には、読者が誤解しないように、なぜそのような結果になったのかを明確に説明する必要があります。
1. 結果の記述
単変量解析で有意差なし → 多変量解析で有意差ありの場合
「単変量解析では[目的変数]と[注目する変数]の間に有意な関連は認められなかった(p = [値])。しかしながら、[調整した変数1], [調整した変数2]…を調整因子とした多変量ロジスティック回帰分析(または重回帰分析など)を行った結果、[注目する変数]は[目的変数]の有意な独立した関連因子であることが明らかになった(調整済みオッズ比 [またはβ係数], 95%信頼区間: [下限]-[上限], p = [値])。」
単変量解析で有意差あり → 多変量解析で有意差なしの場合
「単変量解析では[目的変数]と[注目する変数]の間に有意な関連が認められた(p = [値])。しかしながら、[調整した変数1], [調整した変数2]…を調整因子とした多変量ロジスティック回帰分析(または重回帰分析など)を行った結果、[注目する変数]の有意な関連は認められなくなった(調整済みオッズ比 [またはβ係数], 95%信頼区間: [下限]-[上限], p = [値])。これは、[調整した変数]が交絡因子として作用したためと考えられる。」
2. 考察での説明
結果を単に羅列するだけでなく、なぜそのような結果になったのかについて、統計的な理由や、これまでの先行研究などを踏まえて考察を深めることが重要です。
単変量解析で有意差なし → 多変量解析で有意差ありの場合
「単変量解析では[注目する変数]と[目的変数]の関連が明確でなかったが、多変量解析により[調整した変数]などの交絡因子の影響を調整することで、その真の関連が明らかになったと考えられる。[調整した変数]が[注目する変数]と[目的変数]の両方に関与していた可能性が示唆される。」といったように、交絡因子の役割について言及します。
単変量解析で有意差あり → 多変量解析で有意差なしの場合
「単変量解析で認められた[注目する変数]と[目的変数]の関連は、[調整した変数]の影響による見せかけのものであった可能性が高い。例えば、[調整した変数]が[注目する変数]と[目的変数]の共通の原因として機能していたと考えられる。」といったように、他の要因が真の要因であった可能性を指摘します。
まとめ
単変量解析と多変量解析の結果の違いを理解するポイント
- 単変量解析はスクリーニングとして有用
- 多変量解析で交絡因子の影響を調整
- 結果の変化から真の関係性を探る
- 隠れた重要な関連性を見つける
- 見せかけの関係に騙されない
単変量解析と多変量解析の結果が食い違うことは、統計解析においてしばしば起こり得ます。これは決して解析が間違っているわけではなく、データの背後に隠れた複雑な関係性を教えてくれる貴重な情報です。単変量解析はスクリーニングとして有用ですが、より詳細で正確な要因の特定には多変量解析が不可欠です。
特に、単変量解析で「有意差なし」でも、多変量解析で「有意差あり」となる場合は、見落とされがちな重要な関連性を示唆している可能性があります。この「隠れたスーパーヒーロー」を見つけるために、適切に多変量解析を行い、慎重に結果を解釈することが、より質の高い研究を行う上で非常に重要になります。