オッズ比とリスク比:
なぜリスク比のモデルは
あまり使われないのか?
統計学を学び始めると、「オッズ比」と「リスク比」という二つの指標に出会います。特に、二値のアウトカム(例えば、病気になるかならないか)を分析する際に、オッズ比を算出するロジスティック回帰が広く用いられていることに気づくでしょう。しかし、直感的に理解しやすいのは「リスク比」なのに、なぜそちらを直接モデル化する手法が主流ではないのでしょうか?この素朴な疑問の背景には、統計学的な理由と歴史的な経緯が存在します。
ロジスティック回帰の普及とその利点
オッズ比は、二値のアウトカムを分析する際に非常に強力なツールであるロジスティック回帰によって算出されます。ロジスティック回帰がこれほどまでに普及したのには、いくつかの理由があります。
まず、数学的な扱いやすさが挙げられます。ロジスティック回帰は、予測される確率が0から1の間に収まるように設計されており、線形回帰のように予測値が範囲外に出てしまう問題を回避できます。これは、最尤法というパラメータ推定方法と相まって、統計的に安定した結果をもたらします。
次に、歴史的経緯とソフトウェアの充実です。ロジスティック回帰は、特に医学や疫学の分野で長年にわたり使われてきました。そのため、主要な統計ソフトウェアのほとんどに機能が標準搭載されており、多くの研究者が使い慣れているという背景があります。
リスク比の直接モデリングにおける課題
直感的な理解しやすさからリスク比を使いたいと思うのは自然なことです。しかし、リスク比を直接モデル化しようとすると、いくつかの統計的な課題に直面します。
リスク比は確率の比率であるため、直接線形にモデリングしようとすると、やはり予測される確率が0未満になったり1を超えたりする問題が生じます。この問題を解決するために、対数リンク関数を用いるなどの工夫が必要です。
また、リスク比を直接推定するモデルの一つに修正ポアソン回帰があります。これは、本来カウントデータを扱うポアソン回帰を二値データに応用したものですが、二値データはポアソン分布の仮定(平均と分散が等しい)を満たさないことが多いため、頑健な分散推定(Robust Variance Estimation)という特殊な手法を用いる必要があります。この頑健な分散推定が、モデルの複雑さを増す要因の一つとなっていました。
修正ポアソン回帰が「あまり使われない」理由
では、なぜ修正ポアソン回帰のようなリスク比を直接算出できるモデルが、ロジスティック回帰ほど広く使われてこなかったのでしょうか。
一つには、モデルの比較的新しさがあります。ロジスティック回帰に比べて、修正ポアソン回帰や対数二項回帰といったリスク比を直接算出するモデルは、その有用性が再認識され、普及が進んできたのが比較的近年だからです。長年の慣習や教育の中で、ロジスティック回帰がスタンダードとして定着していたため、新しい方法が広く受け入れられるには時間がかかります。
また、アウトカムが非常に稀なケースでは、オッズ比とリスク比の値が近似します。そのため、厳密にはオッズ比であるにもかかわらず、リスク比のように解釈してしまう慣習が根強く残っていました。これにより、「とりあえずオッズ比で良い」という考え方が広まってしまった側面もあります。
しかし、近年では、アウトカムが稀ではない場合においてオッズ比とリスク比が大きく乖離すること、そしてその際にリスク比の重要性が再認識されています。それに伴い、修正ポアソン回帰などの利用が推奨されるケースも増えてきています。
まとめ
オッズ比を算出するロジスティック回帰が広く使われてきたのは、その数学的な扱いやすさ、長年の歴史、そしてソフトウェアの普及に大きく関係しています。一方で、リスク比を直接モデル化する修正ポアソン回帰のような手法は、統計的な課題や、後発であるがゆえの普及の遅れがありました。
しかし、これは「どちらが優れているか」という単純な話ではありません。それぞれのモデルには特性があり、研究の目的やアウトカムの発生頻度によって適切な選択が変わってきます。統計学を学ぶ上では、単に手法を覚えるだけでなく、それぞれの背景や利点・欠点を理解し、状況に応じて適切なツールを選べるようになることが重要です。