最尤法による欠測データの処理
反復測定試験における統計解析

臨床試験や長期的な観察研究では、反復測定デザインがよく用いられます。しかし、このような研究では欠測データが発生することが避けられません。本記事では、最尤法(Maximum Likelihood Estimation: MLE)を用いた欠測データの効果的な処理方法について詳しく解説いたします。


反復測定試験における欠測データとは

臨床試験や長期的な観察研究でよく用いられる反復測定デザインでは、同じ対象者から複数の時点でデータが収集されます。例えば、薬の効果を評価するために、投薬前、投薬1ヶ月後、投薬3ヶ月後といった形で、患者さんの特定の指標(血圧、症状スコアなど)を繰り返し測定します。

このような反復測定の試験設定において、「欠測データ」とは、本来測定されるべきデータが何らかの理由で得られなかった状態を指します。例えば、患者さんが途中で試験を辞退した、測定を忘れた、測定機器の故障によりデータが記録されなかった、といった様々なケースが考えられます。欠測データは、データの偏りや統計的検出力の低下を引き起こし、結果として研究の結論の妥当性を損なう可能性があります。

欠測データ発生メカニズムの分類

欠測データは、その発生メカニズムによって大きく3つに分類されます。この分類は、適切な解析方法を選択するために非常に重要です。

欠測データ発生メカニズムによる解析モデル

欠測データの発生メカニズムに応じて、適切な統計解析モデルを選択する必要があります。

欠測データに対する最尤法とは

最尤法 (Maximum Likelihood Estimation: MLE)は、統計学において、与えられたデータから最も尤もらしい(可能性が高い)母集団のパラメータを推定する強力な方法です。欠測データが存在する場合でも、この最尤法を適用することで、欠測を直接モデルに組み込み、欠測データによって生じるバイアスを抑制しながら、より効率的な推定を行うことができます。

最尤法で欠測データに対処できる仕組み

最尤法が欠測データに対処できるのは、その根底にある数学的かつ統計学的な考え方に由来します。最尤法は、観測されたすべてのデータ(完全な観測値と欠測を含む不完全な観測値の両方)を包括的に利用し、データがどのように生成されたかを説明するモデルのパラメータを推定します。

具体的に、欠測データに対する最尤法は、次のメカニズムで機能します。

  1. 同時確率密度関数(または確率質量関数)の構築: まず、データ全体の生成メカニズムを記述する確率モデルを仮定します。このモデルは、観測されたデータと、仮に観測されていれば得られたはずの欠測データの両方を含む、完全なデータセットがどのような確率分布に従って生成されるかを表現します。この確率分布は、いくつかの未知のパラメータ(例:平均、分散、回帰係数など)によって特徴づけられます。
  2. 周辺化(Marginalization)による欠測値の扱い: 最尤法の核心は、観測できない欠測値を直接的に「埋める」のではなく、「周辺化」する点にあります。これは、数学的に言うと、欠測値が取りうるすべての可能性について積分(連続変数)または総和(離散変数)をとることを意味します。これにより、我々が最大化すべきは、観測されたデータのみに基づいた「周辺尤度関数」となります。
    • 例えば、ある時点での患者の血圧データが欠測しているとします。最尤法では、この欠測した血圧値が取りうるすべての可能性(例えば、100mmHgから200mmHgまでの間のあらゆる値)を考慮に入れます。そして、各々の仮説的な欠測値が、観測された他の時点での血圧値や、患者の年齢・性別といった他の変数とどのような関係にあるのか、モデルに基づいて計算します。この「あらゆる可能性」を統計的に平均化することで、欠測値に関する不確実性を考慮しつつ、観測されたデータ全体の尤もらしさを評価するのです。
  3. 尤度関数の最大化: 最終的に、この周辺尤度関数を最大にするようなモデルのパラメータ値を探索します。これにより、実際に観測されたデータが、最も「尤もらしく」なるようなパラメータの組み合わせが推定されます。

このプロセスを通じて、最尤法は、欠測がどこで発生したかという情報自体も利用しながら、よりロバストで効率的なパラメータ推定を可能にします。特にMAR(ランダムな欠測)の状況下では、この方法が非常に有効であり、完全データ解析に比べてバイアスのない推定値を得ることができます。

最尤法のモデル式

欠測データに対する最尤法の具体的なモデル式は、使用する統計モデルによって異なりますが、基本的な考え方は共通しています。

一般的に、データセット $Y$ が存在し、その一部が観測されたデータ $Y_{obs}$ と欠測データ $Y_{mis}$ に分けられるとします。モデルのパラメータを $\theta$ としたとき、データ全体の尤度関数 $L(\theta | Y)$ は以下のように表されます。

$L(\theta | Y) = f(Y | \theta)$

しかし、$Y_{mis}$ は観測できないため、我々が最大化したいのは観測されたデータ $Y_{obs}$ の周辺尤度関数です。これは、$Y_{mis}$ について積分(または総和)することで得られます。

$L(\theta | Y_{obs}) = \int f(Y_{obs}, Y_{mis} | \theta) dY_{mis}$

または、離散変数の場合は総和となります。

$L(\theta | Y_{obs}) = \sum_{Y_{mis}} f(Y_{obs}, Y_{mis} | \theta)$

この式は、観測されたデータ $Y_{obs}$ が与えられたときに、パラメータ $\theta$ のもとでそのデータがどれだけ「尤もらしいか」を示しています。最尤法では、この尤度関数 $L(\theta | Y_{obs})$ を最大にするような $\theta$ の値を推定値とします。

反復測定データに適用される代表的なモデルとしては、混合モデル (Mixed Models)があります。混合モデルは、個体間の変動(ランダム効果)と固定効果を組み合わせたモデルであり、欠測データがある場合でも、上記のような周辺尤度を最大化することでパラメータを推定します。

最尤法による解析方法

最尤法を用いて欠測データに対処する際の解析方法は、主に以下のステップで進行します。

  1. モデルの特定: 解析の目的とデータの性質に基づいて、適切な統計モデル(例: 線形混合モデル、一般化線形混合モデルなど)を選択します。このモデルは、観測されたデータと欠測データの両方を含む完全なデータセットが生成されるメカニズムを仮定します。
  2. 尤度関数の構築: 選択したモデルに基づき、観測されたデータに対する尤度関数を数学的に定式化します。前述のように、欠測値については周辺化を行います。
  3. 尤度関数の最大化: 構築された尤度関数を最大にするようなモデルパラメータの値を探索します。これは通常、数値最適化アルゴリズム(例: EMアルゴリズム、ニュートン・ラフソン法など)を用いて行われます。これらのアルゴリズムは、尤度関数が最大になるまで反復的にパラメータを更新します。
  4. パラメータの推定と推論: 最大化された尤度関数から得られたパラメータ推定値を用いて、研究仮説の検定や信頼区間の算出を行います。最尤法は、漸近的に不偏かつ効率的な推定量を導き出すことが知られています。

尤度と確率の対比から最尤法を理解する

最尤法を理解する上で、「尤度 (Likelihood)」と「確率 (Probability)」の違いを明確にすることは非常に重要です。

最尤法は、この「尤度」を最大化するパラメータを見つける方法です。つまり、実際に観測されたデータが最も「もっともらしく」なるようなモデルのパラメータを選び出すのが最尤法の核心です。欠測データがある場合でも、この考え方は変わりません。観測されたデータ(完全なデータと一部が欠測しているデータ)全体を最もよく説明するようなパラメータを推定することで、欠測の存在下でも信頼性の高い推論が可能になります。

まとめ

最尤法による欠測データ処理のポイント

反復測定試験における欠測データは、研究結果の妥当性に大きな影響を与える重要な問題です。欠測データの発生メカニズム(MCAR, MAR, MNAR)を理解することは、適切な解析方法を選択する上で不可欠です。

最尤法 (Maximum Likelihood Estimation: MLE)は、特にMARの状況において、欠測データに効果的に対処できる強力な統計的手法です。最尤法は、観測されたすべてのデータを用いて尤度関数を最大化することで、欠測値を直接代入することなく、データの生成メカニズムを最もよく説明するパラメータを推定します。これにより、欠測によるバイアスを抑制し、より効率的で信頼性の高い統計的推論が可能になります。

統計記事一覧に戻る