反復測定データの解析における鍵:
各被験者内の測定値間に想定する相関構造とは?
反復測定データは、同じ対象(被験者など)から複数回にわたって測定されたデータであり、医学、心理学、社会科学など多岐にわたる分野で頻繁に登場します。このようなデータを解析する際、通常の独立したデータ解析手法をそのまま適用すると、誤った結論を導き出す可能性があります。その理由は、同じ被験者から得られた測定値は、互いに独立ではなく、何らかの相関を持つと考えるのが自然だからです。
この「何らかの相関」を統計モデルに適切に組み込むことが、反復測定データ解析の成否を分ける重要なポイントとなります。本記事では、この「相関構造」に焦点を当て、その種類、必要性、そして統計ソフトウェアでの扱いについて詳しく解説します。
1. 反復測定データを解析する際に考慮する相関構造とは
反復測定データでは、時間の経過とともに測定が行われる場合や、異なる条件下で同じ被験者の反応を測定する場合などがあります。このようなデータでは、同じ被験者の最初の測定値と2番目の測定値、2番目の測定値と3番目の測定値といった具合に、各測定値間に「関連性」が生じます。この関連性のパターンを数理的に表現したものが「相関構造」です。
相関構造を適切にモデル化しないと、標準誤差が過小評価されたり、統計的有意性があるにもかかわらず見落とされたり(あるいはその逆)、推定された効果が不正確になったりする可能性があります。
2. よく想定される相関構造とそれぞれの特徴
反復測定データでよく用いられる相関構造には、いくつかの典型的なパターンがあります。それぞれの特徴を理解することは、適切なモデル選択に不可欠です。
2.1. 複合対称性 (Compound Symmetry: CS)
- 特徴: 最も単純な相関構造の一つです。同じ被験者内の任意の2つの測定値間の相関は、測定時点や間隔に関わらずすべて等しいと仮定します。また、すべての測定時点での分散も等しいと仮定します。
- イメージ: 「被験者効果」のような共通の要因が、すべての測定値に一様に影響を与えているような状況に適しています。
- 利点: パラメータ数が少なく、モデルが安定しやすい。
- 欠点: 時間の経過に伴う相関の減衰や、測定時点ごとの分散の違いを捉えられないため、現実のデータに合わない場合が多い。
2.2. 自己回帰一次 (Autoregressive Order 1: AR(1))
- 特徴: 時系列データでよく用いられる相関構造です。測定値間の相関が、時間的な距離が離れるにつれて指数関数的に減少すると仮定します。つまり、隣接する測定値間の相関が最も高く、2つ離れた測定値間の相関はそれより低く、というパターンです。すべての測定時点での分散は等しいと仮定されます。
- イメージ: ある時点の測定値が、その直前の測定値の影響を強く受けるような状況(例:体温、血圧など)に適しています。
- 利点: 時間的な連続性を適切に捉えられる。
- 欠点: 測定間隔が不均一な場合には適用が難しいことがある。
2.3. 非構造化 (Unstructured: UN)
- 特徴: 最も柔軟な相関構造です。各測定時点の分散はそれぞれ異なってもよく、また、各測定値のペア間の相関もすべて異なると仮定します。
- イメージ: 測定時点ごとに特性が大きく異なったり、相関パターンに特定の規則性が見られないような状況に適しています。
- 利点: データの相関パターンを最も忠実に反映できる可能性が高い。
- 欠点: 非常に多くのパラメータを推定する必要があるため、データサイズが小さい場合や測定時点が多い場合には、モデルが不安定になったり、収束しなかったりすることがある。オーバーフィッティングのリスクも高まる。
上記以外にも、等分散のAR(1)を拡張したAR(p)、Toeplitz、Band Toeplitz、Heterogeneous Compound Symmetryなど、様々な相関構造が存在します。
3. 相関構造を指定する必要性
相関構造を適切に指定することは、以下のような理由から非常に重要です。
- 正確な標準誤差の推定: 適切な相関構造をモデルに組み込むことで、パラメータ推定値の標準誤差が正しく計算されます。標準誤差が不正確だと、信頼区間やp値が誤ったものとなり、結果として仮説検定の結論が間違ってしまう可能性があります。
- 効果量の正確な推定: 相関を考慮することで、主要な独立変数の効果量(例:治療効果、時間の効果)がより正確に推定されます。
- モデルの適合度向上: データが持つ相関パターンをモデルが適切に捉えることで、モデルのデータへの適合度が向上し、より説明力の高いモデルを構築できます。
- Type Iエラー率とType IIエラー率の制御: 誤った相関構造を仮定すると、Type Iエラー(帰無仮説が正しいのに棄却してしまう誤り)やType IIエラー(帰無仮説が誤っているのに採択してしまう誤り)の確率が変化し、研究の信頼性を損なうことになります。
4. 相関構造を指定できる統計ソフトウェアとその関数
相関構造を指定できる代表的な統計ソフトウェアとしては、主に混合効果モデルや一般化推定方程式 (GEE) を扱うパッケージが挙げられます。
R
Rでは、主にnlmeパッケージとlme4パッケージが混合効果モデルの解析に用いられますが、相関構造の指定に関して両者には重要な違いがあります。
nlmeパッケージ (lme関数):nlmeパッケージのlme関数は、残差の相関構造を明示的に指定するcorrelation引数を持ちます。- 複合対称性:
correlation = corCompSymm(form = ~ 1 | Subject) - AR(1):
correlation = corAR1(form = ~ Time | Subject) - 非構造化:
correlation = corSymm(form = ~ 1 | Subject, fixed = FALSE)(分散も異なる場合はweights = varIdent(form = ~ 1 | Time)と組み合わせる)
- 複合対称性:
lme4パッケージ (lmer関数):lme4パッケージのlmer関数は、残差の相関構造を直接指定する引数を持ちません。lmerでは、ランダム効果の構造を通じて相関をモデル化します。- 複合対称性: ランダム切片のみを指定した場合(例:
(1 | Subject))に、各被験者内の測定値間に複合対称性の相関が暗黙的に仮定されます。 - その他の相関:
lmerでAR(1)のような特定の残差相関構造を明示的に指定することはできません。より複雑な相関構造を表現するには、ランダム効果の設計を工夫するか(例: ランダム傾きを含む)、nlmeパッケージのlme関数を使用する必要があります。
- 複合対称性: ランダム切片のみを指定した場合(例:
SAS
SASでは、PROC MIXEDプロシージャが混合効果モデルの解析に広く用いられ、多様な相関構造を指定できます。
REPEATEDステートメント:REPEATEDステートメントのTYPE=オプションで相関構造を指定します。- 複合対称性:
TYPE=CS - AR(1):
TYPE=AR(1) - 非構造化:
TYPE=UN - その他にも
TOEP(Toeplitz),SP(POW)(Spatial power) など、多くのオプションがあります。
- 複合対称性:
Stata
Stataでは、xtmixed(混合効果モデル)やxtgee(一般化推定方程式)コマンドで相関構造を指定できます。
xtmixedコマンド:covariance(correlated_structure)オプションを使用します。- 複合対称性:
covariance(cs) - AR(1):
covariance(ar1) - 非構造化:
covariance(unstructured) xtgeeコマンドも同様のオプションを持ちます。
- 複合対称性:
5. まとめ
- 反復測定データの解析において、各被験者内の測定値間に存在する相関を適切にモデル化することは、統計的推論の妥当性を確保するために不可欠です。複合対称性、AR(1)、非構造化といった主要な相関構造は、それぞれ異なる仮定と特徴を持ち、データの性質に応じて選択する必要があります。
- 統計ソフトウェアは、
nlmeやSASのPROC MIXEDのように相関構造を直接指定できるものと、lme4のようにランダム効果の構造を通じて間接的に相関をモデル化するものがあることを理解しておくことが重要です。 - 適切な相関構造を選択することで、より信頼性の高い分析結果を得ることができ、研究の質を向上させることが可能となります。