生存時間解析の誤解を解く!
「時間そのもの」を比較するわけじゃないの?

統計解析、特に医療や製品の信頼性評価などでよく耳にする「生存時間解析」。この言葉を聞いて、「ああ、平均余命を比較する分析ね!」「イベント発生までの時間の長さを比べるんでしょ?」と思った方、いらっしゃるのではないでしょうか?

実は、多くの統計初心者がこの「生存時間解析」について、ちょっとした誤解を抱いています。今回は、その誤解を解消し、生存時間解析の本当の目的と、それがどのように機能するのかを、数式を使わず具体例を交えて解説していきます。


誤解1:「生存時間解析はイベントまでの時間の平均値を比較・検定するものだ!」

この誤解、とても多いんです。例えば、「新薬Aと標準治療B、どちらが患者さんの生存期間を延ばすか」という研究をするときに、「新薬Aを使ったグループの平均生存期間と、標準治療Bを使ったグループの平均生存期間を比較するんでしょ?」と考えがちです。

もちろん、イベントまでの時間を情報として使っているのは確かです。しかし、生存時間解析の主な目的は、単に平均値を計算して比較することではありません。

では、何を見ているのでしょうか?

生存時間解析が注目するのは、「時間とともにイベントがどのくらいの割合で発生していくか」というイベント発生のパターンです。

具体例で考えてみましょう。

ある薬の副作用として「発疹」があるとします。

この場合、発疹が出るまでの「平均時間」は、グループXが1週間、グループYが1ヶ月となり、明らかに差があります。

しかし、もし以下のような状況だったらどうでしょう?

この場合、グループAの「平均発疹発生時間」を単純に計算しようとすると、発疹が出なかった人の情報(1年以上観察しても発疹が出なかったという事実)をどう扱うかという問題が生じます。

生存時間解析では、このような「途中で観察が終了した人」(打ち切りデータと呼びます)の情報を有効活用しながら、時間の経過とともにイベントが発生する「確率」や「傾向」を分析します。


誤解2:「生存時間中央値ではなく、平均値の95%信頼区間を計算するものだと思っている!」

この誤解も、上記1と根っこは同じです。平均値にこだわってしまうと、前述の「発疹が出なかった人」のような打ち切りデータを適切に扱えなくなってしまいます。

生存時間解析では、平均値よりも「生存時間中央値」がよく用いられます。生存時間中央値とは、「イベントが半分以上の人に起こるまでの時間」のことです。

例えば、「この薬を飲んだ患者さんの半数が、病気が再発するまでに6ヶ月かかった」という場合、生存時間中央値は6ヶ月となります。これは、打ち切りデータがあっても計算しやすいという利点があります。

そして、95%信頼区間も、平均値ではなく生存時間中央値の信頼区間を算出することが一般的です。これは、真の生存時間中央値がどのくらいの範囲にあるかを推定するものです。


誤解3:「ログランク検定やCox回帰も、時間自体を比較しているんでしょ?」

ログランク検定やCox回帰は、生存時間解析でよく使われる手法です。これらも、「時間そのもの」を比較しているわけではありません。

ログランク検定:イベント発生パターンの比較

ログランク検定は、「複数のグループ間でイベント発生のパターンに統計的に有意な差があるか」を検定するものです。

例:がんの新薬と既存薬の効果比較

新薬を投与したグループと、既存薬を投与したグループで、がんが再発するまでの期間を比較するとします。ログランク検定は、

というように、時間軸に沿ってイベントが発生していく「累積的な様子」を比較します。もし両グループでイベント発生の累積的なカーブが大きく異なれば、「統計的に有意な差がある」と判断するのです。ここでも、個々の患者さんの「再発までの時間」の平均値を直接比較しているわけではありません。

Cox比例ハザード回帰モデル:イベント発生のリスク要因を分析

Cox回帰は、さらに一歩進んで、「何がイベント発生のリスクを高めるのか(あるいは低めるのか)」を分析する手法です。

例:心臓病の再発リスク要因

心臓病患者さんについて、「喫煙習慣の有無」「コレステロール値」「年齢」などが、心臓病の再発にどう影響するかを知りたいとします。Cox回帰は、これらの要因が「イベントが起こる瞬間瞬間のリスク(ハザード)」にどう影響するかを推定します。

例えば、「喫煙習慣がある人は、喫煙習慣がない人に比べて、任意の時点での心臓病再発のリスクが2倍になる」といった結果が得られます。ここでも、「喫煙者は非喫煙者より平均で何年早く再発する」というような、時間そのものの差を直接見ているわけではありません。あくまで、イベント発生の「瞬間的なリスクの大きさ」に着目しているのです。


まとめ:生存時間解析は「イベント発生のパターン」と「リスク」を見る!

生存時間解析は、単にイベントまでの時間の平均値を比較するものではありません。

これらを、打ち切りデータなどの情報を最大限に活用しながら、統計的に分析する手法なのです。

この点を理解することで、生存時間解析がなぜ医療分野や工学分野で重要なのか、その奥深さが少しでも伝われば幸いです。統計の学習は奥深く、誤解を解きながら一歩ずつ進んでいきましょう!

統計記事一覧に戻る