医療統計学を学ぶ大学生のブログ

医療統計学、因果推論を専攻しています。R, SASユーザーです。

生存時間解析①概要と打ち切り

医学研究において頻繁に出てくる解析手法の一つに生存時間解析というものがあります。生存時間解析は名前の通り生存時間に関する解析手法であり、研究に携わる者としては非常に重要な分野かと思います。ただその内容は理論的にも難しい部分があり、多くの方が躓きやすい分野でもあるかなと思います。

個人的な話ですが、メインの適用分野を一つ決めてそれを軸に統計的因果推論の学習・研究をしていきたいなと考えています。実はその候補の一つが生存時間(時間依存性交絡あたり)で、今回の記事はそれに向けた備忘録的なものでもあります。ちなみにタイトルからもわかる通りシリーズ化します。

概要

この記事では主に”生存時間解析”というものが何なのか、必要となることは何かを考えます。まず生存時間解析とは一言でいうのであれば、興味のあるイベント(アウトカム)が発生するまでの時間(生存時間)を対象とした手法の一種です。リスク評価の時のように、ある一定期間においてイベントが発生したがどうか(Y=0, 1)よりも、ある介入、曝露(A=0, 1)によってその発症までの時間がどう変わったのか、いつ発症したのかということに特に注意が向いている点が生存時間解析の特徴の一つです。

よく見かけるアウトカムの例としては、がん等による死亡や特定の病気の発症などが挙げられますが、イベント発生までの時間を対象とした研究であれば生存時間解析を行うことができるので、医学研究だけに限った分析手法ではありません。また、上記で言及したイベントの例は研究対象者一人に対して1回のみ起こることを想定しています。個人が複数回アウトカムを発症しうる再発イベントや、興味あるイベントではないイベントが発生する競合リスクに関する問題点についてはまた後程まとめる予定です。

 

生存時間解析の目的

生存時間解析を行う目的は、特定の曝露(介入)が生存時間へ及ぼす効果の検討です。そしてこの効果の検討を行うために必要となること(目標)が生存関数、ハザード関数の推定や比較となります。よく生存時間分析に関連する内容として出てくるカプランマイヤー曲線や、ログランク(Wilcoxson)検定、Cox回帰といった言葉はこの辺りで使う内容ですが、いったんそれはおいておいて、生存時間解析の目的を理解した上で必要となることを順を追っていこうと思います。

また生存時間解析を行うにあたっては、解析対象となるデータセットにはこの各個人に対する生存時間と、イベントの発生、興味ある曝露・介入の情報、打ち切りに関する情報、調整すべき共変量の情報が必要となります。

 

生存時間

はじめに考えるのが、分析手法の名前にも含まれている”生存時間(Survival time)”です。生存期間はいわゆる各個人の研究期間中の観察時間のことですが、観察されている期間=生存している期間ということで、観察期間のことを生存時間と呼びます。つまり基準となるある時点からイベント発生までの時間を意味しています。

f:id:NorihiroSuzuki:20211110154935p:plain

そしてこの生存時間に非常に密接に、そして厄介にかかわってくるのが事項で紹介する打ち切り(Censoring)という問題です。

 

打ち切り

生存時間解析においては、観察期間中に何らかの理由でイベントの発生が観察出来ず、それぞれの正確な生存時間が不明確となる(正確にわからない)問題があります。一般によく見られるものとしては以下のようなものがあります。

  • 試験終了までにイベントが発生しなかった
  • 何らかの理由でフォローアップ不能になった(転院等)
  • 興味あるアウトカム以外のイベントが発生したため試験から脱落した

 

正確に言うと上記は順に、right censoring, lost to follow-up, withdrawnsなどといいますが、ここでは広義の意味で打ち切り(Censoring)とひとくくりにしています。この打ち切りには様々なものがあり、まずはその中身のほうを見ていこうともいます。

 

右側打ち切り(right censoring)

打ち切りの分類はいくつか種類がありますが、右側打ち切り、左側打ち切り、区間打ち切りといった打ち切りが研究期間のどこで起きるかという点に着目した分類です。

右側打ち切りとは、フォローアップ期間の右側で何らかの理由で各個人の生存時間が分からなくなったことを指します。研究終了時点まで生存した(イベントが発生しなかった)場合には、そこで研究が終了するため正確な生存時間(イベント発生までの時間)が分からなくなってしまいますし、脱落やlost to follow-upもランダムな打ち切り(Random censoring)として、この右側打ち切りの枠組みに入ります。(区別はなかなか難しい)

f:id:NorihiroSuzuki:20211111112645p:plain

こういった右側打ち切りは治験などのような前向きの研究で比較的頻繁に発生します。話が少し脱線しますが、例数設計をして必要となるサンプル数が分かっても基本的にはこういった打ち切りの存在を加味して多少多めに被験者を見積もるということを、臨床試験ではしばしば行います。また、右側打ち切りとなるものの中には以下のようなものもあります。

 

  • タイプⅠ打ち切り(Type Ⅰ censoring)

Type Ⅰ sensoringは、研究対象集団に対して、打ち切り時間(研究期間)が共通に決まっている場合(Ex, 12か月)に起こる打ち切りです。この場合には研究機関終了時点でイベントを発生していない被験者はすべてその時点で右側打ち切りとなります。なおこの場合には打ち切り時間は確率変数として扱うのではなく、既知の定数として扱うことになります。(次々回くらいで説明する予定です)

 

  • タイプⅡ打ち切り(Type Ⅱ censoring)

Type Ⅱ sensoringはある研究対象集団に対して、一定のイベントが観察された時点で研究(追跡)を終了するという場合の打ち切りのことを指します。すべて右側打ち切りで、動物実験などで比較的みられる打ち切りの一種です。

 

左側打ち切り(left censoring)

左側打ち切り(left censoring)は生存時間が観察された生存時間よりも短い場合、ある時点よりは左(昔)に起こっているが正確にはわからないという場合に起こる打ち切りです。病院に行って風邪と診断されてもその風邪をいつから引いていたか正確にはわからないですよね。

f:id:NorihiroSuzuki:20211111115631p:plain

区間打ち切り(interval censoring)

区間打ち切りは興味あるイベントの調査が定期的に(複数回)ある場合に起こる打ち切りです。例えば下図の例だとイベント発生がt1~t2の間に発生したことはわかりますがその正確な時点は不明であり、すなわち正確な生存時間が分かりません。

f:id:NorihiroSuzuki:20211111120504p:plain

 

情報のない打ち切り(Non-infomative censoring)

上記まででは打ち切りが生存期間のどこで発生しているのかといった点で分類を行っていますが、これ以外の打ち切りの分類としては情報のある打ち切り、情報のない打ち切りというものが挙げられます。

まず情報のない打ち切り(Non-informative censoring)とはイベント発生と無関係に行われる(発生する)打ち切りのことを指し、右側打ち切りの部分で紹介したタイプ1, 2やランダムな打ち切りというものもここに含まれます。ただ試験中の脱落などが情報のない打ち切り(ランダムな打ち切り)であることを示すのは不可能であるため、できる限りそれを減らすようにしなければなりません。

 

情報のある打ち切り(Informative censoring)

次に情報のある打ち切り(Informative censoring)とは、情報のない打ち切りと対照的に、イベントの発生と打ち切りの原因とが関連している場合の打ち切りのことを指します。仮にこの情報のある打ち切りがある場合には解析結果にバイアスが含まれることになります。競合リスクの問題とかもこの辺りに関係してくる話題です。

 

打ち切りの扱い

生存時間解析では、解析対象となるデータから打ち切りデータを除くことはやってはいけないことです。またデータ中に含まれる打ち切りは情報のない打ち切りであるということが前提となっています。すなわち打ち切りによるバイアスは解析には含まれないとうことです。この前提が成り立たない場合の話、すなわち情報のある打ち切りであるという場合の議論は様々な研究がされているところではありますが、まだ発展途上かと思います。このあたりの話題については、競合リスクなどをメインに扱う回でまとめていこうかなと思います。

 

最後に

打ち切りの一部は適切な研究デザインによって回避することが可能です。また医学研究、臨床試験はモニターの方なども含め様々な方の協力の上で成り立っていますので、分析する立場としてはその苦労も理解した上で適切な対応ができるように勉強していきたいなと思っています。