医療統計学を学ぶ大学生のブログ

医療統計学、因果推論を専攻しています。R, SASユーザーです。

Time-varying treatmentsの因果推論:時間依存性交絡とg-methodsの紹介

 以前の記事で言及したように、治療(曝露)が複数回行われる場合の因果推論(g-methods)についてまとめます。文量の都合上、g-methodsの各手法については別記事とする予定で、今回は時間依存性交絡や今後のg-methodsの各手法の議論に必要となる基本的な部分について主に紹介します。

はじめに

 疫学・医学分野においては治療が複数回行われる場面は非常に多くあります。例えば身近なところだと、新型コロナワクチンの接種がその最たる例で、異なるワクチンを接種した場合(交互接種)の予防効果という複数の介入の因果効果といったものにも注目が集まっています。

 しかし、治療が一時点でのみ行われる(ベースラインでのみ治療が行われる)場合に比べると、治療が複数時点で発生する場合の因果推論については、その内容も含めあまり認知されていないように感じます。ですが応用性の観点から考えると、その推定方法(g-methods)について知ることで出来る研究の幅はかなり広がるのではないかと個人的に考えています。

 

本記事における注意点

 この記事では、アウトカムYへの因果効果を推定したい変数Aとしてある治療(treatment)を考えていますが、これは介入(intervention)や曝露(exposure)とした場合でも理論的には同義です。

 また簡便な議論のために言及がない限りは、以下の全てが満たされるものとします。この条件については、今後公開予定の各手法に関しての記事でも共通です。

  • 研究対象はfixed study population(研究対象は十分に定義された閉鎖コホート
  • フォローアップ以降の曝露の因果効果のみを考え、ベースライン以前の曝露の影響はない
  • 共変量と介入は一定の間隔で測定(実施)される
  • 打ち切り、欠損、測定誤差は存在しない
  • アウトカムはフォローアップ終了時にのみ測定される
  • 未測定交絡は存在しない(No unmeasured confounders)

 

 

治療の分類

 治療が複数回行われる場合の因果推論を考えるにあたり、まず治療を以下の2つに分類する必要があります。これは因果効果を考えたい治療がこのどちらに当たるかによって、因果推論の理論が異なるためです。(Time-fixedである場合の方が圧倒的に話は簡単です)

  • Time-fixed treatments
    →ベースラインの治療が継続して行われる
  • Time-varying treatments
    →時点ごとに治療が変わりうる

なお治療変数Aは二値変数、tはベースラインからの時間、Yはアウトカムとします。

※大文字は確率変数、小文字は実現値を意味

 

Fixed treatmentsの因果推論

 ベースライン時点(t=0)における、ある治療A(1: treated, 0: untreated)が、その後も継続して行われる場合、その治療変数AはTime-fixedであると定義されます。つまりTime-fixed treatmentsにおいて確率的に変動しうるのはt=0の時点のみであり、それ以降の治療は全てベースラインの治療に依存する決定論的なものとなります。

 因果関係とは異なる治療レベルの潜在アウトカムの比較によって定義され、Fixed-treatmentsで想定される潜在アウトカムは「ずっと治療を受けた場合」と「ずっと治療を受けなかった場合」の2パターンです。よって、Fixed-treatmentsの因果効果を推定する場合には時間を考慮する必要はなく(t=0で以降の全てが決定されるため)、治療がベースラインにおいてのみ行われる場合の話と理論的には同じです(一時点の治療に対する手法が適用可能)。ただもちろん各手法が要求する仮定が満たされるかどうかの検討は必要です。

 ということで今回の記事の本題であるTime-varying treatmentsに対する因果推論に移ります。

 

Time-varying treatmentsの因果推論

 治療が時点t(t=0, 1, ... K)によって変化する場合、その治療変数At はTime-varyingであると定義されます。また因果関係を定式化するために、下記のように記号の定義を行います。

  •  \overline{A}_t = (A_0 , A_1 , ...A_t):治療の履歴
    • Treatment strategy(治療計画)と呼ばれる(strategy以外にもplan, policy, protocol, regimeなどとも)
    •  \overline{A}_K = \overline{A} であり、 \overline{A}_0 はベースラインにおける治療を意味する
  •  \overline{L}_t = (L_0 , L_1 , ...L_t):共変量の履歴
    •  \overline{L}_K = \overline{L} であり、 \overline{L}_0 はベースライン共変量を意味する

 

 そしてこの少なくとも2つの治療計画  \overline{a},  \overline{a}' において、E[Y  \overline{a}] ≠ E[Y  \overline{a}'] である場合に、Time-varying treatments At はYに対して平均因果効果を持つと言います。

 例えば治療がt=0, 1の二時点で行われたとするとtreatment strategyは以下の4つが想定されます。

  •  (a_0 =0, a_1 =0):ずっと治療を受けない
  •  (a_0 =0, a_1 =1):t=0では治療を受けず、t=1では治療を受ける
  •  (a_0 =1, a_1 =0):t=0では治療を受け、t=1では治療を受けない
  •  (a_0 =1, a_1 =1):ずっと治療を受ける

 そしてこの4パターンの治療計画のうち、任意の2つにおける潜在アウトカムを比較し、その値が異なる場合に因果効果があるとするわけです。

 このどの治療計画を比較するか、効果指標として何を用いるかについては、研究の目的に依存します。例えば治療を継続して受ける人と一切受けない人の平均的なリスクの違いを見たいのであればE[Y (a_0 =1, a_1 =1)] - E[Y (a_0 =0, a_1 =0)]を計算します。

 また自明なことですが、治療は二値であり、時点がKまで存在する場合のこの治療計画の総数は2K となり、時点が増えるごとに膨大な数になります。

 この記事の最後にちょろっと出てきますが、個人的には当然計画の数が増えるほどある  \overline{a} を持つ人数は減少するので、IPWは時点が多い場合の推定とは相性が悪いんじゃないかなという印象を今のところ抱いています。(余談です)

 

※研究デザイン上、TreatmentがTime-fixedであってもpositivity violations下(アドヒアランスの違反)ではTime-varyingとみなして解析(補正)を行う場合もあるそうです。

 

時間依存性交絡の問題

 治療が複数時点で行われる場に考えなければならないことは、治療計画についてだけではありません。複数治療がある場合の因果推論を難しくさせている際たる理由が、時間依存性交絡(TIme-varying confounding)という問題です。下図のようなDAGを考えます。なお治療は二時点(t=0, 1)で行われ、各記号は次を意味しています。

  •  A_0, A_1:t=0, 1における治療
  •  W_0:t=0における未測定の指標
  •  L_0:時間依存性交絡因子
  •  U_0:t=1における未測定の共変量
  •  Y:アウトカム

ここで注目するのは  L_1 です。DAGからは以下の2つが分かるかと思います。

  1.  L_1 A_1 とYの交絡因子(common cause)である
    •  A_1 とYの間には L_1を介したパスが開いている(バックドア経路が存在している)ため、調整する必要がある。
  2.  L_1 A_0 からYへの中間因子(mediator)である
    •  L_1で調整をしてしまうと A_1 からYまでのパスをブロックしてしまい、推定結果にバイアスが含まれる。

 

 つまり時間依存性交絡因子については、調整をしてもしなくても、推定結果にバイアスが含まれてしまうというどっちつかずの状況が発生しています。そのため条件付けによる従来の方法(Ex, 回帰モデル)では、no treatment-confounder feedbackという、かなり強い仮定を置かない限り、治療が複数行われる場合の因果効果の正確な推定は出来ません。

 今回の L_1 のような時間変化に依存する(前の治療の影響を受け、かつ同じ時点の治療とアウトカムに対して影響を与える)共変量のことを時間依存性交絡因子(Time-varying / depending confounders)と言います。これは多くの場面で存在する可能性があります。例えば実際の臨床現場でもある時点で治療を行い、その後の予後を見て、次の治療を決めるといったケースは珍しくないかと思います。

 

 このあたりについてはWhat If, chapter20でより詳細に議論されているので、What Ifに関しての記事の方で扱おうかと思います。(時間的に書く余裕がなく滞りがちですが...)

 

 

g-metodsについて

 この時間依存性交絡に対応し、ある治療計画  \overline{a} における潜在アウトカム E[Y \overline{a}] の一致推定量を得る方法としてRobinsによって提案されたのが、以下の3つの手法の総称であるg-methods(Generalized methods)です。

  1. g-computation algorithm formula(g-formula)
  2. inverse probability of treatment weighting(IPTW) of marginal structural models(MSMs)
  3. g-estimation of structurak nested models(SNMs)

 各手法の呼び方については文献によって多少のブレがありますが、今回はRobinsらの文献を優先しています。

 繰り返しになりますが、従来の因果推論の手法でTime-varying treatmentsの因果効果を求めるためには、no treatment-confounder feedback という大変強い仮定が必要であり、それが満たされない場合には推定結果にバイアスが含まれてしまいます。しかし、現実的にこの仮定が満たされる場合はかなり限定的です。それに対して、g-methodsは以下の仮定が満たされる場合に因果効果を算出することが可能です。(より緩い条件で推定可能、識別可能)

      1. 一致性(consistency)
        •  \overline{A} =  \overline{a} である個人に対し、Y  \overline{a} = Y
        • ある治療計画を受けた場合に観測されるアウトカムは、その治療計画に対応する潜在アウトカムと一致する
      2. 条件付き交換可能性(conditional exchangeability)または
        • 全ての \overline{a}_t \overline{l}_t について、Y \overline{a}  \overline{A}_{t}| \overline{A}_{t-1}=\overline{a}_{t-1},  \overline{L}_t=\overline{l}_t
        • ある時点tまでの治療計画は、その時点の共変量とその一つ前の時点までの治療計画で条件つけた場合には、潜在アウトカム Y \overline{a} と独立
        • sequential conditional exchangeability assumption とも
      3. 正値性(positivity)
        •  f_{\overline{A}_{t-1}, \overline{L}_t} ({\overline{a}_{t-1}, \overline{l}_t})≠0であるならば、全ての \overline{a}に対し、 f_{\overline{A}_{t} | \overline{A}_{t-1}, \overline{L}_t} (\overline{A}_{t} |  {\overline{a}_{t-1}, \overline{l}_t}) > 0
 

 この条件はおそらく因果推論を知っている方ならご存知かと思いますが、(Rosenbaum and Rubin, 1983)の3つの識別条件を複数時点の治療に対して拡張したものです。(はてなブログで数式書くの難しいですね。。。)

 

 冒頭でも述べましたように各手法についてはそれぞれ別の記事としてまとめます。ちなみに確定ではないのですが、IPTW & MSMsに関しては、実装例とともに今年のSASユーザー総会でも紹介しようかなと考えているところです。毎年発表資料は総会後に一般公開されますので、g-methodsにご興味のある方はもう少し先の話になりますがそちらもご参照頂ければなと思います。また各手法の記事を出した際には、この記事中にもそちらへのリンクを付け加えます。

 

 

参考文献

以下が参考文献です。全てフリーで見れます。2つ目に関してはchapterの名前で検索をかけるとPDFがヒットするはずです。

www.hsph.harvard.edu

www.routledgehandbooks.com

academic.oup.com