生物統計学を学ぶ大学生のブログ

生物統計学、因果推論を専攻しています。R, SASユーザーです。

Causal Inference: What If, Chapter3(前半)

 本記事はWhat If, Chapter3: Observational studiesの前半部分 (3.1~3.3) ついてです。Chapter2の内容については以下の記事にてまとめています。

norihirosuzuki.hatenablog.com

 個人的な学習やゼミの関係でchapterごとにスライドも作成しております。ブログやスライドに誤りがある場合にはご指摘いただけますと幸いです。Chapter3の前半の構成は以下の通りです。

 

Preface

 まず、Chapter2のprefaceで扱った以下の因果的な問い (causal question) を再度考えます。

Does your looking up at the sky make pedestrians look up too? 

 

あなたが空を見上げることは歩行者が空を見上げることを引き起こすか?

 Chapter2ではこの疑問に答えるためにランダム化実験を行うことを考えました。しかし、実験を数千回行うことは、研究終了までにかなりの時間を要することに加え、研究実施者が空を見上げるという動作を膨大な回数行うことから、研究実施者の(首の)健康に好ましくありません。よって、今回はランダム化実験ではなく以下のような研究を行うことを考えます。

  1. 空を見上げておらず立ち止まっている近くの歩行者を探す
  2. 1の歩行者に向かって歩いており、同様に空を見上げていない歩行者を探す
  3. 1, 2の歩行者の10秒間の行動を記録する
  4. 1~3を数千回繰り返す
  5. 1の歩行者が空を見上げた後に2の歩行者が空を見上げた割合と、1の歩行者が空を見上げる前に2の歩行者が空を見上げた割合を比較する

 ここで上記の研究を実際に行ったとします。すると2人の歩行者が共に空を見上げたという行動は、1の歩行者が空を見上げたことが2の歩行者が空を見上げたことを引き起こしたことによるものではなく、雷が鳴ったり、雨が降り始めたことによるものであると批判される可能性があります。よって、因果関係(空を見上げることが他の歩行者の空を見上げる行動を引き起こす)については結論を出すことが出来ません。なお、この研究例のように研究者が観察し、その関連するデータを記録する研究のことを観察研究 (observational study) といいます。

 

 上記の批判はランダム化実験に対しては発生しないため、ランダム化実験は因果推論の理論において中心的な役割を果たします。しかし、chapter2の最後で言及があったようにランダム化実験の実施は金銭的、倫理的、時間的観点から制約されることがあります。また、我々が一般常識として考えている既存の知見の多くは観察研究によって得られたものです(e.g., 地殻変動、進化論、天体物理学)。Chapter3では観察研究において妥当な因果推論を行うための条件について説明を行っていきます。

 

 

Identifiability assumption

 Chapter2で紹介を行ったように、理想的なランダム化試験においてはランダム化により治療群と対照群の交換可能性が期待されるため、興味のある平均因果効果を定量化することが可能です。例えば治療を心臓移植とした場合の周辺ランダム化実験 (marginally randomized experiment) において、交換可能性は以下の2つを意味しています。

  1. 実際に心臓移植を受けた集団が、移植を受けなかった場合に観測される死亡リスクは、実際に心臓移植を受けなかった集団における死亡リスクと等しい
  2. 実際に心臓移植を受けなかった集団が、移植を受けた場合に観測される死亡リスクは、実際に心臓移植を受けた集団における死亡リスクと等しい

よってランダム化実験においては、実際に治療を受けた集団と受けなかった集団という部分集団の比較結果(関連, association)は因果関係を示していると考えることが出来ます (association is causation) 。なおこのchapterでは議論の単純化のためにすべての被験者が追跡され、かつ実験期間中割り当ては完全に順守されるランダム化実験のみを考えます。脱落や割り当ての違反が発生する場合の議論についてはchapter8, 9をご参照ください。

 一方観察研究においては、ランダム化実験のように研究で観察された結果をそのまま因果関係をしめしているものとして解釈することは妥当ではありません。これはランダム化が行われていないことによるものです。例えば、同様に興味のある治療を心臓移植とした場合の観察研究を考えてみます。ここで、重篤な被験者ほど心臓移植を受ける可能性が高い(より積極的に治療を受ける傾向がある)とすると、対照群より治療群の方が潜在的な死亡リスクが高い(治療群に予後が悪い人が多い)ことが期待されます。すなわち、両群は交換可能ではなく、観察される結果は治療の因果効果に加えて集団の特性の違いも影響します 。よって得られた結果は因果関係を意味しません (association is not causation) 。

 

 ランダム化により期待される(完全)交換可能性は非常に重要な性質です。しかしPrefaceにもあったように、現実にはランダム化実験ではなく観察研究のデータを用いてある変数間の因果関係を考える場合があります。その際に妥当な因果推論を行うためにはどうすればよいのでしょうか。それが観察研究を条件付きランダム化実験とみなすという考え方です。つまり測定された共変量Lの条件下でランダム割り当てが行われたかのように解析を実施する方法になります。インフォーマルには以下の3つの条件が成立している場合に、観察研究を条件付きランダム化実験とみなすことが可能です。

  1. the values of treatment under comparison correspond to well-defined interventions that, in turn, correspond to the versions of treatment in the data
    • 比較の対象となる治療の値は十分に定義された介入に一致し、その介入はデータ中の治療のバージョンに順に対応する
    • 一致性(consistency)
      • Chapter1参照
  2. the conditional probability of receiving every value of treatment, though
    not decided by the investigators, depends only on measured covariates L
    • 治療の各値を受ける条件付き確率は、研究者によって決定されないが、測定された共変量Lのみに依存する
    • 交換可能性 (exchangeability)
      • Chapter2参照
  3. the probability of receiving every value of treatment conditional on L is
    greater than zero, i.e., positive 
    • Lの条件付きで治療の各値を受ける確率は0よりも大きい(正の値をとる)
    • 正値性 (positivity)
      • Chaptetr2, Technical Point 2.3参照

 

 観察研究において因果推論を行う場合には上記の3条件を仮定することが必要でありしばしばこれらの条件の成立を認めることは希望的観測に過ぎないため、観察研究における因果推論が懐疑的にみられることがあります。しかしながら、観察研究の条件付きランダム化実験への模倣が正しいのであれば、chapter2で紹介したIPWや標準化といった手法を適用することにより、興味のある因果効果を観察データから算出することが可能です。なお上記の3つの条件のことを識別可能条件 (identifiability conditions, assumptions) といいます。

 

 識別可能条件に関してまず重要であることは、理想的なランダム化実験においてはその研究デザイン上、識別可能条件は保持されることです。つまり条件付きランダム化実験において興味のある因果効果を算出するために必要な情報は下表のように、その因果効果に興味のある治療A、アウトカムY、ランダム化に用いる共変量Lだけです。

 対照的に、観察研究においては因果効果を推定するためには識別条件が保持されることを仮定する必要があり、当然のことですが、その成立は真には成り立っていない可能性もあります。つまり観察データから因果推論を行うためにはデータと識別可能条件という2つの要素が必要になります。識別可能性に関するより正確な定義についてはFine Point 3.1をご参照ください。もし識別可能条件のいずれかが保持されない場合には、観察研究を条件付きランダム化実験とみることが出来ません。そのような場合に因果推論を行うには、異なる仮定を要求する方法を用いる必要があります。その1つがchapter16で紹介がある操作変数法 (instrumental variale methods) になります。

 

 観察研究を条件付きランダム化実験とみなすという考え方は、その模倣が妥当である分野(e.g., 疫学)では伝統的に用いられていますが、一方で妥当ではない分野(e.g., 経済学)では操作変数法の方がより一般的に考えられているそうです*1。What Ifではchapter16まで前者の共変量調整を行う方法について注目していきます。ちなみに、Neymannによるランダム化実験に関する理論の観察研究に対する拡張は (Rubin, 1974), (Rubin, 1978)で議論がされており、また(Rosenbaum and Rubin, 1983)では交換可能性と正値性の組み合わせをweak ignorabilityと、完全交換可能性と正値性の組み合わせをstrong ignorabilityと呼称しています。

 

Fine Point 3.1

Identifiability of causal effects(因果効果の識別可能性)

 ある一連の仮定が、観測されたデータの分布が効果指標の1つの値に対応することを意味する場合、平均因果効果は特定の仮定の下で(ノンパラメトリックに)識別可能であると言います。それとは逆に、観測データの分布が効果指標の複数の値に対応する場合、平均因果効果はその仮定の下で識別不可能であると言います。いわゆる一意に定まるかどうかという話です。少し分かりにくいので、先ほどと同様の表データを用いつつ具体的に考えます。

 上表のデータがLでの条件付きランダム化実験で得られたものであるとすると、条件付き交換可能性 (Y^a⊥A|L) は研究デザイン上成立するため、因果効果は識別可能です。よって表のデータで計算される関連リスク比は因果リスク比と一致し、その値は1と計算されます。また追加の仮定は必要ありません。

 しかし、上表のデータがランダム化実験ではなく観察研究によって得られたものであるとすると、条件付き交換可能性 (Y^a⊥A|L) を仮定してデータを補完した場合のみ、因果リスク比の値が1であると計算がされます。つまり、観察研究において因果効果を識別するためには観察されたデータの外部(観察されない部分のデータ)に対して条件を仮定することが必要になります。実際に識別可能条件を用いてデータを補完しないとすると、上表でのデータは群間でのY^a⊥A|L以外の危険因子の分布の状況によって以下のような因果リスク比の値に一致します(上表のデータでの関連リスク比は1)。

  • 治療群にLを除く危険因子が多い場合
    • 1よりも小さい値に一致(観察された集団では本来よりも死亡リスクが高く計算されているため)
  • 対照群にLを除く危険因子が多い場合
    • 1よりも大きい値に一致(観察された集団では本来よりも死亡リスクが高く計算されている)
  • 治療群と対照群にLを除く危険因子が均等に分布する場合、もしくは同等にY^a⊥A|Lである場合
    • 1に一致

 このchapterでは、平均因果効果のノンパラメトリックな識別のための3つの識別条件について紹介を行います。Chapter16: Instrumental variable estimationでは、平均因果効果のノンパラメトリックな識別に十分となる代替的な識別条件について言及を行います。

 

 

Exchangeability

 Chapter2で交換可能性 (exchangeability) Y^a⊥Aについて紹介を行いました。例えば、周辺ランダム化実験(i.e., 無条件でのランダム化が行われる実験)においては以下の2つの成立が期待され、治療群と対照群は交換可能でした。

  • 実際に治療を受けた集団が、仮に治療を受けなかった場合に観測される潜在アウトカムの期待値は、実際に治療を受けなかった集団のそれと等しい
  • 実際に治療を受けなかった集団が、仮に治療を受けた場合に観測される潜在アウトカムの期待値は、実際に治療を受けた集団のそれと等しい

これはランダム化により、両群でアウトカムの独立した予測因子が均等に分布することが保証されるためです(完全交換可能性, Technical Point2.1参照)。なおアウトカムの独立した予測因子とは、治療のレベル内でアウトカムYに関連する共変量のことを意味します。また、二値アウトカムに対しては危険因子 (risk factors) と呼ばれることがあります。

 

 ここまで何度も具体例として取り上げている下表のデータは、ベースライン時の重症度L=1が対照群 (A=0) では43%、治療群 (A=1) では69%となっていることから、chapter2ではLでの条件付きランダム化実験によって得られたものであると結論づけられていました(周辺ランダム化実験では50%となることが期待されるため)。よって、交換可能性Y^a⊥Aは成立していません。ただしこういった予測因子の不均衡(たまたまいずれかの群に共変量が偏る)はランダム化実験であっても有限母集団に対しては発生する可能性はあります。この点については、その偶然の偏りを無視できるほど集団のサイズが大きいという仮定が置かれていたかと思います(1人を10億人と見立てる)。

 

 一方で治療を受ける確率がLに依存する条件付きランダム化実験では、治療群と対照群の間で独立した予測因子Lが不均衡に分布することが、そのデザイン上予想がされます。あくまで条件付きランダム化実験においては期待されるのは、変数Lの各水準 (L=0, 1) における交換可能性(条件付き交換可能性)であり、集団全体で見た時にはLがいずれかの群に偏る可能性もあります。実際に、上表20名の集団全員で見ると、重症患者 (L=1) の被験者のほうが治療を受ける傾向があります(治療群の方が予後が悪い人が多い)。また、ランダム化は完全交換可能性を保証しますので、Lの各レベルではL以外の予測因子も均等に分布することが期待されます。

 

 さて、ここまでは治療の割り当てがランダムに行われるランダム化実験に関しての話でしたが、観察研究に話題を戻します。治療の割り当てがランダムに割り当てられていない場合、治療を受ける理由はアウトカムの予測因子に高確率で関連します。つまり。観察研究においては、(集団全体で見た時の)治療群と対照群の間でアウトカムの予測因子の分布が、条件付きランダム化実験のように異なるのが一般的です。

 例えば、上表のデータは移植可能な心臓の数が限られており重症な被験者L=1な人に優先して医師が移植手術を行ったという観察研究によって得られたものであるかもしれません(L=1の人ほどA=1, Y=1となる傾向がある)。ここで治療群と対照群において不均衡に分布するアウトカムの予測因子がLのみであるとすると、上表のデータは以下のいずれかの研究によるものであると言うことが出来ます。

  1. 治療を受ける確率A=1L=1の被験者においては0.75、L=0の被験者においては0.50である観察研究
  2. 研究者がL=1の被験者に0.75、L=0の人に0.50の確率でランダムに治療を割り当てた(非盲検)条件付きランダム化実験

これらの研究の特徴は論理的には等価です。すなわち、条件付き交換可能性 (Y^a⊥A|L) が成立しており、chapter2で紹介を行ったように標準化ないしはIP weightingを用いることで興味のある因果効果を算出することが可能です。

 

 もちろん、観察研究において重要な問題は、群間で不均衡に分布するアウトカムの予測因子がLのみであるかどうかという点です。ただ残念ながらこれはデータからは検証不可能であり、あくまで”仮定”するしかありません。上記の観察研究の例に関しては、研究者は以下の理由から条件付き交換可能性の成立が妥当であると考えています。

  1. 心臓移植は移植の拒絶反応の発生確率が低い人に割り当てられるため、あるヒト白血球抗原 (HLA) 遺伝子を持つ心臓は、適合する遺伝子を持つ患者に割り当てられる
  2. HLA遺伝子は死亡の予測因子ではないため、Lのレベル内では治療の割り当ては本質的にランダムである
  3. よって、研究において条件付き交換可能性 (Y^a⊥A|L) を仮定することは妥当である

 ここでキーになるのは”仮定 (assumption) ”というワードです。つまり、どれほど研究実施者の仮説に説得力があるとしても、ランダム化が行われていない以上、条件付き交換可能性の成立はどこにも保証がありません。例えば、実は医師は非喫煙者に対して好んで心臓移植を行うという傾向があり、そのことを研究者が認知していない場合を考えてみます。するとL=1の被験者2名のHLA遺伝子が類似していたとしても、一方が喫煙者 (U=1) 、もう一方が非喫煙者 (U=0) である場合にはU=1の方が治療A=1を受ける確率が高くなります。よってL=1の層における治療群(喫煙者U=1の割合が低い)と対照群(喫煙者U=1の割合が高い)に関しては、死亡に関しての重要な予測因子である喫煙の分布が異なり、Lを与えた下での条件付き交換可能性が成立していないことが分かるかと思います。ここで重要なのは、もし研究者がこの事実に気づき喫煙に関する情報を集めたとしても、他の知らないアウトカムの予測因子の不均衡を防ぐことにはならないことです。つまり研究者が知らない限りそれらは未測定のままになります*2

 したがって観察研究においては、条件付き交換可能性Y^a⊥A|Lは成立しない可能性があります。具体的には条件付き交換可能性Y^a⊥A|Lは、Lの層において未測定のアウトカムの独立した予測因子U が存在する場合(e.g., Lの層において治療Aを受ける確率がUに依存する)に成立しません。さらに厄介なことは、仮に条件付き交換可能性Y^a⊥A|Lが成立していたとしても、それを経験的に(データから)検証することが出来ないことです*3。これは上記の例で、喫煙に関するデータが収集されないときに、観察された集団の(L各層における)治療群、対照群の喫煙の分布を確認することが出来ないことからも分かるかと思います(それ以外の予測変数についても同様)。よって、観察研究で得られたデータを分析する場合には、専門家の知見や先行研究による論理(調整すべき共変量がどれか)が正しく、かつ十分なデータが集められ、条件付き交換可能性の成立が少なくとも近似的に真であることが必要になります。 

 

Fine Point 3.2

Crossover randomized experiments(クロスオーバーランダム化実験)

 Chapter2, Fne Point 2.1ではcrossover experiments(クロスオーバー実験)について紹介を行いました。概要だけ述べると、クロスオーバー実験とは2つ以上の介入時点が存在し、個人はそれぞれの時点において異なる治療の値を受ける実験であり、以下の3条件の下で個別因果効果を識別できます。

  1. 治療の持ち越し効果がない
    • Y_{it=1}^{a_0, a_1}=Y_{it=1}^{a_1}
  2. 個別因果効果は時間に依存しない
    • Y_{it}^{a_t=1}-Y_{it}^{a_t=0}=α_i for t=0, 1
  3. 未治療の場合の潜在アウトカムは時間に依存しない
    • Y_{it}^{a_t=0}=β_i for t=0, 1

クロスオーバー実験においてはランダム化は必要とされていませんでしたが、ここで、個人が受ける治療の値の順序がランダム割り当てされているクロスオーバーランダム実験に注目します。

 治療割り当てのランダム化は時間的な効果がある場合、すなわち上記の3つめの条件が成立しないときに重要になります。ここで議論の単純化のために、すべての被験者は(A_{i1}=1, A_{i0}=0)もしくは(A_{i1}=0, A_{i0}=1)に確率0.5でランダム割り当てが行われるものであるとします。そしてある個人it=0, 1でそれぞれ未治療である場合の潜在アウトカムの差分としてr_iを定義します。すなわち、r_i=Y_{it}^{a_1=0}-Y_{it}^{a_0=0}とします。ここで、上記の1, 2の条件と一致性より、以下が導かれます。

  • (A_{i1}=0, A_{i0}=1)であるとき、Y_{i1}-Y_{i0}=α_i+r_i
  • (A_{i1}=1, A_{i0}=0)であるとき、Y_{i0}-Y_{i1}=α_i-r_i

r_iというのは未知ですので個別因果効果を識別することが出来ません。しかし、A_{i1}, A_{i0}はランダム化されていることからr_iとは独立であり、(Y_{i1}-A_{i0})A_{i1}+(Y_{i0}-A_{i1})A_{i0}の平均は平均因果効果E[α_i]の推定量となります。もし仮定する条件を1, 2ではなく、1のみであるとすると、その平均は時点t=0, 1での治療の平均因果効果の平均(E[α_{i1}]+E[α_{i0}])/2の推定量となります。なお、E[α_{it}]はE[α_{it}]=Y_{it}^{a_t=1}-Y_{it}^{a_t=0}です。

 結論としては、1の条件が成り立つのであればクロスオーバー実験により平均因果効果を求めることが可能です。しかし、What Ifで議論しているような心臓移植といった治療や死亡というアウトカムに関して持ち越し効果がないという仮定を置くことは現実的ではありません。

 

Positivity

ランダム化実験の場合

 心臓移植Aが5年以内の死亡Yに及ぼす因果効果を計算するために、ある研究者が実験を行うことを計画してるとします。このときある被験者には治療A=1を、別な被験者には治療A=1を研究者が割り当てるのは至極当然のことかと思います。では、被験者全員をA=1、もしくはA=0に割り当てるとどうなるでしょうか。もしも全ての個人が同じ治療レベルを受けた場合には、平均的な因果効果を計算することは出来ません。これはA=1を全員が受けた場合にはE[Y^{a=0}]を考えることが出来ないことから明らかかと思います(逆も同様)。よって、それぞれの群に被験者をほぼ確実に割り当てることが必要になります。異なる言い方をするのであれば、0よりも大きな確率、すなわち、正の値でそれぞれの治療レベルに割り当てられることを保証する必要があります。これが正値性 (positivity) です*4

 

 このセクションの冒頭で、実験研究の例を挙げる際に正値性について触れなかったのはその成立は実験研究の場合には当然であるためです。例えば周辺ランダム化実験では、そのデザイン上治療群に割り当てられる確率Pr[A=1]、対照群に割り当てられる確率Pr[A=0]はともに正です。また条件付きランダム化実験に関しても、変数Lの任意の層において治療を割り当てられる確率Pr[A=1|L=l]、対照群に割り当てられる確率Pr[A=0|L=l]は、ともに正になります。再度の登場になりますが、下表のデータが条件付きランダム化実験によって得られたものであるとすると、重傷患者における治療割り当て確率Pr[A=1|L=1]は0.75、軽症患者における治療割り当て確率Pr[A=1|L=0]は0.50となります*5

ここで、これらの確率がどちらも0(ないしは1(心臓移植が実施されない))ではないためLを条件として正値性が成立しています。一般には、因果的な対比に関するすべてのaに対してPr[A=a|L=l]\gt0である場合に正値性が成立していると言い、正値性は興味のある母集団において存在する値lに対してのみ必要です。

正値性 (Positivity) 

  • Pr[A=a|L=l]\gt0 for all values l with Pr[L=l]≠0 in the population of interest

加えて、正値性に必要な変数Lというのは交換可能性の成立に必要な変数だけです。例えば上表のデータが条件付きランダム化実験によるものであるとき、治療群と対照群の交換可能性を達成するために必要な変数は被験者の重症度に関する情報のみであり、被験者の目の色のような変数に対しては正値性が成立している必要はありません(なお目の色はアウトカムの独立した予測変数ではない)。つまり標準化やIP weightingによって計算されるリスクが潜在的なリスクに一致するためにはLのみを調整すればよく、目の色の様な関係のない変数に対しては正値性の成立だけでなく、調整をする必要もありません。

 

観察研究の場合

 上記はランダム化実験に関しての正値性の話でしたが、観察研究においては正値性も交換可能性も保証はされません。例えば下図のように、重症患者に対しては医師が常に心臓移植を行う場合 (i.e., Pr[A=0|L=1]=0) には正値性が成立していないことが明らかに分かるかと思います。ただ、正値性は交換可能性と違ってデータから検証できる場合があります。この点についてはchapter12をご参照ください。

 一方で、観察研究によって先ほどまでと同様に下表のデータが得られていた場合、これはL=0, 1の各層での治療群 (A=1) 、対照群 (A)が存在する(人数が0ではない)ので、Lに関しての正値性は成立しています。

 

 Chapter2で標準化やIP weightingについて説明をする際に、交換可能性についてはその意図するところが明示的に言及されていたものの、正値性に対しては暗黙的にしか触れられていませんでした。しかし、定義した標準化リスクおよびIP weightingリスクは、正値性が保持されて初めて意味を持ちます。なぜ正値性が成り立たないときにそれらがうまく定義されないかを直感的に理解するために、上の樹形図を再度見てみます。すると、L=1で治療を受けなかった (A=0) が存在していないため、集団全体がもしも治療を受けなかったらということを考えるための情報がデータには含まれていません。詳しくは次回の記事にあるTechnical Point3.1を参照いただければ幸いです。

 

 

 分量の都合上、今回の記事から1つのchapterを半分に分けてブログ化します。疑問点や記事中の誤りがある場合にはご質問、ご指摘いただけると幸いです。また今回の資料は以下になります。

speakerdeck.com

 

*1:特に条件付き交換可能性(未測定交絡が存在しない)という仮定の成立が非現実的かと思います

*2:未測定変数をUとし、また測定された共変量Lのみでは条件付き交換可能性の成立が不十分である場合には標準化やIP weightingを用いても因果効果を識別することは出来ない

*3:条件付き交換可能性の成立を確認するためにはPr[Y^a=1|A=a, L=l]=Pr[Y^a=1|A≠a, L=l]であることを示す必要があるが、潜在アウトカムの結束の問題からそれは不可能

*4:experimental treatment assumptionと呼ばれることもある

*5:0.75, 0.50という値は表における[L=0, 1]の層でA=1となる”割合”であるが、集団のサイズが十分に大きいと仮定しているため、割り当ての確率としてみなしている