医療統計学を学ぶ大学生のブログ

医療統計学、因果推論を専攻しています。R, SASユーザーです。

潜在アウトカムを用いた因果推論基礎

f:id:NorihiroSuzuki:20210416162819j:plain

(Image by geralt  from Pixabay)

 

因果推論についての理論、手法は様々なものが世の中に出ていますが、すべてを取り扱おうとするとかなりの量になってしまうので、シリーズ化していこうと思います。

第一弾として、今回はルービン因果モデルにおいて最も基礎的な「潜在的アウトカム」と、それを用いた因果効果の定義を取り上げていきます。この記事は、ハーバード大学公衆衛生学部のMiguel Hernan教授の Causal Inference What If のChapter1~3で取り扱っている内容がメインです。該当の図書は、リンク先よりダウンロード可能です。

 

ちなみにWhat Ifは自分が潜り込んでいる大学院のゼミで、去年1年間輪読した本です。他のChapterの内容については、また別の記事で扱っていこうかと思っています。

 

 

 

因果推論のアプローチ

因果推論とは、因果関係をどう考えていくかという学問分野の一つです。

因果推論は、後述する潜在アウトカムを用いたもの(ルービン流)と、因果ダイアグラムを用いたもの(パール流)の二つに大分されます。この記事で扱うのは前者ですが、この2つは根本的に異なっているわけではないので、その点はご理解いただいたうえで読んでいただければいいかなと思います。

 

ルービン因果モデル

潜在アウトカム(Potential outcomes) を用いた因果推論の理論は、ハーバード大学の名誉教授であるDonald Bruce Rubinによって考案されたものです。詳細は後述しますが、このルービン流の因果推論は、ある介入を受けた場合の結果と、受けなかった場合の結果を比較するという考え方です。

 

 

因果効果の定義

潜在アウトカムを用いた表記

ある個人の入塾(A)が彼の成績(Y)に対して効果を与えるかどうかということを考えてみます。すると、学生には入塾をしない(A=0)選択肢と、入塾をする(A=1)選択肢があります。ルービン流の因果推論では、このそれぞれの場合の結果を次のように表記します。

Ya=0:入塾をしない場合の成績

Ya=1:入塾をする場合の成績

ここで入塾をする場合と、しない場合の二つの結果は、個人がとりうる(潜在的に持っている)結果ですので、潜在アウトカム(Potential outcomes)と呼ばれます。また、タイムマシンでもない限りどちらかの結果しか得ることが出来ないわけですから、もしこの個人が入塾をした場合(現実)には、もう一方は仮想上(反事実)の話になってしまいます。このような観点から、反事実アウトカム(Counterfactual outcomes)と呼ばれる場合もあります。

 

そして、この個人レベルでの因果効果(入塾が成績に及ぼす効果)を

Ya=1 - Ya=0 

と定義するわけですが、先ほども述べたように一方の結果しか得られないため算出が不可能です。そこで次に考えるのが集団レベルでの因果効果(平均因果効果)です。集団の比較であるので、比較にはそれぞれの期待値を考えます。すなわち、

 E[Ya=1] - E[Ya=0]

です。これも潜在アウトカムを用いたものなので、現実には一方の結果しか得られず算出不可能なのですが、この次に取りあげる3つの条件が保証される下では算出することが可能になります。

ちなみに、現実問題として因果効果を測定する際には(例えば治験)、集団での平均因果効果(ATE)を考えています。

 

因果効果の3つの条件

 

交換可能性(Exchangeability)

 この因果推論を考えるにあたって最も重要なのは交換可能性(Exchangeability)です。正確には平均交換可能性(Mean Exchangeability)です。

先ほど出てきた因果効果の定義で問題だったのは、Ya=1 と Ya=0 のどちらかしか観測できないことでした。

f:id:NorihiroSuzuki:20210417232004p:plain


この交換可能性という条件は、比較する集団(処置群、対照群)が比較可能、同質であれば、それぞれの群での潜在アウトカムの期待値は同じであるということを意味しています。仮に介入を受ける群と、受けない群を交換しても同じ結果が得られるということですね。

f:id:NorihiroSuzuki:20210417232431p:plain

すなわち、すべてのaに対してYaとAが独立、または

 E[Ya|A=0] = E[Ya|A=1] = E[Ya]

という条件です。

 

蛇足ですが、この交換可能性を保証するのがランダム化(Randomization)で、条件付き交換可能性を持たせるのが、様々な手法による共変量の調整だったりするわけです。

 

一致性(Consistency)

 二つ目の条件は一致性(Consistency)です。先に定義を書いておくと、

すべての個人についてA=a のとき、Ya = Y

というものです。式だけみてもなんのこっちゃとなる方もいらっしゃると思うので、言葉で説明します。

 

先ほどの例では、入塾をしない場合(A=0)と、する場合(A=1)の二つの潜在アウトカム、Ya=1 と Ya=0 がありました。この一致性という条件は、A=aという処置を受けて得られる結果(Y)は、A=aという場合の潜在アウトカムYaに等しい(一致する)ということです。

つまり、あくまで空想上の話であった潜在アウトカムというものを、現実に観測されるデータで置き換える際に必要になる条件になります。

 

当たり前の話だろと思う方が大半かと思いますが、厳密にはもう少し議論しなければいけないポイントもあります。そのあたりは少し話の難易度が上がるので別なタイミングでまとめる予定です。

 

正値性(Positivity)

この最後の条件は、

すべてのaに対してPr[A=a] > 0

というもので、すべての確率が正(Positive)の値であることから、正値性(Positivety)というそのまんまのネーミングになっています。

 

これは、介入を受けない(A=0)集団も、受ける(A=1)集団も存在しているという状況を意味しています。仮にこの条件が成立しない、つまりあるaについてPr[A=a] = 0 になってしまうとそもそも比較対象になる相手がいないということになってしまうので、因果推論も何もありません。

f:id:NorihiroSuzuki:20210418012309p:plain

 

正値性は、交換可能性が必要となる変数Lのすべての組合せにおいて成り立っている必要があります。実験研究においては、研究開始の段階で介入対象と比較対象を準備するのでこの正値性は成立していますが、観察研究では成立しない(比較対象がない)ケースもあります

 

 

因果と相関(Causation VS Association)

 統計やデータ解析をやっていると一度は、「因果関係と相関関係は違う」という趣旨の話を聞くことがあるかと思います。しかし残念なことに、世の中には因果関係と相関関係をごっちゃまぜにしている記事や広告があふれています。

 

f:id:NorihiroSuzuki:20210418175434p:plain

What ifの中で使われている図を引用させていただくと、ここで述べたすべての条件を満たさない限り得られる結果は相関関係(上の図でいうAssociation)でしかありません。

ぜひこの記事を見てくださっている方はその点を十分に理解した上で、データ分析や更なる学習につなげていただけると、筆者的にはこの記事を書いたかいがあったかなと思います。

 

 

今回潜在アウトカムについてまとめるにあたっていくつか省略している部分もありますので、もし因果推論にさらに興味がある方がいらっしゃいましたら、専門書等でさらにご確認いただければ幸いです。