生物統計学を学ぶ大学生のブログ

生物統計学、因果推論を専攻しています。R, SASユーザーです。

Causal Inference: What If, Chapter2

 本記事はWhat If, Chapter2: Randomized experimentsについてです。Chapter1の内容については以下の記事にてまとめています。

norihirosuzuki.hatenablog.com

 個人的な学習やゼミの関係でchapterごとにスライドも作成しております。ブログやスライドに誤りがある場合にはご指摘いただけますと幸いです。Chapter2の構成は以下の通りです。

 

Preface

Does your looking up at the sky make pedestrians look up too? 

 

あなたが空を見上げることは歩行者が空を見上げることを引き起こすか?

 この疑問には以下のような因果的な問い (causal question) の主要な要素が含まれています。

  • Action(行動):空を見上げること
  • Outcome(アウトカム):他者が空を見上げること
  • Population(母集団):e.g.) 2019年にマドリードに在住する人々)

ここで我々はこの疑問に答えるために以下のような研究デザインを考えました。

  1. 路上に立ち、歩行者が通るたびにコイントスを行う
  2. コインが表であれば空を見上げ(介入を行う)、裏であれば前を向き続ける(介入を行わない)
  3. 1, 2を数千回繰り返し、介入を行った場合に10秒以内に空を見上げた被験者割合が介入を行わなかった場合のそれよりも大きければ、介入はアウトカムに対して因果効果を持つと結論づける

 実際に上記の研究を行なったときに介入を行った場合、行わなかった場合で歩行者が空を見上げた割合はそれぞれ55%, 1%であり、これは因果関係の存在を示唆する結果として受け取ることができます。

 ここで重要なのは、介入の実施の有無をコイントスを用いてランダム(無作為)に決定したことです。仮にコイントスではなく、歩行者の性別によって介入の実施を決めるという決定論的なルールを考えてみます。すなわち、男性であれば介入を行い、女性であれば介入を行わないものとします。この時、仮に全く同じ結果 (55% vs. 1%) が得られたとしても、その違いは介入による因果効果であると結論付けることは説得力に欠けます。なぜならばこの得られた結果の違いは、男性と女性という性別の差(e.g., 女性の方が空を見上にくい傾向)による可能性があり、本質的に集団(介入群、対照群)が比較可能ではないからです。

 では、なぜ介入の実施をランダムに決定した場合に得られた結果が因果関係に関する議論に重要となるのかでしょうか。本章ではその理由について説明を行います。なおこの具体例は次章以降も登場します。

 

 

Randomization

潜在アウトカムの欠測の問題

 Chapter1ではゼウスら20名の治療を受けた場合 (A=1]) 、受けなかった場合 (A=0) の潜在アウトカムY^{a=1}, Y^{a=0}がともに得られていました。しかし、我々が現実に得ることができるのは実際に受けた治療Aとその時観察されたアウトカムYだけです。ここで20名について下表のようなデータが得られたとします。

各個人に対して想定される潜在アウトカムY^{a=0}, Y^{a=1}は、A=0である場合にはY^{a=0}が、A=1である場合にはY^{a=1}がアウトカムYとして観測がされます*1。言い方を変えますと、治療群においてはY^{a=0}が、対照群においてはY^{a=1}が欠測します(表の?は欠損を意味)。しかしchapter1で紹介したように集団での因果関係を議論するためには集団全員のY^{a=0}, Y^{a=1}の情報が必要であり、あくまで上記のデータ (missing data) が示しているのは部分集団同士の関連 (association) に過ぎません。つまり、算出が可能なのはeffect measuresではなく、association measuresです。

 上記のような潜在アウトカムの欠測の問題はランダム化実験であっても他の研究と同様に生じます。しかし、ランダム化はこの欠測の発生がランダムに起きたものであることを保証するため、ランダム化実験においては因果効果を示すeffect measuresを計算すること(厳密にはそれらの一致推定量を得ること)が可能です。

 

 

交換可能性 (Exchangeability)

 ここでchapter1の最後で紹介した以下の図をもう一度考えます。

ひし形は興味のある母集団全体を示しているものであるとし、そのサイズはほぼ無限であるとします(i.e., 無限母集団を想定)。また、母集団に含まれる各個人はコイントスの結果が表であれば白色で表される治療群へ、裏であれば対照群へ割り当てられるとします。このとき重要であることは割り当てがコイントスによりランダムに決定されることであり、その確率が50%ずつ(平等)である必要はないことです。そして治療群 (A=1) では試験薬が、対照群 (A=0) ではプラセボが投与され、それぞれの群での5日後の死亡リスクはPr[Y=1|A=1]=0.3, Pr[Y=1|A=0]=0.6 でした。すなわち関連リスクは0.5、関連リスク差は=-0.3です。また、上記のランダム化実験は以下が満たされる理想的なものであるとします。

  • 追跡不能が存在しない (no loss to follow-up)
  • 治療割り当てが研究期間中完全に順守される
  • 治療のバージョンは1つ (i.e., no multiple versions of treatments)
  • 二重盲検が実施(Chapter9を参照)

 なお、このような理想的なランダム化実験を想定することは非現実的ですが、因果関係を考える上では(因果推論を学ぶにあたっては)非常に有用であり、現実的な状況における因果推論についてはWhat Ifの後半で紹介がされます。

 

 さて、次に誤って治療の割り当てが逆に行われてしまった場合を考えてみます。すなわち、図中のTreatedとUntreatedに含まれる個人が想定していたこと真逆に治療を受けるとします(治療群では治療が行われず、一方対照群では治療が行われる)。ここで我々はこの誤りを研究終了時に初めて認知したとしたとき、得られる結果にはどのような影響があるでしょうか。その答えは「全く問題がない」です。つまり、実際に治療を受けた群(ややこしいですが図のグレーの部分集団)の死亡リスクは先ほどと同様Pr[Y=1|A=1]=0.3となり、治療を受けなかった群の死亡リスクはPr[Y=1|A=0]=0.6となることが予想されます。そして結果として計算されるassociation measuresの値も変化しないことが予想されます。これは治療の割り当てがランダムに行われたことにより、どの群が治療を受けるかとPr[Y=1|A=1], Pr[Y=1|A=0]が無関係であるためです。このことをフォーマルには、「治療群と対照群が交換可能 (exchangeable) である」と言います。

 

交換可能性 (Exchangeability) とは、上記のように仮に治療群が対照群であったとしても、もしくは対照群が治療群であったとしても同様の死亡リスクが得られるということを意味するものです。つまり、潜在アウトカムの表記を用いると、ある治療aを受ける場合の治療群での死亡リスクPr[Y^a=1|A=1]は対照群での死亡リスクPr[Y^a=1|A=0]と等しいことを意味し、今回は治療は二値であるため下記のようにa=0, 1のそれぞれの場合での等号成立を意味するものです。

  • Pr[Y^{a=0}=1|A=1]=Pr[Y^{a=0}=1|A=0]
  • Pr[Y^{a=1}=1|A=1]=Pr[Y^{a=1}=1|A=0]

さらに、すべてのとりうる治療で定義される部分集団 (A=0, 1) においての条件付きリスクが等しいので、当然のことですがそれは無条件でのリスク(母集団におけるリスク)と等しくなります。つまり上記の2つの等式は以下のようにさらに書き直すことが出来ます。

  • Pr[Y^{a=0}=1|A=1]=Pr[Y^{a=0}=1|A=0]=Pr[Y^{a=0}=1]
  • Pr[Y^{a=1}=1|A=1]=Pr[Y^{a=1}=1|A=0]=Pr[Y^{a=1}=1]

因果効果の算出の際に使用するのは、Pr[Y^{a=0}=1]及びPr[Y^{a=1}=1]です。ここで一致性を組み合わせることにより以下のような等式が成り立ちます(1つ目の等号は交換可能性、2つ目の等号は一致性によるもの)。

  • Pr[Y^{a=0}=1]=Pr[Y^{a=0}=1|A=0]=Pr[Y=1|A=0]
  • Pr[Y^{a=1}=1]=Pr[Y^{a=1}=1|A=1]=Pr[Y=1|A=1]

つまりは、先ほども取り上げた下図において、実際に治療を受けた部分集団(白色)において得られる結果は母集団全体が治療を受けた場合の結果(ひし形が全部白色だった時の結果)を、実際に治療を受なかった部分集団(グレー)において得られる結果は母集団全体が治療を受けなかった場合の結果(ひし形が全部グレーだった時の結果)をそれぞれ意味してると考えることが出来るわけです。

前述のようにそれぞれの部分集団における死亡リスクは計算ができますので、今回のランダム化が行われた実験においては、Pr[Y^{a=1}=1]=0.3, Pr[Y^{a=0}=1]=0.6と考えることが出来ます。

 同義的に、交換可能性は以下のように潜在アウトカムの値と実際の治療Aがすべての値aについて独立であることを意味します。

Y^a⊥A, for  all  a  *2

また”交換可能性”という言葉は外生性 (exogenety) と呼ばれることもあるそうです(おそらくは経済学の分野だったかと思います)。

 

 ここでHernanらによる、ランダム化実験における交換可能性の別な考え方が紹介されています。それがどういうものかというと、潜在アウトカムY^aは個人の遺伝的な体質、治療Aがランダムに割り当てられる前に存在している個人特有の固定された特徴のようなものであると考えることが出来るそうです。これはY^aは治療aに割り当てられた時の結果を示しているものであり、その後に受けるであろう治療には依存していないためです。治療Aはランダム化されているので、個人の遺伝子にも潜在アウトカムにも影響しません。ただこの遺伝的な反応の違いと潜在アウトカムの違いは、概念的に潜在アウトカムY^aは実際に治療aを受けたときのみ観測することが出来るということになります。

 これは鈴木の個人的な理解になりますが、個人の遺伝的な反応(e.g., アレルギー反応)は確かにその対応する治療a(e.g., 飲食物の接種)を受けたときに知ることが出来ますが、現在ですとアレルギー検査のような形で実際に受けずとも知ることが出来るということを、潜在アウトカムとの違いとして言っているのではないかなと思います。

 

 

独立性の違い

 Y^a⊥AY⊥Aの違いを再度説明します。交換可能性 (Y^a⊥A) は、潜在アウトカムと実際の治療の独立性です。これはここまで説明してきたように、治療群 (A=1) と対照群 (A=0) が、同じ治療のレベル (a=0, 1) を受けた場合に死亡リスクとなることを意味するものです。しかしY^a⊥Aは、観察されたアウトカムと実際の治療の独立性Y⊥Aを意味しません。例えば交換可能性が成立し、治療が因果効果を持つ場合のランダム化実験を考えます。すると観測されるアウトカムYの値は受ける治療に関連しますので、Y⊥Aは保持されません。

 

 さて下表で表される冒頭で取り上げた20名のデータにおいて交換可能性が成立するのでしょうか。今回の場合、治療は二値変数ですのでこの問いに答えるためにはa=0, 1のそれぞれの場合でY^a⊥Aが成立するかどうかを確認する必要があります。

 まずはa=0の場合に注目し、chapter1で扱ったような、すべての個人の潜在アウトカムの情報が完全に分かる20名分のデータが得られたとしましょう。

ここで、実際に治療を受けた13名における治療を受けなかった場合の死亡リスクは、Pr[Y^{a=0}=1|A=1]=7/13であり、実際に治療を受けなかった7名における治療を受けなかった場合の死亡リスクはPr[Y^{a=0}=1|A=1]=3/7です。a=1についても同様です。Pr[Y^{a=1}=1|A=1]=7/13であり、Pr[Y^{a=0}=1|A=1]=3/7となっており、いずれの場合であっても治療群での死亡リスクは対照群よりも大きいので (7/13 > 3/7) 、治療群の方が予後が悪い(イベントの発症がしやすい)ということ、つまりは交換可能ではない(交換可能性は成立しない)ということになります。

 現実世界では、潜在アウトカムの情報が完全には得られず、不完全な情報(e.g., このセクションの冒頭のデータ)のみが得られます。20名の不完全なデータからは治療群が仮に治療を受けていなかった場合の死亡リスクPr[Y^{a=0}=1|A=1]は計算することが出来ないため、我々は一般にその研究で交換可能性が成立するかどうかを判断することは出来ません。しかし何らかの方法で完全なデータが得られ、上記のように交換可能性が成り立たないと判断できたとしましょう。その時、ランダム化実験ではないと結論づけることは可能でしょうか(交換可能性の成立はランダム化実験であることを意味するか)。その答えはNoです。

 その理由は2つあります。1つは母集団のサイズが小さすぎることです。20名からのサンプリングではそのサンプリングによる偶然誤差の影響が大きすぎるため、以降は母集団の1人は10億人を意味しているとします(偶然誤差についてはchapter10を参照)。おそしてもう1つの理由は、仮に無限母集団において交換可能性が成立していなくともある研究がランダム化試験である可能性はあります。ただこれについては、1つのコインによるランダム化ではなく、複数のコインによるランダム化が行われる研究デザインを説明する必要があるため、Conditional randomizationのセクションで扱います。

 

Technical Point 2.1

Full exchangeability and Mean exchangeability

 本文では交換可能性について紹介をしていましたが、厳密には”交換可能性”というワードがつくのは複数あります。

 ランダム化が意味するのは治療Aと潜在アウトカムY^aの同時独立です。これはそれぞれのaにおけるY^a⊥Aを意味するものの、その逆は成立しません。これをフォーマルに定義するために、以下のように記号をおきます。

  • Z=(a, a', a'',・・・):とりうる治療値のセット *3
  • Y^Z=(Y^a, Y^{a'}, Y^{a''},・・・):全ての潜在アウトカムのセット

するとランダム化による同時独立は同義的にY^Z⊥Aと表記され、この同時独立のことを完全交換可能性 (full exchangeability) といいます。なお治療が二値変数である際にはZ=(0, 1)となりますのでfull exchangeabilityは(Y^{a=0}, Y^{a=1})⊥Aを意味します。

 本文中でも紹介したように、アウトカムと治療がともに二値である時には交換可能性Y^a⊥Aは、全てのaについてPr[Y^a=1|A=1]=Pr[Y^a=1|A=0]またはE[Y^a|A=1]=E[Y^a|A=0]としても書くことができます。この一番最後の等式(期待値に関する等式)のことを平均交換可能性 (mean exchangeability) といいます。アウトカムが連続である場合には交換可能性Y^a⊥Aはこの平均交換可能性E[Y^a|A=1]=E[Y^a|A=0]を意味します。しかしながら、その逆は成り立ちません。これは分散のような平均以外の分布のパラメータが治療とは独立でない可能性があるためです。

 E[Y^a]=E[Y^a|A=a]を示すためには、平均交換可能性で十分であり、完全交換可能性や交換可能性までは必要ありません。その証明については本書中でもあったように以下の2つのステップを踏みます。

  1. E[Y|A=a]=E[Y^a|A=a](一致性による)
  2. E[Y^a|A=a]=E[Y^a](平均交換可能性による)

また二値アウトカムに関しては、交換可能性 (exchangeability) と平均交換可能性 (mean exchangeability) は同じ意味となりますので、以降では単に交換可能性 (exchangeability) と呼称しますのでその点ご注意ください。

 

 

Conditional randomization

2つの研究デザイン

 引き続き先ほどと同様にゼウスら20名における心臓移植の5日後の生存に対する因果効果について考えていきます。1つ先ほどまでの設定と異なるのは、下表のように治療AとアウトカムYに加えて、予後因子L(1: 重症, 0: それ以外)が治療の割り当て前に得られていたことです。

ここで相互に排他的な2つの研究デザインを考え、上記のデータがそのいずれで得られたものかを考えます。

  • デザイン1
    • 母集団(20名)から65%の確率でランダムに被験者を選択し(13名が選択)治療を彼らに行う
  • デザイン2
    • 各被験者をその予後によって分類し、重症者 (L=1)においては75%の確率(12人中9人)で、非重症者 (L=0) においては50%の確率(8人中4人)で治療を実施

 デザイン1は以前のセクションで紹介したような研究デザインです。すなわち表が出る確率が65%であるかのようなコイントスを1回だけ行うもの(表なら治療群に割り当て)です。それに対してデザイン2は、2枚のコインを用いるかのような研究デザインとなっています。つまり重症者に対しては表が出る確率が75%のコインを、非重症者に対しては表が出る確率が50%であるコインを用いてコイントスを行ったかのような研究デザインであり、これらはともにランダム化実験の研究デザインの1つです。

 またデザイン1では全ての被験者に対して共通の単一の無条件の(周辺化された、marginalな)確率を用いるため、このような実験をmarginally randomized experimentsといいます。一方デザイン2のような、変数Lに依存するいくつかの条件付き確率を用いてランダム化を行う実験のことをconditionally randomized experimentsといいます。

 

 このとき注意が必要になるのは、どの集団において交換可能性が期待されるかです。まずmargially randomized experimentsでは、前述のように治療群と対照群における交換可能性が期待されます。

Pr[Y^{a}=1|A=1]=Pr[Y^{a}=1|A=0] or Y^a⊥A for  all  a 

一方でconditionally randomized experimentsにおいては、各群における予後の状態が異なる可能性があるため(e.g., 介入群の方が予後が悪い人が多い)、この治療群と対照群の交換可能性は期待されません。

 こういったことから、このセクションの冒頭の20名のデータは介入群においては69% (9/13) が、対照群においては43% (3/7) が重症であることから、デザイン1よりデザイン2の研究から生じたものであると考えることの方が妥当であると考えることができます(仮にデザイン1であれば同時独立性から予後も両群において均等に分布することが期待されるため)。また、この予後のアンバランスは治療群の方が対照群よりも死亡リスクが高かったことを意味するものです。つまり交換可能性は成立せず、治療Aと潜在アウトカムY^aは関連してしまっています。なお20名のデータに関しては予後因子Lを条件としたランダム化実験と結論づけます。

 

Conditional exchangeability(条件付き交換可能性)

 20名のデータがconditionally randomized experimentsによるものであると結論づけたわけですが、再度その研究デザインするとこれはL=0, 1の各群において周辺ランダム化をおこなったものと見ることができます。例えば重症な被験者に絞ってみれば、その部分集団の中では交換可能性が成立しており、これは以下のように記載されます。

Pr[Y^{a}=1|A=1, L=1]=Pr[Y^{a}=1|A=0, L=1] or Y^a⊥A|L=1  for  all  a 

同様のことが非重症者 (L=0) についても成り立ちます (Y^a⊥A|L=0) *4。ここで全てのL=lにおいてY^a⊥A|L=lが成り立つとするとき、それを単純にY^a⊥A|Lと表記します。そしてこのこと独立性のことを、conditional exchangeability(条件付き交換可能性)といいます。なお条件付き交換可能性が母集団(周辺)での交換可能性を意味しない点についても注意が必要です。

conditional exchangeability(条件付き交換可能性)

Y^a⊥A|L for  all  a 

 

 

effect measuresの算出方法

 無条件での交換可能性の下では前述のように、介入群におけるリスクは集団全体が治療を受けた場合のリスクと、対照群におけるリスクは集団全体が治療を受けなかった場合のリスクと一致することが期待されます(下の2つの等式が期待される)。

  • Pr[Y^{a=1}=1|A=1]=Pr[Y^{a=1}=1]
  • Pr[Y^{a=0}=1|A=0]=Pr[Y^{a=0}=1]

よって上記の等号成立を利用することにより、興味のあるeffect measures (e.g., risk difference, risk ratio) の値を推定することが可能です。ですが、ここで問題となるのは無条件の交換可能性ではなく、条件付き交換可能性の下 (conditionally randomized experiments) ではどのようにeffect effect measuresを推定するかです。これを考えるにあたってはひとつ前のセクションであった、conditionally randomized experimentsは、Lの各層で行われたmarginally randomized experimentsの組み合わせであるという考え方が重要になります。因果リスク比について注目すると、その推定する対象としては2つの選択肢があります。

 1つ目は集団の層(サブセット)における平均因果リスク比についてです。Lの各層においては交換可能性が成立しているため、Lの条件付きでのassociation measuresは同じく条件付きでのeffect measuresと等価です。つまり、L=1における関連リスク比 Pr[Y=1=1|A=1, L=1]/Pr[Y=1|A=0, L=1] はL=1における因果リスク比 Pr[Y^{a=1}=1|L=1]/Pr[Y^{a=0}=1|L=1] となります。同様のことはL=0に対しても成り立ち、このような層での因果効果を求める方法のことを"層別化 (stratification) "といいます。加えて各層における因果効果が異なるとき(e.g., 条件付きリスク比の値が異なる)、治療効果がLによって修飾されている、ないしは、Lのレベル感で治療効果の異質性 (heterogeneity) が存在するといいます。なお層別化と効果修飾についてはchater4で再度取り扱います。

 2つ目は母集団における平均因果リスク比 Pr[Y^{a=1}=1]/Pr[Y^{a=0}=1]  についてです。なお、現実問題として母集団における因果リスク比と特定のサブセット(層)における因果リスク比のいずれを算出すべきかについては、chater4とPartⅢでの議論を参照とのことです。平均因果リスク比の推定方法については次のStandardization, Inverse probability weighting の2つのセクションで説明を行っていきます。

 

Fine Point 2.1

Crossover experiments

 潜在アウトカムは現実にはいずれか1つしか観測がされず、それ以外の潜在アウトカムの情報は欠測してしまうという問題を本文では紹介していました。つまりは、個別因果効果Y^{a=1}-tex:Y^{a=0}を求めることが一般には出来ないわけです (Holland 1986) 。ですが、この個別因果効果をどうにかして考えられないかという方法の1つがこのFine Point 2.1で紹介されるcrossover experiments(クロスオーバー試験)という研究デザインです。

 具体例として、ゼウスのライトニングボルト(ギリシャ神話を参照)の使用Aが、彼の血圧Yに及ぼす因果効果(個別因果効果)を推定したいとしましょう。記号は以下の様な対応関係となっています。

  • A:ライトニングボルトの使用 (1: Yes, 0: No)
  • Y:血圧の一時的な上昇の有無 (1: Yes, 0: No)
  • Y^{a=1}:ライトニングボルトを使用した場合の血圧の一時的な上昇の有無 (1: Yes, 0: No)
  • Y^{a=0}:ライトニングボルトを使用しなかった場合の血圧の一時的な上昇の有無 (1: Yes, 0: No)

ここで昨日の朝にゼウスはライトニングボルトを使用し (a=1) たところ血圧は上昇し (Y=1) 、一方で今朝ライトニングボルトを使用しなかったところ (a=0) 血圧は上昇しなかった (Y=0) という結果が得られたとします。このときそれぞれの結果をY^{a=1}=1, Y^{a=0}=0と考え、個別因果効果が存在する (Y^{a=1}\neq Y^{a=0}) と主張することは可能でしょうか。結論としてはこの主張は一般には成立せず、因果関係を意味していると言及するためには3つの強い仮定が必要となります。

 一般にクロスオーバー試験では、ある個人iは2つ以上の時点tにおいて観察がされます。今回のケースでは時点は2時点です (t=0, 1) 。そして以下のように記号を追加で定義します。

  • A_{it}:ある個人iが時点(t)において受ける治療
  • Y_{i1}^{a_0, a_1}:(t=0)でa_0を受け、(t=1)でa_1を受けた場合の(t=1)における、ある個人iの(決定論的な)潜在アウトカム
  • Y_{i1}^{a_0}:(t=0)でa_0を受けた場合の(t=1)における、ある個人iの(決定論的な)潜在アウトカム

ここである時点tでの個別因果効果はY_{it}^{a_t=1}-Y_{it}^{a_t=0}と定義がされますが、これを識別するためには以下の3つの仮定が必要です。

  1. 治療の持ち越し効果がない
    • Y_{it=1}^{a_0, a_1}=Y_{it=1}^{a_1}
  2. 個別因果効果は時間に依存しない
    • Y_{it}^{a_t=1}-Y_{it}^{a_t=0}=α_i for t=0, 1
  3. 未治療の場合の潜在アウトカムは時間に依存しない
    • Y_{it}^{a_t=0}=β_i for t=0, 1

 

 この3つの仮定が満たされる場合にはクロスオーバー試験での結果は、個別因果効果を示しているものということが出来ます。証明について知りたい方がいましたら数式展開など記載しますのでコメントいただけると幸いです。

 なお1つ目の仮定は心臓移植の様な不可逆な治療に対しては成立しないため、逆にいうとそのような不可逆の治療に対して個別因果効果を考える際にはクロスオーバー試験を用いることは出来ません。この点についてはchapter3のFine Point 3.2もご参照ください。

 

 

Standardization

 Conditional randomazationのセクションで結論付けたように、以下のゼウスら20名のデータは今回conditionally randomized experimentsによって得られたものです。

すなわち、非重症者 ([L=0]) 8名においては50%の確率で、重症者 ([L=1]) 12名においては75%の確率で、治療群への割り当てが行われたデータです。

 まず非重症者8名について注目します。なお前述のように偶然誤差を避けるために、この8名は80億人を真に代表しているものであるとしています。このグループににおける治療群、対照群での死亡リスクはともに1/4です (Pr[Y=1|A=1, L=0]=Pr[Y=1|A=0, L=0]=1/4) 。また、今回Lについてランダム化を行っていますのでその層内においては交換可能性が成り立っています (i.e., Y^a⊥A|L=0) 。つまり、L=0におけるassociation measures はeffect measuresとして考えることが出来ます。これは、重傷者12名についてもまったく同様です(なおL=0における死亡リスクは治療群、対照群ともに2/3)。

 

 ここで我々の目的は、母集団での因果リスク比Pr[Y^{a=1}=1]/Pr[Y^{a=0}=1]を計算することであるとしましょう。この因果リスク比の分母というのは、集団全員(今回は20名)が治療を受けなかった場合の死亡リスクであり、この値は以下の式のように、 ([L=0]) と ([L=1]) いう部分集団全体が治療を受けなかった場合の死亡リスクの加重平均として計算することが出来ます(重みは部分集団が母集団に占める割合)。

Pr[Y^{a=0}=1] = Pr[Y^{a=0}=1|L=0]×Pr[L=0]+Pr[Y^{a=0}=1|L=1]×Pr[L=1]
= 1/4×0.4+2/3×0.6 = 0.5

Pr[Y^{a=0}=1]も同様に計算することができ、その値も0.5であるため、因果リスク比Pr[Y^{a=1}=1]/Pr[Y^{a=0}=1]の値は1 (0.5/0.5) となります。

 

 上記は20名のデータを用いた具体例でしたが、フォーマルに書くと周辺潜在リスクPr[Y^a=1]は層別リスクPr[Y^a=1|L=0], Pr[Y^a=1|L=1]に、各層の重みPr[L=0], Pr[L=1]をそれぞれかけて足し合わせた加重平均となります。つまり、Pr[Y^a=1] = Pr[Y^a=1|L=0]Pr[L=0]+Pr[Y^a=1|L=1]Pr[L=1]です。もしくは総和記号∑を用いることで、Pr[Y^a=1] =  \sum_{l}Pr[Y^a=1|L=l]Pr[L=l] とシンプルな表記にすることも可能です。

 また条件付き交換可能性の下では、各層において観察されるリスクは潜在的なリスクと等価になりますので、Pr[Y^a=1] =  \sum_{l}Pr[Y=1|L=l, A=a]Pr[L=l] と書き換えることが出来るため、effect measuresの値をデータから計算することが出来ます。ここで上記のように、潜在的な量 (e.g., Pr[Y^a=1]) を観察データの分布 (i.e., 確率) の関数として表現可能なとき、それはidentifiedである、またはidentifiable(識別可能)といい、そうでない場合にはunidentifiedであると言います。また、この方法(各層での値の加重平均をとる方法)は、疫学や人口統計学などの分野においてはstandardization(標準化)として知られています。

 

 

Inverse probability weighting 

Inverse probability weightingの概要

 周辺因果効果を求める方法として、層別化に続いて紹介がされるのがinverse probability weighting(逆確率重み付け)です。なお、このセクションでも同様に興味があるeffect measureは因果リスク比Pr[Y^{a=1}=1]/Pr[Y^{a=0}=1]であるとします。はじめに先ほどの20名のデータを下図のツリーの様な形で表現します。

図中では左から右への時間軸が存在しているとし、それぞれの円はその時点での集団を意味しているものとします。すなわり一番左の円は20名の集団全員を意味しており、それがL, Aの値によって、異なる円(部分集団)に分かれるということ(直線が分岐)を表現しています。また円の中にある数字はそれぞれの集団での分岐の確率を意味しています。右の4つの円は ([L, A]) = ([0, 0]), ([0, 1]), ([1, 0]), ([1, 1]) となる部分集団であり、特に一番上について注目してみるとY=0(.75)はその集団で4人中3人が生存したことを示しています(Y=1(.25)や他の円についても同様)。

 

 因果リスク比の分母Pr[Y^{a=0}=1]は、集団全体が治療を受けなかった場合の潜在的な死亡リスクであり、この値を計算することを次に考えます。上の図からも明らかなように、L=0の8名においては4名が治療を受けておらず、そのうち1人が死亡しています (Y=1) 。では、4人ではなくこの8名全員が治療を受けていなかった場合には、何名が死亡したのでしょうか。これは治療を受けない人数が2倍になりますので、単純な掛け算をすることでこれは2名であると考えることが出来ます。同じことをL=1の12名についても考えてみます。12名のうち治療を受けなかったのは3名であり、そのうち死亡したのは2名です。もし仮に12名全員が治療を受けていたとすると集団のサイズが4倍 (12/3) であることから、そのうち死亡するのは8名 (=2×4) と考えることが出来ます。下図はこのようなL=0, 1のそれぞれの集団において、”全員が治療を受けていなかったらどうなっていたか”という結果を表現しているものです。もちろん、この議論は、L=0, 1のそれぞれにおいて、実際に治療を受けた集団がもし仮に治療されなかったら実際に治療されなかった集団と同じ死亡リスクを持つという条件に基づくものであり、これはまさに条件付き交換可能性を指す内容です。

 また同様に、L=0, 1のそれぞれの集団において、”全員が治療を受けていたらどうなっていたか”という結果を表現したものが下図になります。

 この2つの、もしも全員が治療を受けていなかったら(いたら)という結果から、Standardizationのセクションと同様に計算すると条件付き交換可能性の下で因果リスク比Pr[Y^{a=1}=1]/Pr[Y^{a=0}=1] = 0.5/0.5 = 1 と算出されます。(1つ目のもしもの結果からはPr[Y^{a=0}=1]が、2つ目のもしもの結果からはPr[Y^{a=1}=1]が算出される)

 ここでこれら2つのもしもの結果を合わせて考えてみると、元の集団の2倍のサイズの仮想的な集団が得られていることになります。この集団はpseudo population(疑似母集団)と呼ばれます。それ(併合した結果)を示したものが下図です。また疑似母集団ではなく元の母集団において条件付き交換可能性 (Y^a⊥A|L) が成立する際には、LAに依存しないため、疑似母集団における治療群と対照群は無条件で交換可能です(i.e., 疑似母集団において交換可能性が成立)つまり、疑似母集団における関連リスク比は因果リスク比と等しくなります (association is causation)

 

 この方法は、inverse probability (IP) weighting(逆確立重み付け、IPW)として知られています。なぜそのように呼称されるかについて、その理由を次に説明します。改めて、下図のオリジナルのデータに注目してみます。

 ここでL=0において治療を受けなかった4名に注目すると、その集団はその集団は疑似母集団における8名分として扱われることになります。つまり、その4名の各個人は2名分の重みをもっていることになり、これは1/0.5と等しいです(後々重要になります)。また、上記の図から、0.5という値はL=0が与えられた下で治療を受けない条件付き確率の値であることが分かります(図の中央上部に注目)。同様に、L=1において治療を受けた9名は疑似母集団において12名分として扱われることになり、各個人は1.33 (1/0.75) 名分の重みをもっていることになります。この0.75という値は、L=1が与えられた下で治療を受ける条件付き確率の値であることが分かります(図の中央下部に注目)。このように疑似母集団は、元の集団における各個人を、それぞれが実際に受けた治療を受ける確率の逆数 (IP, inverse probability) で重み付けすることによって作成がされ、また、この重み付けを行う方法はinverse probability (IP) weightingと呼ばれます。

  

StratificationとIP weighting

 IP weightingにより因果リスク比の値は1であると計算され、これはstandardization(標準化)によって計算された値と同じです。この一致は偶然によるものではなく、数学的にIP weightingとstandardizationは等価であるためです(Technical Point 2.3を参照)。直感的にはこの2つの手法は、ともに集団全体が治療を受けた場合もしくは受けなかった場合の結果(潜在的な結果)を作成していることになります。一方で、IP weightingでは共変量Lが与えられた場合に治療Aに関する確率を、standardizationにおいては共変量Lに関する確率と共変量Lと治療Aが与えられた時のアウトカムYに関する条件付き確率を用いている、という点がこれらの手法の違いとなっています。

 このchapter2で紹介したように、特定の研究デザイン(理想的なランダム化実験)でのデータに対し適切な手法(stratification, IP weighting) を適用することで、興味のある平均因果効果を算出することが可能です。しかしながら、理想的なランダム化実験というのは、倫理的、時間的、費用的な制約から実施することが不可能である場合があります(実施可能性が乏しい)。そういった際に行われるのが観察研究 (observational study) であり、以降の章でそういった実験研究だけではなく、既存のデータに対していかに因果推論を行っていくのかについても注目していきます。

 

Fine Point 2.2

Risk periods(リスク期間)

 我々は特定の期間に興味のあるアウトカムを発生させる被験者の割合のことをリスクと定義しました。例えば、本文中でしばしば単に死亡リスク (mortality risk) とも表記される5日間の死亡リスク (five-day mortality risk) は、治療時点から5日以内に死亡した割合のことであり、そのリスク期間は5日間です。この”リスク”というものを考える際に重要となるのは、そのリスク期間をどの程度取るべきかです。

 これがなぜかということを考えるために、抗生物質の使用という治療がペスト菌に感染した高齢者の死亡に及ぼす因果効果についてを具体例として考えてみます。ここで、この因果関係を定量化(因果リスク比の算出)のためにランダム化実験が行われたものとします。すると、2人の研究者がこの実験からそれぞれ次のような結果と結論を出しました。

  • 研究者①
    • 因果リスク比の値は0.05であるため、抗生物質の使用の平均因果効果は存在する
  • 研究者②
    • 因果リスク比の値は1であるため、抗生物質の使用の平均因果効果は存在しない

 これらの主張は一見すると矛盾しているように感じられますが、実は両者とも正しいことを述べています。なぜならば研究者①はリスク期間を1年とし、研究者②はそれを100年としているからです(それぞれの定義したリスク期間が異なっている)。当たり前のことですが、被験者は高齢者ですので治療時点からさらに100年生きるということはなく、治療の有無に関係なく100年後には全員が死亡しています。これが示唆するのは、ある治療が死亡リスクに因果効果を持つということは、死亡を防ぐのではなく死亡を遅らせるということ意味するということです。

 

 

Technical Point 2.2

Formal definition of IP weights

 ある個人のIP weightは、その個人の治療Aと共変量Lに依存します。例えば、L=lである実際に治療を受けた個人の重みは1/Pr[A=1|L=l]であり、またL=l'である実際に治療を受けなかった個人の重みは1/Pr[A=0|L=l']です。ここで我々は全ての重みを、治療や共変量の値に関係なく、治療A確率密度関数 (PDF; Probability Density Function) を用いることで、単一の表記で表すことができます(確率関数ではない点に注意)。f_{A|L}[a|l]、もしくは簡潔にf[a|l]をL=lが与えられた時のA=aの条件付き確率密度関数であるとし、ALが離散である場合には、f[a|l]は条件付き確率Pr[A=a|L=l]です。なお、conditionally randomized experimentsにおいては、Pr[L=l] \neq 0であるような全てのlにおいてf[a|l]は正の値をとります(Chapter3のPositivityのセクションを参照)。

 各個人の重みの分母は、A, Lのその個人特有の値 (a, l) での条件付き確率密度関数であり、それは確率変数A, Lのある実現値での条件付き確率密度関数と考えることが可能であることからf[A|L](これ自体も確率変数)と表現されます。この記法は、実は既にInverse probability weightingの概要のセクションの最後の図中において登場しています。

 

 

Technical Point 2.3

Equivalence of IP weighting and standardization

 Aを無限の実現値をもつ離散変数であるとし、Pr[L=l] \neq 0であるような全てのlにおいてf[a|l]は正の値をとるとします。この後半の仮定は正値性 (possitivity) と呼ばれ(chapter3を参照)、conditionally randomized experimentsにおいてその成立が保証されるものです。正値性の仮定の下で治療レベルaにおけるstandardized mean, IP weighted meanは以下のように定義されます。

  • standardized mean:\sum_{l}E[Y|A=a, L=l]Pr[L=l
  • IP weighted mean:E[(I(A=a)Y)/f[A|L]]
    • A = aの個人に対してIP weight W^A = 1/f[A|L]で再度重み付けをした時のYの期待値

ここで指示関数 (indicator function) I(A=a) は、A=aの時には1を、それ以外の場合には0をとります。

 

 ここで正値性の仮定の下ではstandardized meanとIP weighted meanが等しいことを証明します。まず期待値の定義(と指示関数の特性)からIP weighted meanは、

E[(I(A=a)Y)/f[A|L]] = \sum_{l}(1/f[A|L]) (E[Y|A=a, L=l f[A|L] Pr[L=l]

となります。ここで式中の分母分子にf[A|L]が存在しますのでそれらをキャンセルすることで、

E[(I(A=a)Y)/f[A|L]] = \sum_{l}(E[Y|A=a, L=l]Pr[L=l]

となります。なおここではA, Lは離散変数として扱っていますが、必ずしも二値変数である必要はなく、また連続変数に対しては式中のΣ積分の形に置き換えることで同様の式展開を行うことが可能です。

 

 上記の式展開はまだ潜在アウトカムを用いた因果的な部分には触れていません。ここでさらに条件付き交換可能性を仮定することで、standardized meanとIP weighted meanがともに潜在アウトカムの周辺期待値E[Y^a]に一致することを証明可能であり、このそれぞれが一致するという2種類の証明を紹介します。まず、standardized meanに関して本文中の結果から

E[Y^a] = \sum_{l}(E[Y^a|L=l]Pr[L=l]
= \sum_{l}(E[Y^a|A=a, L=l]Pr[L=l]
= \sum_{l}(E[Y|A=a, L=l]Pr[L=l]

となります。もう少し丁寧にいうと1つ目の等号は加重平均、2つ目の等号は条件付き交換可能性、3つ目の等号は一致性によるものです。

 次はIP weighted meanについてです。まず一致性から

E[(I(A=a)Y)/f[A|L]] = E[(I(A=a)Y^a)/f[A|L]]

となります。なおここからはブログの記載では見にくくなってしまうので本文の画像を貼ります。次に正値性から以下のように展開ができます。

以上でtandardized meanとIP weighted meanがともに潜在アウトカムの周辺期待値E[Y^a]に一致することの証明ができました。

 

(以下は鈴木はまだ完全に理解できていないのでご容赦ください。理解できましたら修正等を行います。)

 治療変数が連続であるときconditionally randomized experimentsは非現実的な研究デザインであり(無理です)、またそのデザインにおいてはE[(I(A=a)Y)/f[A|L]]はもはや\sum_{l}(E[Y|A=a, L=l]Pr[L=l]と一致しないため、交換可能性の下であってもY^aにバイアスが含まれるそうです。これは、f(a|l)L = lが(ルベーグ測度に関して) 与えられたときのAの条件付き密度(の1つのバージョン)とするならば、E[(I(A=a)Y)/f[A|L|L=l]] が1ではなく0となることから確認することが出来るとのことでした。また一方で、f(a|l)Pr[A=a|L=l]とし続けた場合には、分母のf(a|L=l)は確率が1となる集団で0となり、正値性が成り立たなくなるそうです。

 

speakerdeck.com

 

次の内容はこちら

norihirosuzuki.hatenablog.com

*1:一致性の成立は暗に仮定する

*2:⊥は統計的独立を意味する(はてなブログでの記載の都合上、本書中での記号とは異なります)

*3:本書中ではZではなく花文字のAを用いていますが、はてなブログの記法上Zとしています

*4:for all a はここでは省略されていますが厳密には必要