本記事はWhat If, Chapter2: Randomized experimentsについてです。Chapter1の内容については以下の記事にてまとめています。
個人的な学習やゼミの関係でchapterごとにスライドも作成しております。ブログやスライドに誤りがある場合にはご指摘いただけますと幸いです。Chapter2の構成は以下の通りです。
Preface
Does your looking up at the sky make pedestrians look up too?
あなたが空を見上げることは歩行者が空を見上げることを引き起こすか?
この疑問には以下のような因果的な問い (causal question) の主要な要素が含まれています。
- Action(行動):空を見上げること
- Outcome(アウトカム):他者が空を見上げること
- Population(母集団):e.g.) 2019年にマドリードに在住する人々)
ここで我々はこの疑問に答えるために以下のような研究デザインを考えました。
- 路上に立ち、歩行者が通るたびにコイントスを行う
- コインが表であれば空を見上げ(介入を行う)、裏であれば前を向き続ける(介入を行わない)
- 1, 2を数千回繰り返し、介入を行った場合に10秒以内に空を見上げた被験者割合が介入を行わなかった場合のそれよりも大きければ、介入はアウトカムに対して因果効果を持つと結論づける
実際に上記の研究を行なったときに介入を行った場合、行わなかった場合で歩行者が空を見上げた割合はそれぞれ55%, 1%であり、これは因果関係の存在を示唆する結果として受け取ることができます。
ここで重要なのは、介入の実施の有無をコイントスを用いてランダム(無作為)に決定したことです。仮にコイントスではなく、歩行者の性別によって介入の実施を決めるという決定論的なルールを考えてみます。すなわち、男性であれば介入を行い、女性であれば介入を行わないものとします。この時、仮に全く同じ結果 (55% vs. 1%) が得られたとしても、その違いは介入による因果効果であると結論付けることは説得力に欠けます。なぜならばこの得られた結果の違いは、男性と女性という性別の差(e.g., 女性の方が空を見上にくい傾向)による可能性があり、本質的に集団(介入群、対照群)が比較可能ではないからです。
では、なぜ介入の実施をランダムに決定した場合に得られた結果が因果関係に関する議論に重要となるのかでしょうか。本章ではその理由について説明を行います。なおこの具体例は次章以降も登場します。
Randomization
潜在アウトカムの欠測の問題
Chapter1ではゼウスら20名の治療を受けた場合 (]) 、受けなかった場合 (
) の潜在アウトカム
がともに得られていました。しかし、我々が現実に得ることができるのは実際に受けた治療
とその時観察されたアウトカム
だけです。ここで20名について下表のようなデータが得られたとします。
各個人に対して想定される潜在アウトカム,
は、
である場合には
が、
である場合には
がアウトカム
として観測がされます*1。言い方を変えますと、治療群においては
が、対照群においては
が欠測します(表の?は欠損を意味)。しかしchapter1で紹介したように集団での因果関係を議論するためには集団全員の
,
の情報が必要であり、あくまで上記のデータ (missing data) が示しているのは部分集団同士の関連 (association) に過ぎません。つまり、算出が可能なのはeffect measuresではなく、association measuresです。
上記のような潜在アウトカムの欠測の問題はランダム化実験であっても他の研究と同様に生じます。しかし、ランダム化はこの欠測の発生がランダムに起きたものであることを保証するため、ランダム化実験においては因果効果を示すeffect measuresを計算すること(厳密にはそれらの一致推定量を得ること)が可能です。
交換可能性 (Exchangeability)
ここでchapter1の最後で紹介した以下の図をもう一度考えます。
ひし形は興味のある母集団全体を示しているものであるとし、そのサイズはほぼ無限であるとします(i.e., 無限母集団を想定)。また、母集団に含まれる各個人はコイントスの結果が表であれば白色で表される治療群へ、裏であれば対照群へ割り当てられるとします。このとき重要であることは割り当てがコイントスによりランダムに決定されることであり、その確率が50%ずつ(平等)である必要はないことです。そして治療群 () では試験薬が、対照群 (
) ではプラセボが投与され、それぞれの群での5日後の死亡リスクは
]
,
]
でした。すなわち関連リスクは
、関連リスク差は
です。また、上記のランダム化実験は以下が満たされる理想的なものであるとします。
- 追跡不能が存在しない (no loss to follow-up)
- 治療割り当てが研究期間中完全に順守される
- 治療のバージョンは1つ (i.e., no multiple versions of treatments)
- 二重盲検が実施(Chapter9を参照)
なお、このような理想的なランダム化実験を想定することは非現実的ですが、因果関係を考える上では(因果推論を学ぶにあたっては)非常に有用であり、現実的な状況における因果推論についてはWhat Ifの後半で紹介がされます。
さて、次に誤って治療の割り当てが逆に行われてしまった場合を考えてみます。すなわち、図中のTreatedとUntreatedに含まれる個人が想定していたこと真逆に治療を受けるとします(治療群では治療が行われず、一方対照群では治療が行われる)。ここで我々はこの誤りを研究終了時に初めて認知したとしたとき、得られる結果にはどのような影響があるでしょうか。その答えは「全く問題がない」です。つまり、実際に治療を受けた群(ややこしいですが図のグレーの部分集団)の死亡リスクは先ほどと同様]
となり、治療を受けなかった群の死亡リスクは
]
となることが予想されます。そして結果として計算されるassociation measuresの値も変化しないことが予想されます。これは治療の割り当てがランダムに行われたことにより、どの群が治療を受けるかと
],
]が無関係であるためです。このことをフォーマルには、「治療群と対照群が交換可能 (exchangeable) である」と言います。
交換可能性 (Exchangeability) とは、上記のように仮に治療群が対照群であったとしても、もしくは対照群が治療群であったとしても同様の死亡リスクが得られるということを意味するものです。つまり、潜在アウトカムの表記を用いると、ある治療を受ける場合の治療群での死亡リスク
]は対照群での死亡リスク
]と等しいことを意味し、今回は治療は二値であるため下記のように
のそれぞれの場合での等号成立を意味するものです。
]
]
]
]
さらに、すべてのとりうる治療で定義される部分集団 () においての条件付きリスクが等しいので、当然のことですがそれは無条件でのリスク(母集団におけるリスク)と等しくなります。つまり上記の2つの等式は以下のようにさらに書き直すことが出来ます。
]
]
]
]
]
]
因果効果の算出の際に使用するのは、]及び
]です。ここで一致性を組み合わせることにより以下のような等式が成り立ちます(1つ目の等号は交換可能性、2つ目の等号は一致性によるもの)。
]
]
]
]
]
]
つまりは、先ほども取り上げた下図において、実際に治療を受けた部分集団(白色)において得られる結果は母集団全体が治療を受けた場合の結果(ひし形が全部白色だった時の結果)を、実際に治療を受なかった部分集団(グレー)において得られる結果は母集団全体が治療を受けなかった場合の結果(ひし形が全部グレーだった時の結果)をそれぞれ意味してると考えることが出来るわけです。
前述のようにそれぞれの部分集団における死亡リスクは計算ができますので、今回のランダム化が行われた実験においては、]
,
]
と考えることが出来ます。
同義的に、交換可能性は以下のように潜在アウトカムの値と実際の治療がすべての値
について独立であることを意味します。
また”交換可能性”という言葉は外生性 (exogenety) と呼ばれることもあるそうです(おそらくは経済学の分野だったかと思います)。
ここでHernanらによる、ランダム化実験における交換可能性の別な考え方が紹介されています。それがどういうものかというと、潜在アウトカムは個人の遺伝的な体質、治療
がランダムに割り当てられる前に存在している個人特有の固定された特徴のようなものであると考えることが出来るそうです。これは
は治療
に割り当てられた時の結果を示しているものであり、その後に受けるであろう治療には依存していないためです。治療
はランダム化されているので、個人の遺伝子にも潜在アウトカムにも影響しません。ただこの遺伝的な反応の違いと潜在アウトカムの違いは、概念的に潜在アウトカム
は実際に治療
を受けたときのみ観測することが出来るということになります。
これは鈴木の個人的な理解になりますが、個人の遺伝的な反応(e.g., アレルギー反応)は確かにその対応する治療(e.g., 飲食物の接種)を受けたときに知ることが出来ますが、現在ですとアレルギー検査のような形で実際に受けずとも知ることが出来るということを、潜在アウトカムとの違いとして言っているのではないかなと思います。
独立性の違い
と
の違いを再度説明します。交換可能性 (
) は、潜在アウトカムと実際の治療の独立性です。これはここまで説明してきたように、治療群 (
) と対照群 (
) が、同じ治療のレベル (
) を受けた場合に死亡リスクとなることを意味するものです。しかし
は、観察されたアウトカムと実際の治療の独立性
を意味しません。例えば交換可能性が成立し、治療が因果効果を持つ場合のランダム化実験を考えます。すると観測されるアウトカム
の値は受ける治療に関連しますので、
は保持されません。
さて下表で表される冒頭で取り上げた20名のデータにおいて交換可能性が成立するのでしょうか。今回の場合、治療は二値変数ですのでこの問いに答えるためにはのそれぞれの場合で
が成立するかどうかを確認する必要があります。
まずはの場合に注目し、chapter1で扱ったような、すべての個人の潜在アウトカムの情報が完全に分かる20名分のデータが得られたとしましょう。
ここで、実際に治療を受けた13名における治療を受けなかった場合の死亡リスクは、]
であり、実際に治療を受けなかった7名における治療を受けなかった場合の死亡リスクは
]
です。
についても同様です。
]
であり、
]
となっており、いずれの場合であっても治療群での死亡リスクは対照群よりも大きいので (7/13 > 3/7) 、治療群の方が予後が悪い(イベントの発症がしやすい)ということ、つまりは交換可能ではない(交換可能性は成立しない)ということになります。
現実世界では、潜在アウトカムの情報が完全には得られず、不完全な情報(e.g., このセクションの冒頭のデータ)のみが得られます。20名の不完全なデータからは治療群が仮に治療を受けていなかった場合の死亡リスク]は計算することが出来ないため、我々は一般にその研究で交換可能性が成立するかどうかを判断することは出来ません。しかし何らかの方法で完全なデータが得られ、上記のように交換可能性が成り立たないと判断できたとしましょう。その時、ランダム化実験ではないと結論づけることは可能でしょうか(交換可能性の成立はランダム化実験であることを意味するか)。その答えはNoです。
その理由は2つあります。1つは母集団のサイズが小さすぎることです。20名からのサンプリングではそのサンプリングによる偶然誤差の影響が大きすぎるため、以降は母集団の1人は10億人を意味しているとします(偶然誤差についてはchapter10を参照)。おそしてもう1つの理由は、仮に無限母集団において交換可能性が成立していなくともある研究がランダム化試験である可能性はあります。ただこれについては、1つのコインによるランダム化ではなく、複数のコインによるランダム化が行われる研究デザインを説明する必要があるため、Conditional randomizationのセクションで扱います。
Technical Point 2.1
Full exchangeability and Mean exchangeability
本文では交換可能性について紹介をしていましたが、厳密には”交換可能性”というワードがつくのは複数あります。
ランダム化が意味するのは治療と潜在アウトカム
の同時独立です。これはそれぞれの
における
を意味するものの、その逆は成立しません。これをフォーマルに定義するために、以下のように記号をおきます。
:とりうる治療値のセット *3
:全ての潜在アウトカムのセット
するとランダム化による同時独立は同義的にと表記され、この同時独立のことを完全交換可能性 (full exchangeability) といいます。なお治療が二値変数である際には
となりますのでfull exchangeabilityは
を意味します。
本文中でも紹介したように、アウトカムと治療がともに二値である時には交換可能性は、全ての
について
]
]または
]
]としても書くことができます。この一番最後の等式(期待値に関する等式)のことを平均交換可能性 (mean exchangeability) といいます。アウトカムが連続である場合には交換可能性
はこの平均交換可能性
]
]を意味します。しかしながら、その逆は成り立ちません。これは分散のような平均以外の分布のパラメータが治療とは独立でない可能性があるためです。
]
]を示すためには、平均交換可能性で十分であり、完全交換可能性や交換可能性までは必要ありません。その証明については本書中でもあったように以下の2つのステップを踏みます。
]
](一致性による)
]
](平均交換可能性による)
また二値アウトカムに関しては、交換可能性 (exchangeability) と平均交換可能性 (mean exchangeability) は同じ意味となりますので、以降では単に交換可能性 (exchangeability) と呼称しますのでその点ご注意ください。
Conditional randomization
2つの研究デザイン
引き続き先ほどと同様にゼウスら20名における心臓移植の5日後の生存に対する因果効果について考えていきます。1つ先ほどまでの設定と異なるのは、下表のように治療とアウトカム
に加えて、予後因子
(1: 重症, 0: それ以外)が治療の割り当て前に得られていたことです。
ここで相互に排他的な2つの研究デザインを考え、上記のデータがそのいずれで得られたものかを考えます。
- デザイン1
- 母集団(20名)から65%の確率でランダムに被験者を選択し(13名が選択)治療を彼らに行う
- デザイン2
- 各被験者をその予後によって分類し、重症者 (
)においては75%の確率(12人中9人)で、非重症者 (
) においては50%の確率(8人中4人)で治療を実施
- 各被験者をその予後によって分類し、重症者 (
デザイン1は以前のセクションで紹介したような研究デザインです。すなわち表が出る確率が65%であるかのようなコイントスを1回だけ行うもの(表なら治療群に割り当て)です。それに対してデザイン2は、2枚のコインを用いるかのような研究デザインとなっています。つまり重症者に対しては表が出る確率が75%のコインを、非重症者に対しては表が出る確率が50%であるコインを用いてコイントスを行ったかのような研究デザインであり、これらはともにランダム化実験の研究デザインの1つです。
またデザイン1では全ての被験者に対して共通の単一の無条件の(周辺化された、marginalな)確率を用いるため、このような実験をmarginally randomized experimentsといいます。一方デザイン2のような、変数に依存するいくつかの条件付き確率を用いてランダム化を行う実験のことをconditionally randomized experimentsといいます。
このとき注意が必要になるのは、どの集団において交換可能性が期待されるかです。まずmargially randomized experimentsでは、前述のように治療群と対照群における交換可能性が期待されます。
]
]
一方でconditionally randomized experimentsにおいては、各群における予後の状態が異なる可能性があるため(e.g., 介入群の方が予後が悪い人が多い)、この治療群と対照群の交換可能性は期待されません。
こういったことから、このセクションの冒頭の20名のデータは介入群においては69% (9/13) が、対照群においては43% (3/7) が重症であることから、デザイン1よりデザイン2の研究から生じたものであると考えることの方が妥当であると考えることができます(仮にデザイン1であれば同時独立性から予後も両群において均等に分布することが期待されるため)。また、この予後のアンバランスは治療群の方が対照群よりも死亡リスクが高かったことを意味するものです。つまり交換可能性は成立せず、治療と潜在アウトカム
は関連してしまっています。なお20名のデータに関しては予後因子
を条件としたランダム化実験と結論づけます。
Conditional exchangeability(条件付き交換可能性)
20名のデータがconditionally randomized experimentsによるものであると結論づけたわけですが、再度その研究デザインするとこれはの各群において周辺ランダム化をおこなったものと見ることができます。例えば重症な被験者に絞ってみれば、その部分集団の中では交換可能性が成立しており、これは以下のように記載されます。
]
]
同様のことが非重症者 () についても成り立ちます (
) *4。ここで全ての
において
が成り立つとするとき、それを単純に
と表記します。そしてこのこと独立性のことを、conditional exchangeability(条件付き交換可能性)といいます。なお条件付き交換可能性が母集団(周辺)での交換可能性を意味しない点についても注意が必要です。
conditional exchangeability(条件付き交換可能性)
effect measuresの算出方法
無条件での交換可能性の下では前述のように、介入群におけるリスクは集団全体が治療を受けた場合のリスクと、対照群におけるリスクは集団全体が治療を受けなかった場合のリスクと一致することが期待されます(下の2つの等式が期待される)。
]
]
]
]
よって上記の等号成立を利用することにより、興味のあるeffect measures (e.g., risk difference, risk ratio) の値を推定することが可能です。ですが、ここで問題となるのは無条件の交換可能性ではなく、条件付き交換可能性の下 (conditionally randomized experiments) ではどのようにeffect effect measuresを推定するかです。これを考えるにあたってはひとつ前のセクションであった、conditionally randomized experimentsは、の各層で行われたmarginally randomized experimentsの組み合わせであるという考え方が重要になります。因果リスク比について注目すると、その推定する対象としては2つの選択肢があります。
1つ目は集団の層(サブセット)における平均因果リスク比についてです。の各層においては交換可能性が成立しているため、
の条件付きでのassociation measuresは同じく条件付きでのeffect measuresと等価です。つまり、
における関連リスク比
]
] は
における因果リスク比
]
] となります。同様のことは
に対しても成り立ち、このような層での因果効果を求める方法のことを"層別化 (stratification) "といいます。加えて各層における因果効果が異なるとき(e.g., 条件付きリスク比の値が異なる)、治療効果が
によって修飾されている、ないしは、
のレベル感で治療効果の異質性 (heterogeneity) が存在するといいます。なお層別化と効果修飾についてはchater4で再度取り扱います。
2つ目は母集団における平均因果リスク比 ]
] についてです。なお、現実問題として母集団における因果リスク比と特定のサブセット(層)における因果リスク比のいずれを算出すべきかについては、chater4とPartⅢでの議論を参照とのことです。平均因果リスク比の推定方法については次のStandardization, Inverse probability weighting の2つのセクションで説明を行っていきます。
Fine Point 2.1
Crossover experiments
潜在アウトカムは現実にはいずれか1つしか観測がされず、それ以外の潜在アウトカムの情報は欠測してしまうという問題を本文では紹介していました。つまりは、個別因果効果を求めることが一般には出来ないわけです (Holland 1986) 。ですが、この個別因果効果をどうにかして考えられないかという方法の1つがこのFine Point 2.1で紹介されるcrossover experiments(クロスオーバー試験)という研究デザインです。
具体例として、ゼウスのライトニングボルト(ギリシャ神話を参照)の使用が、彼の血圧
に及ぼす因果効果(個別因果効果)を推定したいとしましょう。記号は以下の様な対応関係となっています。
:ライトニングボルトの使用 (1: Yes, 0: No)
:血圧の一時的な上昇の有無 (1: Yes, 0: No)
:ライトニングボルトを使用した場合の血圧の一時的な上昇の有無 (1: Yes, 0: No)
:ライトニングボルトを使用しなかった場合の血圧の一時的な上昇の有無 (1: Yes, 0: No)
ここで昨日の朝にゼウスはライトニングボルトを使用し () たところ血圧は上昇し (
) 、一方で今朝ライトニングボルトを使用しなかったところ (
) 血圧は上昇しなかった (
) という結果が得られたとします。このときそれぞれの結果を
と考え、個別因果効果が存在する (
) と主張することは可能でしょうか。結論としてはこの主張は一般には成立せず、因果関係を意味していると言及するためには3つの強い仮定が必要となります。
一般にクロスオーバー試験では、ある個人は2つ以上の時点
において観察がされます。今回のケースでは時点は2時点です (
) 。そして以下のように記号を追加で定義します。
:ある個人
が時点(
)において受ける治療
:(
)で
を受け、(
)で
を受けた場合の(
)における、ある個人
の(決定論的な)潜在アウトカム
:(
)で
を受けた場合の(
)における、ある個人
の(決定論的な)潜在アウトカム
ここである時点での個別因果効果は
-
と定義がされますが、これを識別するためには以下の3つの仮定が必要です。
- 治療の持ち越し効果がない
- 個別因果効果は時間に依存しない
- 未治療の場合の潜在アウトカムは時間に依存しない
この3つの仮定が満たされる場合にはクロスオーバー試験での結果は、個別因果効果を示しているものということが出来ます。証明について知りたい方がいましたら数式展開など記載しますのでコメントいただけると幸いです。
なお1つ目の仮定は心臓移植の様な不可逆な治療に対しては成立しないため、逆にいうとそのような不可逆の治療に対して個別因果効果を考える際にはクロスオーバー試験を用いることは出来ません。この点についてはchapter3のFine Point 3.2もご参照ください。
Standardization
Conditional randomazationのセクションで結論付けたように、以下のゼウスら20名のデータは今回conditionally randomized experimentsによって得られたものです。
すなわち、非重症者 ([L=0]) 8名においては50%の確率で、重症者 ([L=1]) 12名においては75%の確率で、治療群への割り当てが行われたデータです。
まず非重症者8名について注目します。なお前述のように偶然誤差を避けるために、この8名は80億人を真に代表しているものであるとしています。このグループににおける治療群、対照群での死亡リスクはともに1/4です (]
]
) 。また、今回
についてランダム化を行っていますのでその層内においては交換可能性が成り立っています (i.e.,
) 。つまり、
におけるassociation measures はeffect measuresとして考えることが出来ます。これは、重傷者12名についてもまったく同様です(なお
における死亡リスクは治療群、対照群ともに2/3)。
ここで我々の目的は、母集団での因果リスク比]
]を計算することであるとしましょう。この因果リスク比の分母というのは、集団全員(今回は20名)が治療を受けなかった場合の死亡リスクであり、この値は以下の式のように、 ([L=0]) と ([L=1]) いう部分集団全体が治療を受けなかった場合の死亡リスクの加重平均として計算することが出来ます(重みは部分集団が母集団に占める割合)。
]
]
]
]
]
]も同様に計算することができ、その値も0.5であるため、因果リスク比
]
]の値は1 (0.5/0.5) となります。
上記は20名のデータを用いた具体例でしたが、フォーマルに書くと周辺潜在リスク]は層別リスク
],
]に、各層の重み
],
]をそれぞれかけて足し合わせた加重平均となります。つまり、
]
]
]
]
]です。もしくは総和記号
を用いることで、
]
]
] とシンプルな表記にすることも可能です。
また条件付き交換可能性の下では、各層において観察されるリスクは潜在的なリスクと等価になりますので、]
]
] と書き換えることが出来るため、effect measuresの値をデータから計算することが出来ます。ここで上記のように、潜在的な量 (e.g.,
]) を観察データの分布 (i.e., 確率) の関数として表現可能なとき、それはidentifiedである、またはidentifiable(識別可能)といい、そうでない場合にはunidentifiedであると言います。また、この方法(各層での値の加重平均をとる方法)は、疫学や人口統計学などの分野においてはstandardization(標準化)として知られています。
Inverse probability weighting
Inverse probability weightingの概要
周辺因果効果を求める方法として、層別化に続いて紹介がされるのがinverse probability weighting(逆確率重み付け)です。なお、このセクションでも同様に興味があるeffect measureは因果リスク比]
]であるとします。はじめに先ほどの20名のデータを下図のツリーの様な形で表現します。
図中では左から右への時間軸が存在しているとし、それぞれの円はその時点での集団を意味しているものとします。すなわり一番左の円は20名の集団全員を意味しており、それが,
の値によって、異なる円(部分集団)に分かれるということ(直線が分岐)を表現しています。また円の中にある数字はそれぞれの集団での分岐の確率を意味しています。右の4つの円は ([
,
])
([
,
]), ([
,
]), ([
,
]), ([
,
]) となる部分集団であり、特に一番上について注目してみると
はその集団で4人中3人が生存したことを示しています(
や他の円についても同様)。
因果リスク比の分母]は、集団全体が治療を受けなかった場合の潜在的な死亡リスクであり、この値を計算することを次に考えます。上の図からも明らかなように、
の8名においては4名が治療を受けておらず、そのうち1人が死亡しています (
) 。では、4人ではなくこの8名全員が治療を受けていなかった場合には、何名が死亡したのでしょうか。これは治療を受けない人数が2倍になりますので、単純な掛け算をすることでこれは2名であると考えることが出来ます。同じことを
の12名についても考えてみます。12名のうち治療を受けなかったのは3名であり、そのうち死亡したのは2名です。もし仮に12名全員が治療を受けていたとすると集団のサイズが4倍 (12/3) であることから、そのうち死亡するのは8名 (=2×4) と考えることが出来ます。下図はこのような
のそれぞれの集団において、”全員が治療を受けていなかったらどうなっていたか”という結果を表現しているものです。もちろん、この議論は、
のそれぞれにおいて、実際に治療を受けた集団がもし仮に治療されなかったら実際に治療されなかった集団と同じ死亡リスクを持つという条件に基づくものであり、これはまさに条件付き交換可能性を指す内容です。
また同様に、のそれぞれの集団において、”全員が治療を受けていたらどうなっていたか”という結果を表現したものが下図になります。
この2つの、もしも全員が治療を受けていなかったら(いたら)という結果から、Standardizationのセクションと同様に計算すると条件付き交換可能性の下で因果リスク比]
]
と算出されます。(1つ目のもしもの結果からは
]が、2つ目のもしもの結果からは
]が算出される)
ここでこれら2つのもしもの結果を合わせて考えてみると、元の集団の2倍のサイズの仮想的な集団が得られていることになります。この集団はpseudo population(疑似母集団)と呼ばれます。それ(併合した結果)を示したものが下図です。また疑似母集団ではなく元の母集団において条件付き交換可能性 () が成立する際には、
は
に依存しないため、疑似母集団における治療群と対照群は無条件で交換可能です(i.e., 疑似母集団において交換可能性が成立)。つまり、疑似母集団における関連リスク比は因果リスク比と等しくなります (association is causation) 。
この方法は、inverse probability (IP) weighting(逆確立重み付け、IPW)として知られています。なぜそのように呼称されるかについて、その理由を次に説明します。改めて、下図のオリジナルのデータに注目してみます。
ここでにおいて治療を受けなかった4名に注目すると、その集団はその集団は疑似母集団における8名分として扱われることになります。つまり、その4名の各個人は2名分の重みをもっていることになり、これは1/0.5と等しいです(後々重要になります)。また、上記の図から、0.5という値は
が与えられた下で治療を受けない条件付き確率の値であることが分かります(図の中央上部に注目)。同様に、
において治療を受けた9名は疑似母集団において12名分として扱われることになり、各個人は1.33 (1/0.75) 名分の重みをもっていることになります。この0.75という値は、
が与えられた下で治療を受ける条件付き確率の値であることが分かります(図の中央下部に注目)。このように疑似母集団は、元の集団における各個人を、それぞれが実際に受けた治療を受ける確率の逆数 (IP, inverse probability) で重み付けすることによって作成がされ、また、この重み付けを行う方法はinverse probability (IP) weightingと呼ばれます。
StratificationとIP weighting
IP weightingにより因果リスク比の値は1であると計算され、これはstandardization(標準化)によって計算された値と同じです。この一致は偶然によるものではなく、数学的にIP weightingとstandardizationは等価であるためです(Technical Point 2.3を参照)。直感的にはこの2つの手法は、ともに集団全体が治療を受けた場合もしくは受けなかった場合の結果(潜在的な結果)を作成していることになります。一方で、IP weightingでは共変量が与えられた場合に治療
に関する確率を、standardizationにおいては共変量
に関する確率と共変量
と治療
が与えられた時のアウトカム
に関する条件付き確率を用いている、という点がこれらの手法の違いとなっています。
このchapter2で紹介したように、特定の研究デザイン(理想的なランダム化実験)でのデータに対し適切な手法(stratification, IP weighting) を適用することで、興味のある平均因果効果を算出することが可能です。しかしながら、理想的なランダム化実験というのは、倫理的、時間的、費用的な制約から実施することが不可能である場合があります(実施可能性が乏しい)。そういった際に行われるのが観察研究 (observational study) であり、以降の章でそういった実験研究だけではなく、既存のデータに対していかに因果推論を行っていくのかについても注目していきます。
Fine Point 2.2
Risk periods(リスク期間)
我々は特定の期間に興味のあるアウトカムを発生させる被験者の割合のことをリスクと定義しました。例えば、本文中でしばしば単に死亡リスク (mortality risk) とも表記される5日間の死亡リスク (five-day mortality risk) は、治療時点から5日以内に死亡した割合のことであり、そのリスク期間は5日間です。この”リスク”というものを考える際に重要となるのは、そのリスク期間をどの程度取るべきかです。
これがなぜかということを考えるために、抗生物質の使用という治療がペスト菌に感染した高齢者の死亡に及ぼす因果効果についてを具体例として考えてみます。ここで、この因果関係を定量化(因果リスク比の算出)のためにランダム化実験が行われたものとします。すると、2人の研究者がこの実験からそれぞれ次のような結果と結論を出しました。
これらの主張は一見すると矛盾しているように感じられますが、実は両者とも正しいことを述べています。なぜならば研究者①はリスク期間を1年とし、研究者②はそれを100年としているからです(それぞれの定義したリスク期間が異なっている)。当たり前のことですが、被験者は高齢者ですので治療時点からさらに100年生きるということはなく、治療の有無に関係なく100年後には全員が死亡しています。これが示唆するのは、ある治療が死亡リスクに因果効果を持つということは、死亡を防ぐのではなく死亡を遅らせるということ意味するということです。
Technical Point 2.2
Formal definition of IP weights
ある個人のIP weightは、その個人の治療と共変量
に依存します。例えば、
である実際に治療を受けた個人の重みは
]であり、また
である実際に治療を受けなかった個人の重みは
]です。ここで我々は全ての重みを、治療や共変量の値に関係なく、治療
の確率密度関数 (PDF; Probability Density Function) を用いることで、単一の表記で表すことができます(確率関数ではない点に注意)。
]、もしくは簡潔に
]を
が与えられた時の
の条件付き確率密度関数であるとし、
と
が離散である場合には、
]は条件付き確率
]です。なお、conditionally randomized experimentsにおいては、
]
であるような全ての
において
]は正の値をとります(Chapter3のPositivityのセクションを参照)。
各個人の重みの分母は、,
のその個人特有の値 (
,
) での条件付き確率密度関数であり、それは確率変数
,
のある実現値での条件付き確率密度関数と考えることが可能であることから
](これ自体も確率変数)と表現されます。この記法は、実は既にInverse probability weightingの概要のセクションの最後の図中において登場しています。
Technical Point 2.3
Equivalence of IP weighting and standardization
を無限の実現値をもつ離散変数であるとし、
]
であるような全ての
において
]は正の値をとるとします。この後半の仮定は正値性 (possitivity) と呼ばれ(chapter3を参照)、conditionally randomized experimentsにおいてその成立が保証されるものです。正値性の仮定の下で治療レベル
におけるstandardized mean, IP weighted meanは以下のように定義されます。
- standardized mean:
]
]
- IP weighted mean:
]]
の個人に対してIP weight
]で再度重み付けをした時の
の期待値
ここで指示関数 (indicator function) は、
の時には1を、それ以外の場合には0をとります。
ここで正値性の仮定の下ではstandardized meanとIP weighted meanが等しいことを証明します。まず期待値の定義(と指示関数の特性)からIP weighted meanは、
]]
(
])
]
]
となります。ここで式中の分母分子に]が存在しますのでそれらをキャンセルすることで、
]]
]
]
となります。なおここではは離散変数として扱っていますが、必ずしも二値変数である必要はなく、また連続変数に対しては式中の
を積分の形に置き換えることで同様の式展開を行うことが可能です。
上記の式展開はまだ潜在アウトカムを用いた因果的な部分には触れていません。ここでさらに条件付き交換可能性を仮定することで、standardized meanとIP weighted meanがともに潜在アウトカムの周辺期待値]に一致することを証明可能であり、このそれぞれが一致するという2種類の証明を紹介します。まず、standardized meanに関して本文中の結果から
]
]
]
]
]
]
]
となります。もう少し丁寧にいうと1つ目の等号は加重平均、2つ目の等号は条件付き交換可能性、3つ目の等号は一致性によるものです。
次はIP weighted meanについてです。まず一致性から
]]
]]
となります。なおここからはブログの記載では見にくくなってしまうので本文の画像を貼ります。次に正値性から以下のように展開ができます。
以上でtandardized meanとIP weighted meanがともに潜在アウトカムの周辺期待値]に一致することの証明ができました。
(以下は鈴木はまだ完全に理解できていないのでご容赦ください。理解できましたら修正等を行います。)
治療変数が連続であるときconditionally randomized experimentsは非現実的な研究デザインであり(無理です)、またそのデザインにおいては
]]はもはや
]
]と一致しないため、交換可能性の下であっても
にバイアスが含まれるそうです。これは、
を
が(ルベーグ測度に関して) 与えられたときの
の条件付き密度(の1つのバージョン)とするならば、
|L=l]] が1ではなく0となることから確認することが出来るとのことでした。また一方で、
を
]とし続けた場合には、分母の
は確率が1となる集団で0となり、正値性が成り立たなくなるそうです。
次の内容はこちら