医療統計学を学ぶ大学生のブログ

医療統計学、因果推論を専攻しています。R, SASユーザーです。

SASによる解析:CAUSALTRTプロシジャでの因果効果の推定

f:id:NorihiroSuzuki:20210826173850p:plain
 観察研究で問題となることの一つには、交絡(Confounding)があります。これは交絡因子の存在により、真の関係性にバイアスが入ってしまうことを指します。この交絡の調整の方法としては、回帰分析や傾向スコアを利用した手法など、多くの方法が考えられています。

 この記事では交絡の調整を行い、因果効果を推定するために用いられるCAUSALTRTプロシジャを紹介します。

 

 

交絡とは

交絡(Confounding)とは、医学研究において興味のある治療(介入、曝露)とアウトカムの関係が、第3の因子(交絡因子)によってゆがめられてしまうことを指し、ランダム化が行われない実験研究や観察研究において、その対応が重要です。

f:id:NorihiroSuzuki:20210819170528p:plain

交絡因子が満たす条件は次の3つ

  1. 原因(治療)と関連する
  2. アウトカムの原因である
  3. 原因(治療)の中間因子でない

 

統計的因果推論の考え

潜在アウトカム

求めたい因果効果(介入がアウトカムを改善させたのか?)を定義するにあたっては、まず同一の個人に対して、次の2つの事象を比較する必要があります。

  1. 介入を受けなかった場合の結果
  2. 介入を受けた場合の結果

ここで、介入以外の条件は同じであるとすると、介入による因果効果は1と2の差になります。つまり潜在アウトカムの表記を用いると因果効果は、Y0 – Y1と表記されます。この差が0でない場合に介入による因果効果があるとするわけです。しかし現実には、この事象はどちらか一方のみしか観測することができない反事実な問いとなります。なお、この潜在アウトカムが現実に得られた結果と等しいという一致性の仮定(Y=(1-A)Y0 – AY1)も必要です。(もしくはSTUVA)

 

潜在アウトカムに関しては、この記事のメインではないので詳しくは下の記事をどうぞ。

norihirosuzuki.hatenablog.com

 

同一の個人に対しては、潜在アウトカムのどちらか一方のみが観測されるという、潜在アウトカムを用いた因果推論の根源的な問題があり、個人レベルでの因果効果(Y0 – Y1)は測定することができません。そこで次に考えるのは、同一の個人ではなく、似た人同士の比較、つまりある人には介入を行い、別な人には介入を行わなかった場合の結果を比較しようとするものです。

ここで重要なのは介入以外の条件は全く同じでなければ、得られたアウトカムの差は介入による因果効果であるとは言い切れないことです。例えば比較する2人の性別が異なっているとしたら得られたアウトカムの差は性差によるものかもしれないということです。個人の比較を行う場合、この介入以外の状況が全く同じという仮定は、たとえ一卵性の双子であっても現実的に不可能であるため、個人レベルでの因果効果を測定することは現実的にはほぼ不可能です。

 

となると、今度は集団レベルで比較、すなわち対照群と介入群の潜在アウトカムの差E[Y0] – E[Y1]を考えようとするのは当然の発想です。(今回は因果リスク差を因果効果としています)集団同士の比較をすることによるメリットは、先程の介入以外の条件が全く同じという条件が、集団の場合では現実的になることです。

まずはWhat Ifから引用してきた有名な図を使いつつ、因果と相関について考えます。

 

f:id:NorihiroSuzuki:20210826162913p:plain

因果と相関の違いを簡単にまとめると

因果:同じ集団の異なる条件の比較

相関:異なる集団の異なる条件の比較

 

挿入した以前の記事に詳細はまとめてありますが、この同じ集団同士の比較を担保するのが交換可能性(Exchangeability)です。この記事の冒頭に述べた交絡の調整というものが、なぜ統計解析で重要となるかというと、この交換可能性(より正確には条件付き交換可能性)を成り立たせるためです。

ランダム化によって得られる交換可能性は、すべての介入a(二値であれば0, 1)に関して、

f:id:NorihiroSuzuki:20210826164727p:plain
が成立していることを意味しています。すなわち、

  • E[Y0] = E[Y0|A=0] ­= E[Y0|A=1]
  • E[Y1] = E[Y1|A=0] ­= E[Y1|A=1]

であり、両群の潜在アウトカムが均等に分布していることを指します。これが成り立っているのであれば両群の単純比較をすることによって因果効果を算出可能です。

 

しかし、観察研究やランダム化が行われない実験研究のほぼ全てにおいては、交絡が存在しており、この交換可能性が成り立っていません。そこで、すべての交絡因子Lが観測されたとして、その交絡因子Lで条件付け(調整)することにより、両群の交換可能性を作り出します。これが条件付き交換可能性です。

すなわち、すべてのaに関して、

f:id:NorihiroSuzuki:20210826165911p:plain
成立していることです。これは数式では、

  • E[Y0|L=l] = E[Y0|A=0, L=l] ­= E[Y0|A=1, L=l]
  • E[Y1|L=l] = E[Y1|A=0, L=l] ­= E[Y1|A=1, L=l]

と表されます。

 

CAUSALTRTプロシジャ

 CAUSALTRTプロシジャでは、次の3つのいずれかを実行可能です。

  1. 回帰モデル
  2. IPW
  3. AIPW

なお、これらの手法は、条件付き交換可能性の元での手法であるため、全て未観測交絡が存在しないという強い仮定のもとで、因果効果を推定可能となっています。またIPW, AIPWに関しては正値性も必要となってきますが、それぞれの手法について、傾向スコアについてはまた別で記事にします。

 

基本的な構文はこんな感じ。

PROC CAUSALTRT <options>;
 BOOTSTRAP < options > ;
 BY variables;
 CLASS variables <(options)> …<variable<(options)>> </ global-options>;
 FREQ variable;
 MODEL outcome <(variable-options)><= <effects>> </ model-options>;
 OUTPUT <OUT=SAS-data-set> <keyword=name …keyword=name>;
 PSMODEL treatment <(variable-options)><= effects </ psmodel-options>>;

 

この赤く染めたところが回帰モデルに関する部分、青く染めた部分が傾向スコアに関する部分です。それぞれの手法の必要最低限の構文を紹介すると次のような感じになります。なお今回はL1, L2, L3がすべての交絡因子であると仮定します。

 

回帰モデル

f:id:NorihiroSuzuki:20210826172010p:plain

modelステートメントで交絡因子を指定

IPW

f:id:NorihiroSuzuki:20210826172040p:plain

psmodelステートメントで交絡因子を指定

AIPW

f:id:NorihiroSuzuki:20210826172115p:plain

model, psmodelステートメントで交絡因子を指定

 

その他オプション、具体例について

公式のcausaltrtプロシジャに関してはこちらから

support.sas.com

 リンク先の各オプションの項目に飛ぶとそれぞれのステートメントで指定可能なものの記載があります。

 

実際の解析例についてはこちらを参考に

documentation.sas.com