医療統計学を学ぶ大学生のブログ

医療統計学、因果推論を専攻しています。R, SASユーザーです。

Causal Inference: What If, Chapter9

 本記事はWhat If Capter9: Measurement biasについてのまとめ記事です。各章のまとめスライドについてはSpeaker deckにて公開していますので、適宜ご活用ください。またWhat Ifは以下のリンクよりダウンロードが可能です。

 Chapter2の構成は以下のようになっています。

  1. Measurement error
  2. The structure of measurement error
  3. Mismeasured confounders
  4. Intention-to-treat effect: the effect of misclassified treatment
  5. Per-protocol effect

 本章は観察研究・実験研究でともに発生しうるMeasurement bias(測定バイアス)に関しての内容です。

Measurement error

Preface

 これまでの章では「空を見上げることが他者の行動に影響を及ぼすかどうか」というcausal questionを一貫して考えてきました。この問いに答えるために、無作為化比較試験という研究デザインを選択し、その関連を交絡なく測定しました。また、集団に含まれる全ての個人に対して実験を行ったため、選択バイアスの存在も期待されません。このとき、観測された介入とアウトカムの関連は因果効果を示していると考えて良いのでしょうか。ここで1つ問題となるのが、アウトカムの測定に関して誤分類があったことです。すなわち、上記の無作為化比較試験において、介入後に空を見上げた被験者の一部を誤って行動に変化がなかった(逆も同様)と記録してしまったことです。

 Measurement bias(測定バイアス)が存在するとは、このようなデータ測定のプロセス(measurement error)によって、治療とアウトカムの関連が変化する場合を意味します。これは交絡とは異なり、観察研究だけでなく無作為化が行われる実験研究においても発生する可能性があります。本章ではこのmeasurement error によるバイアスについて詳しく扱っていきます。

 

Measurement error and Measurement bias

 これまでの章で扱った具体例は、全ての変数が完全に測定されたという仮定が暗にあ存在していました。しかしこの仮定は非現実的であり、実際には、観測される治療やアウトカムの情報は様々な理由で不正確なものとなる可能性があります。治療情報については、例えば以下のような原因が考えられます。

 ここでDAGを用いて視覚的にmeasurement error(測定誤差)を表現します。具体例として、コレステロール抑制剤使用の肝臓病発生への因果効果について考えます。まず、治療のみでmeasurement errorが生じる場合を考えます。なお、選択バイアスや交絡を生じさせる変数はないものとします。

 ここで真の治療A以外に実際の治療A^∗へと影響を与えるU_Aのことをmeasurement error for A(Aの測定誤差)と呼びます^{※1}。先ほどの転記ミスなどがこのU_Aにあたります。余談ですが、心理学の分野では真の治療Aのことをconstruct、実際の治療A^∗のことをmesureないしはindicatorと呼ぶことがあるそうです。

 

※1 離散変数に対するmeasurement errorはmisclassification(誤分類)ともいう

 

 上記の例では治療のみで測定誤差が生じたと考えましたが、当然アウトカムに関しても測定誤差は発生する可能性があります。同じ研究において、この点を拡張したDAGが下図です。

  • Y^∗:測定された肝臓病の発生
  • U_YY以外のY^∗を決定する全ての要因

 この場合でも先ほどと同様に、真のアウトカムY以外に実際の治療Y^∗へと影響を与えるU_Yのことをmeasurement error for Y(Yの測定誤差)と呼びます。Figure9.2、Figure9.2では選択バイアスも交絡も存在しないため、関連を示す指標は因果を意味していると解釈することができる(association is causation)状況です。

 治療AのアウトカムYへの平均因果効果を考える際に、現実に観測され、その推定に用いられるのは測定誤差を含むA^∗Y^∗です。ここで、測定誤差が存在する場合、AYの関係とA^∗Y^∗の関係が一致することは保証されず、一般にこれらの関係は異なります。このように測定誤差によって真の関係と観測される関係が異なる場合、measurement bias(測定バイアス)もしくは information bias(情報バイアス)が存在するといいます。

 

Technical Point 9.1

Independence and nondifferentiality

 次の節で簡単に説明がありますが、Measurement errorの構造は、Independence(独立性)と nondifferentiality(非差異性)という2つの観点で分類されます。Technical Point 9.1はこれらの数学的な定義を紹介しています。f(・)確率密度関数(PDF; probability density function)とすると、それぞれ次のように定義されます。

 統計学を学んでいる方にとっては比較的理解しやすいものかと思います(確率変数の独立性に関する参照)。意図するところとしては、独立性はmeasuremnt error同士(U_AU_Y)の関係を示しており、非差異性はmeasuremnt errorと他の変数の真値(U_AY または AU_Y)の関係を示しています。

 補足になりますが、著名な疫学書の1冊であるModern Epidemiologyのchapter13においても詳しく説明が行われています。

 

 

The structure of measurement error

Measurement errorの構造

 Technical Point 9.1で紹介したIndependence(独立性)とNondifferentiality(非差異性)という観点で評価すると、Measurement errorの構造は下表のような2×2の分割表に表される4つのパターンに分類することができます。

 表中の各Figureは以下の通りです。なお、それぞれが対応する具体例については今回省略していますので、興味がある方は本文を参照ください。

 少しだけ解説をしますと、例えばFigure 9.4は真のアウトカムの発生状況によって曝露の判定や記録の精度が異なるといった場合を意味しています。想起バイアスなどもこのdifferential な誤測定の枠組みで考えることができます。

 

Measurement errorの対応

 このMeasurement errorの対応(バイアスの補正方法)については、What Ifの対象外であり、詳細な言及はありません^{※2}。本書はあくまでも“変数の測定”という行為がバイアスを生じさせる可能性について注目していますので、各タイプでの補正方法が知りたい方は適宜別の論文等をご参考ください。

※2 事後的に対応することも重要だが、測定の精度を高めることが最も重要

 

Fine Point 9.1

The strength and direction of measurement bias

 測定誤差が存在する場合、一般にはそれによるバイアス(measurement bias)が発生します。この際にやはり関心の対象となるのは、そのバイアスの方向と大きさです。すなわち観測されたデータでの関連(A^∗→Y^∗)が、真の関連(A→Y)と比べて、どちらの方向にどの程度ズレるかが重要です^{※3}

  • バイアスの方向
    • Aが二値変数であり、measurement errorがindependentかつnondifferentialなときにはNullの方向へ近づく
      • Ex) リスク差→0
    • それ以外の場合は予測不可能(観測される関連は大きくも小さくもなる)
  • バイアスの大きさ
    • 誤差の程度(U_A→A^∗, U_Y→Y^∗の大きさ)に依存

 

※3 DAGsは因果関係の有無については表現可能だが、その大きさについては表現できないため、measurement biasがどの程度のものかを視覚的に表すことは不可

 

 

Mismeasured confounders

Mismeasured common cause

 ここまでは治療AとアウトカムYのmeasurement errorについて考えてきたわけですが、当然そのほかの変数に関してもmeasurement errorは発生する訳で、この節では交絡因子(confounders)の測定時の誤差について考えられています。先に結論になりますが、交絡因子の誤測定がある場合には、仮に治療とアウトカムの情報が正確に得られていた場合であっても治療効果の推定にバイアスが含まれます。

 このことを具体例とともに考えます。これまでと同様に、コレステロール抑制剤が肝臓病発生リスクに与える治療効果について考え、治療とアウトカムに関しては完全な測定が行われているものとし、以下のようなDAGを想定します。

 

  • Aコレステロール抑制剤の使用量
  • Y:肝臓病の発生リスク
  • L:肝炎の発症歴
  • L^∗:質問票の回答

 以前に肝炎を発症したことがある被験者は治療を受けにくく(L→Aが存在)、またより肝臓病を発症しやすい傾向がある(L→Yが存在)ものとします。ここでLの情報を得るためには、各被験者の医療情報(Ex, カルテ)が必要になりますが、なんらかの理由(Ex, 個人情報保護の観点)で得られないことがあります。そのような場合には、以前の病歴に関する質問票に回答してもらうというといった対応が考えられます。しかし、必この回答が真の情報と一致するとは必ずしも限りません(Ex, 不正確な記憶)。上記のDAGにおけるA→Yの推定にバイアスを生じさせるオープンなパスは、A← L→Yです。すなわち、仮にLの情報が得られる場合には、Lで条件付けることで、これをブロックすることができます(バイアスなく推定することが可能)。しかし、前述のように一般にLは得ることができず、代わりに測定誤差を伴ったL^∗が観測されます。ここでL^∗を用いて交絡を調整しようする訳ですが、完全にLL^∗は一致しないため、A← L→YというバックドアパスはL^∗でブロックすることは出来ません。すなわち、measurement biasないしはinformation biasが生じてしまいます。

 なお、このMismeasured confoundersによるバイアスは、measurement errorというよりもunmeasured confounding(未測定交絡)と考えるという考え方もあります。実際にFigure9.8, 9.9(9.8は今回省略のため本書参照)は、治療効果を求める上ではFigure7.6と同じものです[tex^{※4}]。

※4 Lを未測定の変数、 L^∗をsurrogate confounderとして考える

 

Mismeasured confoundersによるeffect modification

 confounders(交絡因子)の誤った測定は、見かけ上のeffect modification(効果修飾)を生じさせる場合もあります。ここで、質問票に以前の病歴あり(L^∗=1)と答えた被験者の全数が、以前の病歴なし(L^∗=0)と答えた被験者の半数が、真に肝炎を発症した経験がある(L=1ものとします。すなわちL^∗=1の層ではLL^∗の情報は一致しますが、L^∗=0の層では一致しない状況です。

 次に、真には治療AYに対して因果効果を持たないと仮定します。つまり各個人に対する帰無仮説であるsharp null hypothesisが成立し、真のDAGではA→Yがないと仮定します。

 ここで解析を行う対象をL^∗=1に限定すると、LL^∗は完全に一致し、他の交絡因子は存在しませんので、AYの関連は仮定と同じく観測されます(AYの関連なし)。次にL^∗=0について考えます。L^∗=0の層では、真には半数が肝炎の発症歴あり(L=1)と、L=0, 1が混ざっています。すなわち交絡が発生しており、見かけ上の関連が生まれています。

 もし、この研究を行う実施者がこの事実(L^∗=1ではmeasurement errorなし、L^∗=0ではmeasurement errorあり)を知らない場合、結果の解釈を誤る可能性があります。強い仮定になりますが、交絡因子がLのみであったとすると、L^∗で調整したことにより、あたかも各層での交換可能性が保たれていると考えることが出来てします。すなわち、L^∗の各層で観測された結果は交換可能性が保持されることから因果関係を示しているものと解釈することが可能です。このとき、相関の因果効果が異なりますので、たとえ真にはLがeffext modifierではなかったとしてもL^∗はeffect modifierであると結論付けてしまうことにつながってしまいます。

 

 なお選択バイアスの原因となるAYのcommon causeに関してもmeasurement errorが発生する可能性があります。以下のDAGで表されるような治療とアウトカムのcommon causeであるCで条件付けることは選択バイアスを生じさせますが、これは誤差を伴って観測されるC^∗に関しても同様です。

 

Intention-to-treat effect: the effect of misclassified treatment

 ここまでのすべての議論では、言及されていなかったものの、暗に仮定されている条件があります。その1つが、無作為化比較試験における各個人への治療割り当てが完全に順守されているという仮定です。しかし現実には完全に一致するケースだけではありません。よってこれらを区別して因果効果を考える必要があります。

 

Intention-to-treat effect

 はじめに、具体例として以下のDAGで表現される、心臓移植と5年死亡率に関する無作為化比較試験を考えます。

  • Z:治療の割り当て
  • A:実際の治療(心臓移植)
  • Y:治療から5年以内の死亡
  • U:交絡因子

 治療の割り当てと実際の治療が異なる(z≠a)ケースとしては、治療群に割り当てられたが健康上の不安から治療を拒否すること(Z=1, A=0)や、対照群に割り当てられたものの研究外で心臓移植を行うこと(Z=0, A=1)といったことが考えられます。このとき、ZAが誤分類されたものとして考えることもできますが、無作為化比較試験におけるZとmeasurement errorを伴って観測された実際の治療A^∗の間には大きな違いがあります。それはアウトカムYへの因果効果の存在です。

 Figure 9.1~9.7で示されるようにA^∗は因果効果を持たず、あくまでアウトカムへの効果が存在する(可能性がある)のは真の治療Aです。しかし、治療割り当てZはそれ自体がアウトカムに対して因果効果を持つ場合があります。上のFigure9.11をもう一度見てみると、ZからYへのパス(因果効果)は次の2つがあります。

  • 間接効果(Z→A→Y
    実際の治療を介した因果効果
  • 直接効果(Z→Y
    想定される間接効果以外の因果効果
    Ex)被験者の行動の変容による効果、医師の対応の変化による効果

 Zの因果効果(総合効果)はこれら2つの和となりますので、直接効果が存在する場合には、Zの因果効果は治療効果とは異なります。ここでこのZの因果効果(総合効果)は、Aの治療効果と区別して、intention-to-treat effect(「治療割り当ての効果」もしくは「治療意図による効果」)と呼ばれます。

 ここで直接効果を取り除くことができるのであれば、Zの因果効果は、治療Aを介した効果だけになりますので、その場合にはintention-to-treat effectは実際治療の効果を意味していると解釈することができます。そのため、多くの試験では盲検化やプラセボを対照薬とするなどといった取り組みが行われます。患者への盲検化およびプラセボ投与は、いわゆるプラセボ効果(介入を受けていると感じることで症状が改善)を取り除くために、医師への盲検化は医師の行動変容によるプラセボ効果や観察者バイアスを取り除くために行われるものです。ただし、今回の具体例で考えたような治療を心臓移植とした場合など、試験の内容によっては盲検化を行うことができない場合や、プラセボを対照と置かない場合があります。

 

Technical Point 9.2

The exclusion restriction

 除外制約(exclusion restriction)とは、Figure 9.12のように、治療割り当てZからアウトカムYへの直接の効果がないことを意味します。よりフォーマルには、[texY^{z, a}]をランダム割り当てZ=z、実際の治療A=aを受けた下での潜在アウトカムとすると、すべての個人とすべての治療aに関してY^{z=0, a}=Y^{z=1, a}が成立する状況です。

 この条件が成立することは、操作変数法(Instrumental variable methods)で因果効果を推定するための必要条件となっていますので、再度Chapter16 のまとめの際に触れられればいいかなと思っています。

 

 

Per-protocol effect

 無作為化比較試験において、per-protocol effectとは、すべての個人がプロトコルに記載される割り当てを遵守した場合(アドヒアランスが完全な場合)の治療効果です。

 

アドヒアランスが完全なとき

 アドヒアランスが完全である場合には、すべての個人におけるZAの値は一致しますので、per-protocol effectはZもしくはAの平均因果効果と同義です。またランダム化が行われ、交絡が存在しない場合には観察される結果は因果を示しているものとして解釈することができますので、例えば因果効果をmulticativeなスケールで考えた際には、関連リスク比は因果リスク比(per-protocol effect on the
risk ratio scale)と一致します。つまり、Pr[Y=1|A=1]/Pr[Y=1|A=1 ]=  Pr[Y^{a=1}=1]/Pr[Y^{a=0}=1]です。

 

アドヒアランスが不完全なとき

 次にアドヒアランスが完全でない場合、すなわち、ある集団において割り当てZと実際の介入Aの値が異なる個人が存在する場合を考えます。具体的には先ほどのintention-to-treat effectと同様の研究を想定します^{※5}

  • Z:治療の割り当て
  • A:実際の治療(心臓移植)
  • Y:治療から5年以内の死亡
  • U:重症度

 ここで交絡因子Uは被験者の重症度とします。これは重症である被験者(U=1)は、仮に対照群に割り当てが行われた(Z=0)としても、この研究以外で心臓移植を受ける(A=1)傾向があることを意味しています。このとき、介入群(A=1)では対照群(A=0)よりも重症者が多くなってしまい、群間の交換可能性は成り立っていません(交絡が発生している)。よって、観察されるAYの関連は因果関係とみなすことができず、関連リスク比Pr[Y=1|A=1]/Pr[Y=1|A=1 ]は、causal per-protocol risk ratio  Pr[Y^{a=1}=1]/Pr[Y^{a=0}=1]とは一致しません。

 Figure 9.11で示されるDAGの構造を持つ場合に、AYへの因果効果をバイアスなく推定するためには、バックドアパスA←U→Yをブロックする必要があります。Aの決定要因としては、この具体例のように予後因子が含まれる場合もあり、プロトコルごとの因果効果を推定するためには、たとえ割り当てのランダム化が行われた実験研究であっても観察研究のようにUで交絡を調整する必要があります。

 

※5 Figure 9.12ではなくFigure 9.11(Zの直接効果が存在)のDAGを用いている理由は、心臓移植は治療の有無が明らかに分かってしまうため盲検化できないため、Zの直接効果が存在してしまうためかと思われます

 

無作為化試験においてIntention-to-treat effectが頻用される理由

 無作為化試験においてしばしばintention-to-treat effectが推定される理由として、本書では3つの理由が挙げられています。

  • 交絡が存在しない(no confounding)

 ランダム割り当ては、割り当て変数Zと潜在アウトカムY^zの無条件での独立性を意味し、Z=0Z=1は交換可能(exchangeable)です。またZYの間にバックドアパスは存在しません。そのため、アドヒアランスが完全であろうとなかろうと、観測される値は、Zによる因果効果を示しているものとして考えることができます。例えばeffect measureとしてリスク比を用いた場合には、Pr[Y=1|Z=1]/Pr[Y=1|Z=1 = ] Pr[Y^{a=1}=1]/Pr[Y^{a=0}=1]です。仮に二重盲検化を行った場合など、除外制約が成立している状況であれば、前述のようにintention-to-treat effectを治療効果として考えることが出来ます。

 

  • Null preservation

 真に治療の因果効果がなく(sharp null hypothesisが成立)、Zの直接効果が存在しない(exclusion restrictionが成立)とき、ITT effectを用いることで、治療効果がないと結論付けることが可能です。これは除外制約によりITT effectをAの治療効果、もしくはper-protocol effectと考えることができる為です。真に因果効果がない時にないと判断できることも重要な要素であるということですね。

 

  • Per-protocol effectより保守的な推定量である 

 Intention-to-treat effectはper-protocol effectよりもnullに近い値をとること(保守的な性質)が保証されています^{※6}。これは不完全なアドヒアランスは因果関係を過大ではなく、過小に評価すると直感的には解釈することが出来ます。しかし、この性質が成立しない、もしくは妥当ではない3つの場面が紹介されています。

※6 Independent and nondifferential misclassificationの場合には、effect measuresがnullの方向にバイアスが入るという話があり、それと似た話になるかと思いますが、証明等については別途論文を追う必要があるかと思います

 

保守的な性質が成立しない、妥当ではないケース

  • 効果の単調性(monotonicity)が成り立たない場合

 効果の単調性(monotonicity)は、全ての個人において因果効果の方向が同一であるという仮定です(chapter5参照)。例えば治療群に割り当てられた被験者(Z=1)の50%が治療を拒否し、遵守した人と遵守しなかった人で因果効果が逆である場合にはintention-to-treat effectとper-protocol effectの大小関係が反転します。

 本書中にはこれ以上の記載はありませんが、より具体的には下図のような場合かと思います(これ以外の状況も存在)。

 アウトカムをイベントの発生(疾患の発生)とし、遵守した人は症状が改善し(リスク↓)、遵守しなかった人は症状が悪化したとします(リスク↑)。ここで議論の簡略化のために、Aの真の治療効果がなかったとします。すると因果関係をmultiplicative scaleで考えた場合(リスク比)にはper-protocol effectの値は1となりますが、intention-to-treat effectの値は1よりも大きく(分子>分母)、保守的な性質が成立していないことが分かるかと思います。

 

  • 有効な治療が両群に割り当てられる場合(head-to-head試験)

 慢性痛を持つ被験者を対象とするhead-to-head試験が具体例として挙げられています。Zを治療の割り当て(0:イブプロフェン, 1: 高価な薬品)とし、共に同じ治療効果を持つものとします。またアウトカムYは介入開始から1年後の痛みの軽減の有無であるとします。

 ここで仮にイブプロフェンを処方された集団の服薬率は、軽度な副作用の発生から、高価な薬品を処方された群よりも低いものとすると、per-protocol-risk ratioの値は1になるのに対し、Intention-to-treat risk ratioの値は1よりも大きくなり、大小関係が崩れています。

 

  • 安全性を評価する場合

 アウトカムをなにか有害な事象であるとすると、このintention-to-treat effectは本来の関係性よりも、その治療の有害性を過小評価してしまいます。すなわち、治療が安全であるという誤解を生む可能性があります。前述の2つの例は、保守的な性質が成り立たないケースの紹介でしたが、これは保守的な性質が望ましくない場合の紹介です。

 

Fine Point 9.2

Per-protocol analyses

 無作為化試験において、per-protocol effectを推定するための一般的な解析方法は次の2つが挙げられます。

  • As-treated analysis

 As-treated analysisは、割り当てZには関係なく、実際に治療を受けた人(A=1)と受けなかった人(A=0)の比較を行う方法です。しかし前述のようにAYの間には一般に交絡があり、未測定の交絡因子が存在する場合には、推定結果に一定のバイアス(交絡)が残ります。

 

  • Per-protocol analysis(on-treatment analysis)

 Per-protocol analysisはon-treatment analysisとも呼ばれます。これは試験のプロトコルを遵守した集団(per-protocol population)において、治療群に割り当てられた人(Z=1)とそうでなかった人(Z=0)の比較を行うものです。すなわち、試験プロトコル遵守した集団に限定したintention-to-treat analysisです。しかし、一般にはこの解析は選択バイアスを含む可能性があります。

 

詳細ついてはHernán and Hernández-Díaz (2012)を参照

 

Fine Point 9.3

Pseudo-intention-to-treat analysis

 Intention-to-treat analysisは、試験に参加する被験者全員が、試験終了まで完全にフォローアップされた場合にのみ実施することが出来ます。すなわちloss to follow-upなどの打ち切りが起こりうる場合には、試験から脱落する被験者のアウトカム情報を得ることはできないため、解析を行うことはできません。

 仮に試験からの脱落が起こる場合には、試験終了まで脱落がなかった被験者(C=0)に限定したIntention-to-treat analysisが行われます。これをPseudo-intention-to-treat analysisといいます。しかし、打ち切りが存在する場合の解析はchapter8で説明があったように、選択バイアスが発生する可能性があり、適切に調整を行う必要があります。

 

詳細についてはLittle et al (2012)を参照

 

Fine Point 9.4

Effectiveness versus efficacy

 筆者によっては、per-protocol effectを治療の”efficacy”、intention-to-treat effectを治療の”effectiveness”と呼ぶ場合があります。この節の冒頭で説明したように、理想的(アドヒアランスが完全)な無作為化試験においてはper-protocol effectは、ZないしはAの平均因果効果と同義であり、efficacyはそれに関係した言葉です。それに対し、effectivenessという言葉は、アドヒアランスが不完全であるという理想的ではない無作為化試験において算出されるintention-to-treat effectに関係した言葉です。

 現実の世界においてはアドヒアランスは不完全であり、effectiveness(すなわちITT effect)はその事実を取り入れた考えであるため、effectivenessは治療効果の評価に最も現実的であるとしばしば議論が行われます。すなわち、intention-to-treat effectが頻用されるのは、その算出が容易であるだけではなく、真に興味がある推定量(最も現実的な値)であるためであると主張がされます。

 しかしこの主張は、次の3つの点で非難されます。

  1. 臨床試験におけるアドヒアランスの程度と、実社会におけるアドヒアランスの程度は異なる

  2.  

    現実的な効果を考えたいのであれば、そもそも二重盲検化は行うべきではない(実際の世界では被験者も、医師も割り当ての内容を知っている)

  3. 治療割り当てを遵守する被験者は、per-protocol effectの方が知りたい場合がある

 

詳細ついてはHernán and Hernández-Díaz (2012)を参照

 

 

本章の内容はここで終わります。