医療統計学を学ぶ大学生のブログ

医療統計学、因果推論を専攻しています。R, SASユーザーです。

選択バイアス(Selection bias)について

f:id:NorihiroSuzuki:20210513155446j:plain

(Image by geralt from Pixabay)

無作為化が行われた実験研究では、通常、交絡は予測されません。しかし、観察研究と実験研究ではともに交絡以外にも真の関係性をゆがめる潜在的な問題、バイアスが存在しており、これもまた調整をする必要があります。

この記事で扱うのは、その一つである選択バイアス(Selection bias)です。本記事はWhat Ifの8章の内容にあたります。具体例や図は本書より引用しています

 

 

選択バイアス(Selection bias)とは

選択バイアスは、研究対象となる集団を定義する際に発生するバイアスであり、これが存在すると、研究対象と本来目的とする集団が乖離してしまいます。つまり、選択バイアスが存在している研究で得られた結果は、本来意図する集団の結果と異なってしまう可能性が出てきてしまうということです。

 

以下のような研究を考えてみます。この実験の目的は、ある人が空を見上げることは周囲の人が空を見上げることに関係(因果関係)があるのか?ということを明らかにしようとするものです。

 

研究目的:「空を見上げるとほかの歩行者も空を見上げるか」

f:id:NorihiroSuzuki:20210513172801p:plain

研究の手順

  1. 実験を行いサンプルを集める(承諾なし)
  2. 被験者に研究の内容を説明し、研究への同意を確認する
  3. 同意が得られた被験者のみを研究対象者とし、分析を行う

 

この研究で問題となるのは、研究の手順の2です。

やや極端な話ですが、シャイな人はそもそも空を見上げることは少なく、また実験参加への可否を尋ねられた場合には同意する可能性は、シャイでない人より低いと考えられます。

つまり、手順の2によって研究対象が絞られており(選択されている)、得られた研究集団は、シャイな人が本来の母集団での割合よりも少ない集団になってしまいます。よって、この研究で得られた結果は母集団で予測される結果とずれる(ゆがむ)可能性があります。これが選択バイアスの一つの例です。

 

この例は本書の中で紹介されていたものなので、違和感のある方もいらっしゃるかと思いますが、実際の研究でも選択バイアスというものは常にその存在の可能性があります。

 

また別な例をDAGとともに考えてみます

この研究は妊娠直後の妊婦の葉酸接種が、胎児の妊娠中の心奇形発症に対しての因果効果(A→Y)があるかということを明らかにしようとするものです。DAG中のA, Y, Cはそれぞれ次のようなことを指しています。

 

 f:id:NorihiroSuzuki:20210514114105p:plain

A:妊婦の妊娠直後の葉酸接種

Y:胎児の妊娠2か月での心奇形の発症

C:胎児の出産前死亡

 

このとき選択バイアスの原因となるのはCでの条件付け、生存した胎児のみを研究対象としている点です。前提知識が必要になるのですが、母体の葉酸接種は胎児の出生時死亡を減少させる因果効果が認められています(神経系の先天異常を減らす)。また妊娠中に心奇形になった胎児は生存して出産する可能性が、健康体である場合と比較し、低くなります。つまり、生存した胎児のみを対象とする(Cで条件付ける)ということは、本来考えている結果よりも正の方向に効果をずらしてしまっているのです。

 

ここで何が一番伝えたいかというと、選択バイアスの原因となるのは、治療AとアウトカムYの共通の結果(Common effect)での条件付けだということです。Cを条件付けない場合、AとYの間のパスはCommon effectであるCによってブロックされているのですが、条件付けによってこのパスが開かれCを介してもAとYが関連してしまうことになります。これが選択バイアス(歪み)の理由です。このパスの話はまた別なところでします。

 

 

交絡(Confounding)との違い 

疫学研究でよく問題になるものの一つに交絡(Confounding)があります。この交絡と様々なバイアスを合わせてConfounderと呼ばれることもありますが、交絡と選択バイアスには大きく二つ異なるポイントがあります。

 

一つ目は、その発生メカニズムです。選択バイアスに関しては上記の通り、治療AとアウトカムYの共通の結果(Common effect)での条件付けによるバイアスでした。これに対し、交絡は治療AとアウトカムYの共通の原因(Common cause)が存在していることによるバイアスです。例えば重回帰分析で交絡を調整する場合には、交絡因子は説明変数としてモデルに含め、逆に条件付け(固定化)する必要があります。

 

二つ目は、研究デザインごとの存在の可能性です。疫学研究は大きくは観察研究と、実験研究に分かれます。実験開始の段階で無作為化が行われる場合(RCT)には交絡は予測されないため、交絡の問題は基本的には観察研究で重要になるわけです。しかし、選択バイアスは冒頭からの例にもあったように、仮に無作為化が行われる実験研究であっても、研究対象の選択(脱落)があるため観察研究、実験研究ともにその存在の可能性があります。

f:id:NorihiroSuzuki:20210514120335p:plain

 

 

選択バイアスの例

選択バイアスの例として、本書で紹介があった5つのバイアスを紹介します。

  • Differential loss to follow up(脱落バイアス)

脱落バイアスは、情報打ち切りバイアス(bias due to informative bias)とも呼ばれます。追跡期間がある研究では何かしらの理由で、被験者が研究対象から外れる(脱落)する場合があります。この脱落の原因が治療や処置に独立であれば特に問題はないのですが、関係がある場合には対応する必要があります。

 

  • Missing data bias / Nonrespons bias(欠測データ、未回答バイアス)

例えば、特定の質問に対して回答に消極的など、データを得られている対象と得られていない(欠測している)対象が同質でない場合があります。質問だけでなく受診なども例として考えられます。

 

  • Healthy workers bias(健康労働者バイアス)

コホート研究における特定の暴露の影響を推定しようとした際に発生するバイアスです。ある段階で対象者のアウトカム発症を調べようとした場合、その対象となるのはその時点で就労している人に限られます。つまり、ある暴露によって既に体調を崩した人などは省かれている可能性があり、本来よりも標本が健康である可能性が高くなります。

 

  • Self-selection bias / Volunteer bias(自己選択、志願者バイアス)

治験などの研究で被験者を募集する場合、得られる対象者は自ら望んで研究に参加するため、一般の人よりも健康への意識や特定の疾患への関心が高いなど、参加者の意思が研究に入り込むことによっておこるバイアスです。こういった意識が高ければより良い測定値が出る方向にバイアスが入る可能性があります。

 

  • Selection affected by treatment received before study entry

 事前治療がそれ以降に行われる研究への参加に影響を与えている場合に発生するバイアスであり、これは自己選択バイアスの一般化した形として考えることができます。事前治療の因果効果の推定が目的である研究や、研究デザインに事前治療の要素が存在する研究すべてにこのバイアスが存在する可能性があります

 

おわりに

今回紹介した選択バイアスの例はあくまで一部であり、これ以外にも様々なバイアスに注意をする必要があります。また、こういったバイアスや交絡を考える際には医学的、薬学的な知識も必要になるケースは多く、その分野に対して精通している専門家に意見を求めることも非常に重要です。

自分を含め、生物統計家として今後活躍したい人は単に手法や理論を学ぶだけでなく、分野への理解も十分に持っておくことが必要なのかなと思います。