本記事はWhat Ifの11章の内容にあたります。What IfのPartⅡから使用されている具体例は、実データに線形回帰やロジスティック回帰モデルを適合させたものでありPartⅠのように手計算では難しいので、R, SAS, Stata, and Pythonなどを使用しています。データセット、コードに関してはWhat Ifが提供されているWebサイトでダウンロード可能なので必要な方はそちらをご参照ください。
11章の内容としては大きく以下の3つです。
- ノンパラメトリック推定量(Part1)と、パラメトリック推定量(PartⅡ)の違いについて論じる
- 平滑化(Smoothing)とbias-variance trade-off について簡潔に記載
- 目的が予測か因果推論のどちらであっても、分析におけるモデルの必要性を説明する
また次の5つの説に分かれています。
- Data cannot speak for themselves
- Parametric estimators of the conditional mean
- Nonparametric estimators of the conditional mean
- Smoothing
- The bias-variance trade-off
今回はこの11章の一番初めの節について取り扱います。心が折れるまで毎日更新です。
Data cannot speak for themselves
What If11章の第1節のタイトルは”Data cannot speak for themselves”です。speak for〜 が〜について話す、語るということを踏まえて直訳すると「データはそれ自身を語らない」となり、正直あまり意味はわからないかなと思いますが、この節を一度最後まで目を通してもらえるとそれが意味するところが伝わってきます。
16人のHIV患者の例
まずは具体例として、仮想的な大規模な集団から無作為抽出されたと考えられる16人のHIV患者を考えます。
この時実際に手元にデータとして得られる16人を標本(sample)、標本の抽出元である仮想的な大規模な集団を標的母集団(target population)と呼びます。
次にこの16人のHIV患者に対して、次のような状況を考えます。
- 各個人は研究開始時点で特定の治療Aを受け、期間中は継続して治療を受ける
- 研究終了時に連続値であるY(1立方メートルあたりのCD4細胞数)を測定
ここで研究者は想定されるtarget populationにおいてA=aという治療レベルを受けた時のYの期待値、つまりE[Y|A=a]を知りたいとします。ここでこの推定したい母集団における未知のパラメータのことをEstimandと呼びます。
しかし当然のことですが、このtarget populationのデータは全て手に入れることは不可能であり、あくまでサンプルとして得られた16人のデータからこのEstimandを推測することになります。そこで用いられるのが、実際に得られたデータの関数であるE ̂ [Y|A=a]です(チルダがはてなブログだとうまく記載できないので、ハットで代用しています)。この関数のことをEstimator(推定量)と呼び、推定量の目的はEstimandを推定することにあります。
※ 本文中には「サンプルサイズが大きくなるほど、この推定量はEstimand(E[Y|A=a])に近づく」といういわゆる一致性の仮定が記載されていました。
次にEstimand(E[Y|A=a])に対して次のような二つの推定量を考えます。
1.A=aである標本集団の標本平均
2.データセットにおいて、初めてA=aとなる個人のYの値
2つの推定量ははたしてどちらが適切であるのか?ということが問題になります。そこで登場する一つの考え方が、一致性(Consisitency)という性質を持つ推定量のクラス、一致推定量です。
1は一致性を持ちますが、2は一致性を持ちません(証明は省きます)。筆者曰く実用上は全ての推定量に対して一致性を要求するとのことでした。
では次に、この1(標本平均)を推定量とし、治療Aの取りうる値を色々と考えた場合に何が起こるかということを考えます。
Aが2値の時
A=0(治療なし)、A=1(治療あり)にそれぞれ8例ずつ割り当てた場合を考えます。この時のplot、基本統計量は以下の通りです。
ここでExchageabilityの仮定が成り立っているとすれば、2群の差(146.25-67.5)は治療による平均因果効果の推定値、すなわちtarget populationでの効果と解釈できます。
Aが多値の時
次にAが2値ではなく、より多いカテゴリーである場合を考えます。すなわちA=1(治療なし)、A=2(低用量)、A=3(中容量)、A=4(高容量)にそれぞれ4例ずつ割り付けされたとします。この時のplot、基本統計量は
となり、各治療レベルにおける標本平均は依然として対応する母集団の不偏推定量となります。しかしこのあたりから問題が生じます。それはカテゴリーが増えるとともに各層におけるサンプルサイズは減少するため、95%信頼区間の幅は広がる(分散は大きくなる)というものです。
Aが連続値である時
そして最後にAは0〜100(mg)の連続値であるとした場合を考えます。この時のplotは下図のようになります。
Aが連続値になってしまうと、多くのAの層(Ex, A=90)でYは観測されず、標本平均を算出ができません。なお治療Aが連続値であっても層の数が無限である時とみなせるので、基本的にはこれまでの議論の延長で話をしています。こういった場合に“モデル”を用いて補完をする必要があるとこの節では結論づけられています。
こういったことを踏まえると、この説のタイトルである”Data cannot speak for themselves”は、標本として得られたデータは必ずしもtarget populationにおける推定対象への情報を全て持っているわけではない(今回だと全てのAの層における条件付き期待値)というところなのかなと個人的には思っています。だからこそ、手元にあるデータにさまざまな仮定を置いてどうにかtarget populationでの興味のあるEstimandを推測しに行こうという話になってくるのかなと思います。そしてその推定に関わってくるのが、わからない部分を推定するために用いるのが、次節以降でより中心的に扱う”モデル”という部分かなと。
続きはこちら