医療統計学を学ぶ大学生のブログ

医療統計学、因果推論を専攻しています。R, SASユーザーです。

Parametric estimator of the conditional mean

本記事はWhat Ifの11章の内容にあたります。11章は以下の4つの節で構成されており、今回はその2節目の内容です。

  1. Data cannot speak for themselves
  2. Parametric estimators of the conditional mean
  3. Nonparametric estimators of the conditional mean
  4. Smoothing
  5. The bias-variance trade-off

前節の内容はこちら。

norihirosuzuki.hatenablog.com

ということで、早速内容に入っていきます。

Parametric estimators of the conditional mean

16人のHIV患者の例を引き続き使用するので、前節を読んでいない方はまずそちらをご一読ください。記号の定義に変更はありません。

 

前節からのMotivation

前節に引き続き、まずはtarget populationにおけるE[Y|A]を推定したいとします。しかし前節の最後で問題となったのは、Aが連続値である場合多くのAでは実際のデータが存在しないことでした。例えばA=90の時には下図を見ても明らかなように観測値はありません。

f:id:NorihiroSuzuki:20220108142807p:plain

つまり多くの層におけるEstimandであるE[Y|A]、例えばE[Y|A=90]を推定するための推定量が得られないわけです。じゃあどうやって推定を行えばいいのかというのは当然の発想になるかと思います。(A=80, 100の時のYの値の平均として考える?)

 

そこでAの定義域(0~100)において、AとYの間には以下の一次関数の関係式があると仮定します。

f:id:NorihiroSuzuki:20220108143341p:plain

f:id:NorihiroSuzuki:20220108144333p:plain

このAとYの間(より正確には期待値ですが)には一次関数の関係があるという仮定、制約のことを”liner mean model”と呼びます。ここで上記の式中θ0, θ1は有限個(n=2)であり、数値(parameter)です。θ0, θ1はそれぞれA=0の時のYの値、Aが1単位増加した時の変化量(効果)を示しているのが式から明らかかと思います。

このような有限個のパラメータで記述させるモデルを特に"parametric conditional mean models"と呼ぶわけです。つまりモデルとは推定を行うために変数間に制約(仮定)としておく関係と理解すればいいかなと思います。ただこの例では1次関数がモデルとして考えられていましたが、より一般的には何らかの関数形として表現されます。

 

モデルの推定

ということでモデルを仮定することによって、実際にデータがない部分においてもEstimandを推定することが可能となりました。そうなると次はこのモデルにおけるθ0, θ1を推定しにいきましょうかという話になります。

この辺りからEstimandといった際に必ずしもE[Y|A]だけでなく、例えばθ0, θ1といったことも指すようになるのでご注意ください。ただ一貫して推定したい対象をEstimand、それを推定するための関数をEstimator(推定量)、そしてそのEstimatorに対して実データを入れて値として得たものをEstimate(推定値)と呼ぶので誤解のないようによろしくお願いします。

 

θ0, θ1の不偏推定量θ0^, θ1^を求めるために、最小二乗法(Ordinary Least Squares)が用いられます。本書中ではこの最小二乗法は、データに対して直線を引き、各Aにおける実際のデータと直線上のそのAにおける値との差の二乗和を最小にする方法としてまとまとめられていましたが、どういうふうにmin{Σ(Yi-Yi^)}を解けばいいかは大体の統計の本に書いてあるので分析を専門にする人はそちらを見た方がいいと思います。

最小二乗法では全てのデータを用いてθ0^, θ1^を求めるわけですがA=90のような実際のデータがない部分は、それ以外のデータがある部分から推定を行うことになります。今回のHIV患者のデータでは残差の等分散性を仮定するとθ0, θ1に対する推定量θ0^, θ1^の点推定値、およびWald法による95%信頼区間は以下のようになります。

  • θ0・・・点推定値:24.55、95%信頼区間:(−21.2~70.3 )

  • θ1・・・点推定値:2.14、95%信頼区間:(1.28~2.99)

  • E[Y|A=90]・・・点推定値:216.9、95%信頼区間:(172.1~261.6)

 

Why model?

最後に改めてモデルというものを考えます。ここまでの内容を整理すると、モデルとは変数間の関係を制約するものです。今回の例であれば、parametric conditional mean modelsを考える、仮定する(制約をおく)ことによって実際にはないA=90のようなデータの欠如を補完しています。

しかしここで注意点が一つ。それはこのパラメトリックモデルを用いる場合、モデル(今回だとθ0+θ1*Aという1次関数)が正確に特定されている、関係式が間違っていないという必要があることです。もしモデルが誤特定されている場合にはバイアスが含まれてしまいます。ただこの部分に関してはノンパラメトリック定量を用いることで多少は軽減可能とのことで、次節以降で紹介があるかと思います。

モデルの誤特定の話をしてしまうと、なかなか統計的因果推論の内容に進めないということで以降の章の大部分はモデルの誤特定がない前提での議論になります。その点よろしくお願いします。

 

ということで今回はここで終わります。次節はまた明日の記事で。。。

norihirosuzuki.hatenablog.com