医療統計学を学ぶ大学生のブログ

医療統計学、因果推論を専攻しています。R, SASユーザーです。

Nonparametric estimators of the conditional mean

本記事はWhat Ifの11章の3節目の内容です。前回の記事はこちら

norihirosuzuki.hatenablog.com

段々と内容の抽象度、レベル感が上がってきているので一節ごとの毎日更新が厳しくなってきていますがどうにか出来る限り頑張ります。というわけで内容へ。

Nonparametric estimators of the conditional mean

16人のHIV患者の例を引き続き使用するので、前節を読んでいない方はまずそちらをご一読ください。記号の定義に変更はありません。

 

二値の治療に対する線形モデルの当てはめ

以下の図のようにAは治療を示す二値変数(A=0だと治療なし、A=1なら治療あり)、Yをアウトカムとして E[Y|A=0], E[Y|A=1]を推定したいとします。

f:id:NorihiroSuzuki:20220109180941p:plain

次に推定を行うにあたって以下の線形モデルを考えます。

f:id:NorihiroSuzuki:20220109180719p:plain

ここで実際にAに0, 1を代入してみれば明らかですが、E[Y|A=0]=θ0, E[Y|A=1] = θ0+θ1となります。このθ0, θ1を実際の16人のデータを用いて最小二乗法で推定すると、

f:id:NorihiroSuzuki:20220109181507p:plain

という結果が得られます。この推定値は1節で計算した標本平均に一致していますが、偶然ではなく、後々重要になってきます。

 

Saturated Model(飽和モデル)

先程の線形モデルをE[Y|A=0]=θ0, E[Y|A=1] = θ0+θ1ですので、以下のように書き換えます。

f:id:NorihiroSuzuki:20220109181755p:plain

これは治療群(A=1)での期待値を未治療群(A=0)での期待値に、θ1という治療による効果量を加えたものと見ることが出来ます。

この二値治療に対する線形モデルでは、未知パラメータ(θ0, θ1)は推定対象を観測したデータのみから推定可能であるため、この線形モデルは正確には”モデル”ではありません。前節の内容にも戻りますが、あくまでモデルとはデータが欠如している部分を補完するために用いる制約のことであり、この二値のAに対するモデルは何も数学的な制約を課していない(対象を推定するのに他の層のデータから情報を借用していない)ためモデルではないということです。A=0, 1の二つの層のデータは得られているのでそれぞれの層での推定はモデル(本書中での定義の意味で)をおかなくても可能なためです。

このようにデータの分布に対して制約を課さないモデルをSaturated models(飽和モデル)といいます。名前にモデルとついてはいますが正確にはモデルではなく、記載が酷似するのでモデルとして一般にはみなします。(ややこしい)

 

飽和モデルに対する補足

よりこの飽和モデル(Saturated model)を理解するために、逆に飽和モデルではない例を再び考えます。例えばAが101の治療レベル( 0~100の離散値)だと飽和モデルではなくなります。実際にデータとして得られるのは16人という限られたHIV患者のデータのみであり、この101は明らかに16という値よりも大きいため、多くのAの層(Ex, A=90)ではデータがありません。こうなるとデータがないAの層におけるYの期待値E[Y|A]を推定するためには何かしらの制約(関係性)をおいて、実際にあるデータから推定するしかありません。つまり、実際にデータとして得られた層以外(Ex, E[Y|A=90])における推定は他の層の情報を用いて行われるというわけです。

ちなみに、推定するパラメータ数<推定対象(Estimand)となる場合には、モデルはparsimoniousというらしいです。

 

また、一般的にはConditional mean modelにおける未知パラメータの個数が、母集団における想定される条件付き期待値の個数と一致する場合に飽和モデルとなります。実際に今回の例だと、未知パラメータはθ0, θ1の2つに対し、推定したい想定される条件付き期待値はE[Y|A=0], E[Y|A=1]とこちらも2つと、個数が一致しています。

 

Conditional mean modelにおけるノンパラメトリック定量

Conditional mean modelにおけるノンパラメトリック定量を考えてみます。これはパラメータによる制約、つまり数学的な制約がない推定量を指しているので、今回のAが二値である例ですと、標本平均や、飽和モデルノンパラメトリック定量にあたります。なお厳密には次の項目でまとめてあるFine Point 11.1を参照ください。

そしてこのノンパラメトリック定量は、標本に推定対象に関するデータがない場合には存在しません。繰り返しになりますが治療を101レベルだとすると、例えばA=90のデータは存在しないためデータから全ての層の推定量を構築することが不可能であるため、存在しないわけです。

 

ここまでのWhat If全体の大きな流れとしては、PartⅠでは飽和モデルのもとでのノンパラメトリック定量に基づいていた方法が紹介され、PartⅡでは対照的にデータの一部をパラメトリックに推定する手法を説明しています。

 

Fine Point 11.1

Fisher consistency

最後にノンパラメトリック定量に関する補足です。上記でまとめている、本書中で述べられたノンパラメトリック定量の定義は、Fisher consistent estimator (Fisher 1922) として知られるものです。これは母集団全てのデータを入手でき、用いた場合に、母集団でのパラメーターが求められる推定量を指しています。(今回の例であれば全てのA=aにおけるE[Y|A])

ただ現実的には、今回のHIV患者の例のように母集団の多くの層における推定量が存在しないこともあります。技術的にはFisher consistent estimatorは飽和モデルのもとでのノンパラメトリック最尤推定量であり、また統計学では、ノンパラメトリック定量は別の制約を指す場合もある(5節のTechnical Point 11.1で紹介)とのことでした。

 

第1節のタイトルが”Data cannot speak themselves”ということでしたが、この節で議論していたノンパラメトリック定量に関してのみいうのであれば、”Data can speak themselves”なのかなと個人的には思います。(推定量の良さはさておいて)

 

次節はSmoothing(平滑化)についてです。

norihirosuzuki.hatenablog.com