医療統計学を学ぶ大学生のブログ

医療統計学、因果推論を専攻しています。R, SASユーザーです。

The bias-variance trade-off

本記事はWhat Ifの11章の5節目(ラスト)の内容です。前回の記事はこちら。

norihirosuzuki.hatenablog.com

今回の内容はこんな感じ

The bias-variance trade-off

この節のタイトルにもある”トレードオフ”という関係は、簡単にいうとある2つの物事に対して一方を得ようとすると、もう一方は得られなくなってしまうというような両立のできないことを指します。このことを少し頭に入れつつ、節の内容に入っていっていただければなと。

 

複数のモデルの想定

これまでの節では治療Aのレベルを101段階(0~100)とした場合に、E[Y|A=90] を推定するために、以下のような2つの線形モデルを考えました。

f:id:NorihiroSuzuki:20220112224832p:plain

グラフとして想定しているモデルを表現してみるとそれぞれこんな感じ。

f:id:NorihiroSuzuki:20220112225004p:plain

 

f:id:NorihiroSuzuki:20220112225022p:plain

なお補足ですが、サンプルサイズが16に対して今回推定したい対象はAの各層(101レベル)でのアウトカムYの期待値であり、16<101となることからこれらは共にパラメトリックモデルとなっています。

 

2つのモデルを想定した時問題となるのは、果たしてどちらのモデルが適切か?ということです。E[Y|A]とAの真の関係が曲線である時、一次関数の形(直線)である2-parameterのモデルの推定値にはバイアスが含まれてしまい、3-parameterのモデルの方が妥当なモデルとなります。

対して、真の関係が直線である時には、これはどちらのモデルも妥当なものとなります。3-parameterには2次の項が含まれるため曲線では?となるかもしれませんが、θ2=0とした場合には、2次の項の部分が消えますのでグラフは直線になります。

つまり、より高次の項を含むモデル(今回だと3-parameterのモデル)、よりパラメータを含む(滑らかでない)モデルはそれよりも低次の項でのモデルを包含していると考えることができますので、この意味でバイアスに対して保守的になっています。

 

ここだけ聞くと限界までパラメータをモデルに入れて推定すればいいのでは?となるかなと思いますが、なかなかそんな上手い話はないよねというのが次の項目の内容です。

 

バイアスと分散のトレードオフ

上記の二つのモデルでのE[Y|A=90] に対する点推定値と95%信頼区間を見てみます。

f:id:NorihiroSuzuki:20220112230508p:plain

Wald法での95%信頼区間をみるとより区間の幅が広いのは、3-parameterのモデルの方となっています。すなわち言い方を変えるならば、より分散が大きくなっています。しかし、先程述べたようにバイアスという観点では、2-parameterのモデルよりも3-parameterを採用した方がいいわけです。このバイアスに対して保守的であることと、分散を小さくすることを同時に達成できないというジレンマのことを、この節のタイトルである”The bias-variance trade-off”は指しています。

なお、推定値にバイアスが含まれる場合には、真値を含む信頼区間である確率は95%よりも小さくなることには注意が必要です。

 

では、どの程度モデルにパラメータを追加するか(追加するほどバイアス↓分散↑)ということですが、これは研究や解析を行う人の判断次第です。先行研究やその分野で培われた知見、パラメータの解釈可能性、使用するソフトウェアでの制限などから総合的に判断するしかないというのが結論です。このモデルの選択ということに関しても一つの大きな研究分野なので、なかなか単一の基準を設けるのは厳しいかなと思います。

 

なお本書ではパラメトリックモデルの特定は正しく行われているとします。これは現実的な仮定ではありませんが、モデルの誤特定について議論を始めてしまうと、この本のメインテーマである因果推論に関して議論が行えないためです。

 

Technical Point 11.1

A taxonomy of commonly used models

タイトルの通りモデルの分類法に関しての内容です。technical pointは難易度が総じて高めなので一旦後回しでも構わないかなとは思います。

 

ここまでの章で考えてきたXでの条件付き期待値E[Y|X]は、全ての個人に対し次のように記載ができます。

f:id:NorihiroSuzuki:20220112232237p:plain

なおXiは共変量です(今回の3-parameterの例だとX1=A, X2=A^2)。

さらに線型結合を示す総和記号Σと、リンク関数g{・}を用いることにより、conditional mean modelは以下のように拡張することも可能です。

f:id:NorihiroSuzuki:20220112232553p:plain

なおCh11では全てidentityリンク関数を使用しています。このリンク関数含め、一般化線形モデルに関しても勉強しているところでもありますので、機会があれば纏めようかなとは思っています。具体例としては以下のようなものがあります。

 

  • アウトカムYが正の値をとる場合
    • リンク関数:対数関数

f:id:NorihiroSuzuki:20220112233010p:plain

ポアソン回帰モデル

 

  • アウトカムYが二値(0, 1)をとる場合
    • リンク関数:ロジット関数

f:id:NorihiroSuzuki:20220112233216p:plain

→ロジスティック回帰モデル

 

これらは最尤法によりθを推定しますが、Nomal modelのもとでは最小二乗法と最尤法は一致します。(Ch11では一貫して最小二乗法だったかと)

 

 

ここまでずっと議論してきたパラメトリックモデルであるConditional mean modelは、E[Y|X]に対して制約を与えるだけであって、これはY|Xの分布やXの周辺分布に対しては制約を与えていません。あくまでY given Xの期待値(になんらかの関数を組ませたもの)が制約を受けているという状況です。つまりモデル全体を見たときには制約(パラメトリック)がかかっていますが、その構成要素にはパラメータによるモデル化はされていないため、この意味でSemiparametricなモデルであると考えることができます。

 

このConditional mean modelは、E[Y|X]がパラメトリックであるという仮定を緩めることでより一般化ができます。その例としてはカーネル回帰モデル、GAMsが挙げられます。ただし注意が必要な点があり、カーネル回帰モデルは“ノンパラメトリック”なモデルではありますが、この”ノンパラメトリック”という意味は、Ch11でのノンパラメトリック意味は異なります

 

簡単にそれぞれのモデルを説明すると、まずカーネル回帰モデルではE[Y|X]に特定の制約を置かず、以下のように推定を行います。

f:id:NorihiroSuzuki:20220112234029p:plain

なおwh (z)は、z=0で最大値をとり、0から離れるほど0に近づく正値関数(カーネル関数)としています。

そして、Generalized additive models(GAMs;一般化加法モデル)はパラメータと共変量の積を滑らかな関数f(x)で置き換えたモデルとなっています。すなわち、Conditional mean modelにおいて

f:id:NorihiroSuzuki:20220112234250p:plain

としたものです。

 

先程のノンパラメトリックという言葉の意味が違うという部分ですがこれは次のような点です。ノンパラメトリックモデルである、カーネル回帰モデルは特定の関数形を指定せず、 E[Y|X=x]を推定するのにxの周辺のデータのみを借用して推定を行います(どの程度の範囲から情報を借用するかはhで調整)。これに対し、本書中でのノンパラメトリックという言葉は、 E[Y|X=x]を推定するのにX=x のデータだけを用いるという意味で用いられており、その意味の混同に注意が必要かと思います。この章だけではないですが、一般的な意味とは異なる用語がしばしば出てくるので、ぜひ章の初めの用語の定義をご確認ください。

 

というわけでChapter11「Why model?」はこれにて終了です!次のChapter11のIPWの話題に入っていきます!!