医療統計学を学ぶ大学生のブログ

医療統計学、因果推論を専攻しています。R, SASユーザーです。

Smoothing

本記事はWhat Ifの11章の4節目の内容です。前回の記事はこちら

norihirosuzuki.hatenablog.com

今回の内容

Smoothing

前節までは一貫して一つの線形モデルのみを考えて、パラメトリック、ノンパラメトリック定量を考えていました。今回のこの第4節(Smoothing)は、そのそもそも仮定していた線形モデル自体は果たして適切なのか?という点についての話となっています。

 

線形モデルの仮定

前節まで以下の線形モデルを考えてきました。

f:id:NorihiroSuzuki:20220109180719p:plain

これはみてわかるように一次関数(y=ax+b)の形であり、Aの定義域(0〜100)全てにおいてAの1単位あたりの増加量は一定(θ1)であることを意味しています。つまりAが1増えるごとにずっとE[Y|A]はθ1ずつ増えているということですね。

f:id:NorihiroSuzuki:20220108144333p:plain

ただ一旦冷静に考えてみるとこの一次関数の関係性、つまりE[Y|A]とAの間に直線関係があるというのは適切なのかという疑問が出てきます。Aが低容量では効果が大きく、高容量では1単位量あたりでは効果が小さくなるという状況が想定される場合においてはこのモデルは非合理的です。実際の臨床研究や、病院治療を考えてもこのような状況は比較的珍しくないかなと思います。

 

グラフの形状が直線となる線形モデルだと、データにそぐわないとなると別な線形モデルを考えてみましょうかというのは当然の発想です。上記の"線形"モデルに対して、共変量を2乗した項や対数をとった項を加えても、パラメータ間が線形結合されている場合には"線形"モデルですのでそういった別のモデルも考えてみます。

例えば、

f:id:NorihiroSuzuki:20220111163214p:plain

というモデルを考えてみるとそれぞれのパラメータの最小二乗法による推定値は、θ1ˆ =−7.41, θ1ˆ = 4.11, θ2ˆ =−0.02となり以下のようなグラフになります。

f:id:NorihiroSuzuki:20220110170025p:plain

今回のデータは16人のHIV患者に対する治療Aと治療後のアウトカムYであり、サンプルサイズは16ですので、推定上はパラメータは16個まで推定可能です。このパラメータが推定できるかどうかの話は本書中では述べられていないのと、内容的には因果推論ではなく推定論になってきますので詳細は割愛します。また、モデルに含まれる共変量の次数が高くなるにつれ、グラフの変曲点の数は増加します。(よりグニャングニャンに)

 

モデルの滑らかさ

ここまで述べてきたようにモデルにパラメータの数を増やすほど変曲点の個数は増え、モデルは滑らか(モデルのグラフが直線)ではなくなります。今回だとパラメータ数が2のモデルが最も滑らか(直線)であり、反対にパラメータ数が16(A^16までをモデルに入れた場合)のモデルが最も滑らかではないものになります。

 

大抵の場合モデリングとは観測されたデータを曲線へ変換する作業(平滑化)と考えることができます。つまりこの作業は観測した、手元に得られたデータから情報を借用して他のAの層におけるデータを補完しているとみることができるわけです。言い方を変えるのであれば、推定したいaにおけるE[Y|A=a] を、aに等しくないデータから情報を借りて推定(補完)している作業というわけです。パラメトリック定量は、このモデルという数学的な制約をおいているわけですので、その情報の借用の程度は変わるにしろ平滑化(Smoothing)というステップを含んでいます。

 

この観測されたデータからの情報の借用の程度が最も高ければグラフは直線になり、程度が低くなるほどよりグニャングニャンなグラフになります。

例えばあるデータ点でのE[Y|A]を推定するのに、その前後の観測されたデータのみしか使わない(データの借用度は最も低い)とします。より具体的にいうとA=90での層の情報を推定するのに実際にデータとして得られたA=90, 100のデータのみで線形モデルE[Y|A]=θ0+θ1を考えるとします。このように全ての観測されたデータ間で推定を行うと、全体をみた時に実際に得られたデータには曲線は全て適合しているが、グラフの形状は最も複雑なものとなります。このデータに対して過剰に適合してしまっている状態が、いわゆる機械学習での過学習かなと。図的なイメージは↓みたいな感じ

f:id:NorihiroSuzuki:20220110180524p:plain

”liner(線形)”という用語に関して

Liner(線形)という用語はモデルにおいて次の二つの意味で用いられます。

  1. パラメータに対して線形結合(1次結合)である時
  2. モデルが直線(1次関数)である時

通常、線形モデルという場合には前者を指します。この辺りは統計やデータ解析などをやっていない人ではよく誤解の元になるので注意が必要かと思います。

つまり以下の数式のようにモデルに共変量として、二乗以上の項や対数の項(Ex, X^2)が含まれていても、パラメータ同士が線型結合で表されている場合には線形モデルとなります。

f:id:NorihiroSuzuki:20220110162432p:plain

 

Fine Point 11.2

Model dimensionality and the relation between frequentist and Bayesian intervals

今回のFine Pointは確率論における流派ごとのIntervalの解釈についてです。確率論には頻度論(大部分の方はこっちかと)とベイズ論があります。統計をやっている人であればよく聞く話題かと思いますが、Chapetr10で議論された95%信頼区間の解釈はこの頻度論に基づくものであり、100回信頼区間を構成したとしたときに95回は真値が区間に含まれる(そのように構築したのが95%信頼区間)というものです。統計Webにも載っているのでぜひそちらもどうぞ。

これに対してベイズ論での区間推定はより直感的に理解しやすいものです。推定した区間のことを頻度論では信頼区間と言いますが、ベイズ論では信用区間と言います。この95%信用区間の解釈としては、推定量(真値)が区間内にある確率は95%であることを意味しています。解釈を受け入れやすいのはこっちですよね。自分もそうです。

ただ実際にどちらが世間一般で使われているかというと頻度論の信頼区間の方で、これはベイズ論だとすべての未知パラメータに対して事前分布を指定する必要があり、その点で研究者の思想が入り込むためであるためであるとのことでした。ただ個人的な話ですがベイズ論での研究をいくつかセミナーで紹介してもらったことがあり、大変実用上も有益なので今後機会があればこちらの方にも関わりたいなとは思っています。

 

残りの内容ですが、標本サイズが大きい単純な低次元パラメトリックモデルでは、信頼区間は信頼区間とほぼ一致し、対照的に、高次元もしくはノンパラメトリックモデルでは、信頼区間と信頼区間が一致しない場合も出てくるとの内容でした。これは先ほどの「ベイズ論だとすべての未知パラメータに対して事前分布を指定する必要がある」という部分が根本にあるそうです。

モデルが低次元である場合(おそらくは単純なモデルでという意味だと思いますが)だと、この記事の中盤で話をしたように、情報をモデル全体から借用してくるようになります。そしてかつその借用先が、標本サイズが大きいので大量にあるため、事前分布上に推定区間に影響(情報)を与えるためだと個人的には理解しています。なのでこの借用する情報の広さ(モデルの単純さ)と多さ(標本サイズ)に関する条件が満たされない、高次元もしくはノンパラメトリックモデルだと一致しなくなるという話かなと。

 

ということで4節の内容はここで終了します。続き↓

norihirosuzuki.hatenablog.com