導入
前回はy=axという非常に簡単なモデルを扱ったが、では切片を追加して
y=ax+b(2.2.2.1) としたらどうなるだろうか。また、もっと入力を増やして
y=w0+w1x1+w2x2+⋯+wnxn(2.2.2.2) としたらどうだろう。つまり出力yを決めうるファクターとしての入力がx=(x1,x2,…,xn)のように複数ある状況を想定している。
今回は線形回帰モデルを扱うことにしよう。
モデリング
実は入力を増やすだけであればやることはほとんど変わらない。(2.2.2.2)式は(2.2.2.1)式の拡張になっているから、(2.2.2.2)式についてだけ議論すればよく、前回と同様にガウス分布に従う誤差εを導入して
y=w0+w1x1+w2x2+⋯+wnxn+ε(2.2.2.3) とすればよい。出力yを(2.2.2.3)式で表現するモデルを線形回帰モデル(linear regression model)という。やることは前回『2.2.1. 線形回帰の基礎』とほとんど同じでやることがなさすぎるので、ついでに(2.2.2.3)式を今後使いやすい形に整えておこう。
まず(2.2.2.3)式で切片w0の項にはxが現れないのでアンバランスである。そこで
ϕi(x)={1xiifi=0otherwise(2.2.2.4) とおく。今後は煩雑化を防ぐためにϕi(j)=ϕi(x(j))という書き換えを断りなく用いることがある。このとき(2.2.2.3)式は
y=w0ϕ0(x)+w1ϕ1(x)+w2ϕ2(x)+⋯+wnϕn(x)+ε=i=0∑nwiϕi(x)+ε=wTϕ(x)+ε(2.2.2.5) と書ける。上式のwTϕ(x)は行列(matrix)による表記である。つまり
y=(w0w1w2⋯wn)ϕ0(x)ϕ1(x)ϕ2(x) ⋮ϕn(x)+ε(2.2.2.6) である。前回の内容と並べて
yy=ax+ε=wTϕ(x)+ε(2.2.2.7) と書けば、とても構造が似通った問題だとわかる。前回と同様にノイズを
ε∼N(ε∣0,σ2)(2.2.2.8) とおけば、
p(y∣x,w)=N(y∣wTϕ(x),σ2)(2.2.2.9) となるので、尤度関数は
L(w∣D)=i=1∏N2πσ21exp(−2σ2(y(i)−wTϕ(x(i)))2)(2.2.2.10) である。最尤推定の文脈で解くべき最適化問題は
w∈Rn+1argmaxL(w∣D) となる。
最適化問題の解法
今回の尤度関数は多変数関数である。一応、丁寧に書いておけば
L(w∣D)=L(w0,w1,w2,…,wn∣D)(2.2.2.11) である。求めるべき変数は増えたがせいぜい2次関数を多変数に拡張したものにすぎないので、方針は前回と変わらず微分して 0 になる点を探すことになる。まずはさくさくと対数尤度関数を用いた最適化問題に変形してしまおう。途中計算は前回とまったく同様なのでごっそり省くが、
w∈Rn+1argmaxlnL(w∣D)=w∈Rn+1argmax{−i=1∑N(y(i)−wTϕ(x(i)))2}=w∈Rn+1argmin{i=1∑N(y(i)−wTϕ(x(i)))2}(2.2.2.12) である。上式は行列を用いてもっと綺麗に書き直せる。つまりN次元ベクトルa=(a1,a2,…,aN)Tについて一般に
∥a∥2=aTa=i=1∑Nai2(2.2.2.13) が成り立つことを用いればよい。いま
y(i)−wTϕ(x(i))(2.2.2.14) の部分は、
y(i)−ϕ(x(i))Tw(2.2.2.15) と書いても同じことであるから、各データ点について式を列挙すれば
y(1)−ϕ(x(1))Twy(2)−ϕ(x(2))Tw⋮y(N)−ϕ(x(N))Tw(2.2.2.16) であり、ϕi(j)=ϕi(x(j))の略記と
y=y(1)y(2)⋮y(N),ΦT=ϕ0(1)ϕ0(2)⋮ϕ0(N)ϕ1(1)ϕ1(2)ϕ1(N)⋯⋯⋯ϕn(1)ϕn(2)ϕn(N),w=w(0)w(1)⋮w(n)(2.2.2.17) を用いれば、
y(1)−ϕ(x(1))Twy(2)−ϕ(x(2))Tw⋮y(N)−ϕ(x(N))Tw=y−ΦTw(2.2.2.18) と書ける。したがって(2.2.2.12)式は
w∈Rn+1argmaxlnL(w∣D)=w∈Rn+1argmin∥y−ΦTw∥2(2.2.2.19) と非常にシンプルな式で記述できる。
ではこの問題を解いていこう。あらためて目的関数を
f(w)=∥y−ΦTw∥2(2.2.2.20) とおく。多変数関数なので偏微分(勾配ベクトル)が 0 ベクトルになる場所が最小値である。勾配ベクトル∇f(w)は
∇f(w)=−2Φ(y−ΦTw)(2.2.2.21) であるから、これが 0 ベクトルに等しいとき、
ΦΦTw=Φy(2.2.2.22) となる。上式を線形回帰の正規方程式(normal equation)という。正規方程式はΦΦTが正則なとき、ただそのときに限り唯一の解
w=(ΦΦT)−1Φy(2.2.2.23) を持つ。これでΦΦTが正則なときは重みベクトルが求まった。
正則化
さて、次は当然の疑問として「ΦΦTが正則でないとき重みベクトルはどう求めればよいのか」と考えるだろう。結論から言えば、正則でないならば無理やり正則にしてしまえばよい。目的関数g(w)に狭義単調増加関数Ψを付け加えた関数
f(w)=g(w)+Ψ(∥w∥)(2.2.2.24) を新たな目的関数とする操作を正則化(regularization)といい、このときΨ(∥w∥)を正則化項(regularization term)という。いきなりややこしくなったので少しずつよく使われる形にしていこう。
正則化を確率モデルの観点から導くのは次回
page2.2.3. 線形基底関数モデルに回すとして、今回は用語の整理と簡単なL2正則化の解法のみをピックアップしておこう。
ノルム
まず知っておいてほしいのが、ノルム(norm)の概念だ。聞き慣れない言葉かもしれないが、ラテン語のノルマ(norma:定規のこと)が英語になったもので「長さを測るもの」をイメージしてもらえればよく、ノルムはその名の通りベクトルの長さを測る数学の道具である。
私たちが日常生活で使っている「距離」の概念は、実はL2-ノルムに対応している。ベクトルa=(a1,a2,…,an)TのL2-ノルムは∥a∥2と表記し、
∥a∥2=a12+a22+⋯+an2(2.2.2.25) で定義される。一般に、Lp-ノルムは∣⋅∣を絶対値の記号として
∥a∥p=(∣a1∣p+∣a2∣p+⋯+∣an∣p)1/p(2.2.2.26) で定義される。ここでは説明しないが、ノルムはノルムで定義があって、ノルムの性質を満たす関数ならばなんでもノルムと呼んでよく、Lp-ノルム自体は無数に存在するノルムのうちでも特殊なものである。たとえばL1-ノルムとL2-ノルムを足した
∥a∥=∥a∥1+∥a∥2(2.2.2.27) もノルムの性質を満たすので、これを新たなノルムとしてもよい。
(2.2.2.20)式では目的関数をf(w)=∥y−ΦTw∥2と書いたが、これはより正確さを期するならば
f(w)=∥y−ΦTw∥22(2.2.2.28) と書くほうがよい。よっていま(2.2.2.24)式では
g(w)=∥y−ΦTw∥22(2.2.2.29) としよう。(2.2.2.24)式内にある∥w∥のノルムは任意である。よく使うのはやはりL2-ノルムで、狭義単調増加関数にΨ(x)=λx2(λ>0)を用いれば
f(w)=∥y−ΦTw∥22+λ∥w∥22(2.2.2.30) となる。これは正則化項にL2-ノルムを用いているのでL2-正則化と呼んだりする。
L2正則化問題の解法
問題が複雑になったように見えるが、wに関する2次形式(行列とベクトルでいうところの2次関数)であることは変わっていないので、先ほどと同様に微分して 0 でよい。
∇f(w)=−2Φ(y−ΦTw)+2λw(2.2.2.31) であるから、
−2Φ(y−ΦTw)+2λw=0∴(ΦΦT+λI)w=Φy(2.2.2.32) となる。ここでIは単位行列であり(ΦΦT+λI)は必ず正則な行列になる(ΦΦTは半正定値対称行列であり、Iは正定値対称行列だから、それらの線形結合は正定値対称行列になる)から、逆行列が存在して、
w=(ΦΦT+λI)−1Φy(2.2.2.33) となる。
他の正則化
正則化項には任意のノルム∥⋅∥と任意の狭義単調増加関数Ψを用いてよいので選択肢の幅はかなり広いのだが、機械学習の分野で使われる正則化項はだいたい次の3種類である。もっと複雑な正則化項(グラフ正則化など)もあるので、論文を読むときはどんな目的関数にどんな正則化項がくっついているか確かめると面白い。
L1正則化
ベクトルの個々の要素の絶対値の和を正則化項にとる。
Ψ(∥w∥)=λ∥w∥1(2.2.2.34) L1-正則化による線形回帰はLASSO(least absolute shrinkage and selection operator)と呼ばれ、解がスパースになる(重みベクトルwの要素で 0 が選択されやすくなる)ことが知られている。目的関数が滑らかでなくなるので「微分して 0 になる」が使えない典型的な問題である。
pageLASSOL2正則化
先ほど紹介した通りである。
エラスティックネット
エラスティックネット(elastic net)による正則化はL1-正則化とL2-正則化の折衷案である。
Ψ(∥w∥)=α∥w∥1+β∥w∥22(2.2.2.35) L1-正則化は解がスパースになる反面、関数の形状があまりよくないので学習アルゴリズムが収束しづらくなる。一方でL2-正則化は学習アルゴリズムの収束性がよい反面、解にスパース性は望めない。そこでエラスティックネットはこれらの正則化項を足し合わせることで、学習アルゴリズムを収束しやすくしつつスパースな解を得ることを期待する。
深層学習ではパラメータが非常に多いため、とっとと収束してもらいたいが、解がスパースでないとネットワークが無駄な枝を残して圧縮したりできないので、エラスティックネットを使うことがよくある。勾配法などで解く。