L2正则化
- 目的:从高维降到低维,以降低overfitting的可能。
- 方法:从所有 ∑q=0Qwq2≤C即∣∣w∣∣2≤c的w中选Error最小者。
- L2正则化后的w 可能为0的项个数较少,但总的长度固定。
即满足w 在半径为c 的球内。由于要使w 最终达到wlin ,wlin常常在某凸多边形的中心。
类似如图情况:

即所求极值点常在球面上,故可将条件 ∣∣w∣∣2≤c变为∣∣w∣∣2=c
拉格朗日乘数法
问题转化为求f(w)=Ein在g(w)=w2−C=0 的条件下的条件极值。
拉格朗日乘数法将求 f(w)在w 满足一定条件下的极值问题转化为求F(w) 在无约束条件下的极值。
F(w,λ)=f(w)+λg(w)
∣∣w∣∣2≤c 同样可写为∑q=0Qλwq2≤1
其中λ∝C1,即λ 越大,C越小,对w 的筛选作用越大。
接着就可以用regression方法逼近。
证明:
假设点(x,y)满足{f(x,y)g(x,y)=k,(k为f极值)=0,则
⎩⎨⎧df(x,y)dg(x,y)=∂x∂fdx+∂y∂fdy=0=∂x∂gdx+∂y∂gdy=0
⇓
∂x∂g∂x∂f=∂y∂g∂y∂f=−λ
即
⎩⎨⎧∂x∂f+λ∂x∂g∂y∂f+λ∂y∂g=0=0
全微分积分得
L(x,y,λ)=f(x,y)+λg(x,y)
勒让德多项式
定义在⟨p,q⟩=∫−11p(x)q(x) 内积上的正交多项式
在 ∣x∣<1时,会造成w变大。
将x正交化。
(1,x,x2,x3,⋯,xQ)⇒(1,x,21(3x2−1),21(5x3−3x),⋯)
箭头右边的就是勒让德多项式,这是一系列两两正交的向量。
而推导勒让德多项式的一种方法就是对(1,x,x2,⋯) Gram-Schmidt正交化。

一部分勒让德多项式:

更多正交多项式见https://blog.zmyme.com/archives/118
L1正则化

对L1与L2正则化,nosie越多,次数越大,λ 越大。