L2正则化

  • 目的:从高维降到低维,以降低overfittingoverfitting的可能。
  • 方法:从所有 q=0Qwq2C\sum_{q=0}^Q w_q^2\leq Cw2c||w||^{2}\leq{c}ww中选ErrorError最小者。
  • L2正则化后的ww 可能为0的项个数较少,但总的长度固定。

即满足ww 在半径为c\sqrt{c} 的球内。由于要使ww 最终达到wlinw_{lin}wlinw_{lin}常常在某凸多边形的中心。

类似如图情况:

1

即所求极值点常在球面上,故可将条件 w2c||w||^{2}\leq{c}变为w2=c||w||^{2}={c}

拉格朗日乘数法

问题转化为求f(w)=Einf(w)=E_{in}g(w)=w2C=0g(w)=w^2-C=0 的条件下的条件极值。

拉格朗日乘数法将求 f(w)f(w)ww 满足一定条件下的极值问题转化为求F(w)F(w) 在无约束条件下的极值。

F(w,λ)=f(w)+λg(w)F(w,\lambda)=f(w)+\lambda g(w)

w2c||w||^{2}\leq{c} 同样可写为q=0Qλwq21\sum_{q=0}^Q \lambda w_q^2 \leq 1

其中λ1C\lambda \propto \frac{1}{C},即λ\lambda 越大,C越小,对ww 的筛选作用越大。

接着就可以用regression方法逼近。

证明:

假设点(x,y)(x,y)满足{f(x,y)=k,(kf极值)g(x,y)=0\left\{ \begin{aligned} f(x,y)&=k,(k为f极值) \\ g(x,y)&=0 \end{aligned} \right.,则

{df(x,y)=fxdx+fydy=0dg(x,y)=gxdx+gydy=0\left\{ \begin{aligned} {\rm d}f(x,y)&=\frac{\partial f}{\partial x}{\rm d}x+\frac{\partial f}{\partial y}{\rm d}y=0 \\ {\rm d}g(x,y)&=\frac{\partial g}{\partial x}{\rm d}x+\frac{\partial g}{\partial y}{\rm d}y=0 \end{aligned} \right.

\Downarrow

fxgx=fygy=λ\frac{\frac{\partial f}{\partial x}}{\frac{\partial g}{\partial x}}=\frac{\frac{\partial f}{\partial y}}{\frac{\partial g}{\partial y}}=-\lambda

{fx+λgx=0fy+λgy=0\left\{ \begin{aligned} \frac{\partial f}{\partial x}+\lambda \frac{\partial g}{\partial x}&=0\\ \frac{\partial f}{\partial y}+\lambda \frac{\partial g}{\partial y}&=0 \end{aligned} \right.

全微分积分得

L(x,y,λ)=f(x,y)+λg(x,y)L(x,y,\lambda)=f(x,y)+\lambda g(x,y)

勒让德多项式

定义在p,q=11p(x)q(x)\langle p,q\rangle=\int_{-1}^1 p(x)q(x) 内积上的正交多项式

x<1|x|<1时,会造成w变大。

将x正交化。

(1,x,x2,x3,,xQ)(1,x,12(3x21),12(5x33x),)(1,x,x^2,x^3,\cdots,x^Q)\Rightarrow(1,x,\frac{1}{2}(3x^2-1),\frac{1}{2}(5x^3-3x),\cdots)

箭头右边的就是勒让德多项式,这是一系列两两正交的向量。

而推导勒让德多项式的一种方法就是对(1,x,x2,)(1,x,x^2,\cdots) Gram-Schmidt正交化

1

一部分勒让德多项式:

2

更多正交多项式见https://blog.zmyme.com/archives/118

L1正则化

  • wi=C\sum w_i=Cww

  • 用于快速取得结果,因为满足条件的ww必定有规定个数的项为 0 .

1

对L1与L2正则化,nosie越多,次数越大,λ\lambda 越大。