矩阵

  1. 以下运算中矩阵的秩不变:

    1. 某列乘以非零标量
    2. 交换列次序
    3. 加入一列其他列的线性组合
    4. 转置(所以以上列可替换为行)
  2. 行列式:

    1. 方阵才有行列式,是各列的线性函数(见P10下)
    2. 不满秩等价于行列式为零
    3. 一列加上另一列行列式不变
    4. 转置行列式不变
    5. 交换列次序,行列式符号改变
  3. 奇异/非奇异矩阵一定是方阵。

    方阵下有:

    行列式非零     \iff 满秩     \iff 可逆     \iff 非奇异

  4. 柯西-施瓦茨不等式:x,yxy|\braket{\boldsymbol{x},\boldsymbol{y}}|\le\|\boldsymbol{x}\|\|\boldsymbol{y}\|,等号当且仅当 x,y\boldsymbol{x},\boldsymbol{y} 共线时成立。

  5. 实数空间范数性质:

    1. 非负性:x0\|\boldsymbol{x}\|\ge 0,当且仅当 x=0\boldsymbol{x}=\boldsymbol0 等号成立。
    2. 齐次性:rx=rx,rR\|r\boldsymbol{x}\|=|r|\|\boldsymbol{x}\|,r\in \mathbb{R}
    3. 三角不等式:x+yx+y\|\boldsymbol{x}+\boldsymbol{y}\|\le \|\boldsymbol{x}\|+\|\boldsymbol{y}\|.
  6. 定义:线性变换

    1. L(ax)=aL(x)\mathcal{L}(a\boldsymbol{x})=a\mathcal{L}(\boldsymbol{x})
    2. L(x+y)=L(x)+L(y)\mathcal{L}(\boldsymbol{x}+\boldsymbol{y})=\mathcal{L}(\boldsymbol{x})+\mathcal{L}(\boldsymbol{y})
  7. A\boldsymbol{A}nn 个不同的特征值,则必有 nn 个线性无关的特征向量。此时可对 A\boldsymbol{A} 对角化,=V1AV\bigwedge=\boldsymbol{V^{-1}AV},称 \bigwedgeA\boldsymbol{A} 相似。

  8. 实对称矩阵所有特征值都是实数,所有特征向量正交。

微积分

  1. 定义:矩阵,向量序列的极限用范数判断。
  2. 收敛序列有且仅有一个极限,有界。
  3. 单调有界     \implies 收敛
  4. 收敛序列的任意子序列也收敛于相同极限。
  5. 矩阵 A\boldsymbol{A} 的所有特征值满足 λi(A)<1\lambda_i(\boldsymbol{A})<1     \iff limkAk=O\lim_{k\to \infty}\boldsymbol{A}^k=\boldsymbol{O}.
  6. 定义:矩阵值函数 A:RrRn×n\boldsymbol{A}:\mathbb{R}^r\to\mathbb{R}^{n\times n} 在点 ξ0Rr\boldsymbol{\xi}_0\in\mathbb{R}^r 连续limξξ00A(ξ)A(ξ0)=0\lim\limits_{\|\boldsymbol{\xi}-\boldsymbol{\xi}_0\|\to 0}\|\boldsymbol{A}(\boldsymbol{\xi})-\boldsymbol{A}(\boldsymbol{\xi}_0)\|=0.
  7. 定义:仿射函数:线性函数 L:RnRm\mathcal{L}:\mathbb{R}^n\to\mathbb{R}^m,向量 bRm,xRn\boldsymbol{b}\in \mathbb{R}^m,\boldsymbol{x}\in \mathbb{R}^nA(x)=L(x)+b\mathcal{A}(\boldsymbol{x})=\mathcal{L}(\boldsymbol{x})+\boldsymbol{b}.
  8. 定义:函数 f\boldsymbol{f} 在点 x0\boldsymbol{x}_0可微:存在一个放射函数能够在点 x0\boldsymbol{x}_0 处近似函数 f\boldsymbol{f}.
  9. 定义:连续可微:函数可微且导函数连续。
  10. 定义:函数 f:RnR\boldsymbol{f}:\mathbb{R}^n\to\mathbb{R} 在水平 cc 上的水平集S={x:f(x)=c}S=\{\boldsymbol{x:f(\boldsymbol{x})=c}\}.
  11. 梯度正交于水平集,是函数增长最快的方向。
  12. 定义:d\boldsymbol{d}x\boldsymbol{x} 处的可行方向:存在一个实数 α0>0\alpha_0>0,对于所有 α[0,α0]\alpha\in[0,\alpha_0]x+αd\boldsymbol{x}+\alpha\boldsymbol{d} 仍在约束集内。
  13. 定义:沿可行方向 d\boldsymbol{d}方向导数: \frac{\part}{\part\boldsymbol{d}}(x)=\boldsymbol{d}^\top\nabla f(\boldsymbol{x}),若 d=1\|\boldsymbol{d}\|=1,则方向导数也是增长率
  14. 极小点的条件:
    1. 一阶必要条件:对于点 x\boldsymbol{x}^* 处任意可行方向 d\boldsymbol{d},都有 df(x)0\boldsymbol{d}^\top\nabla f(\boldsymbol{x}^*)\ge 0;若 x\boldsymbol{x}^* 是内点,则 f(x)=0\nabla f(\boldsymbol{x}^*)=\boldsymbol{0}.
    2. 二阶必要条件:d\boldsymbol{d} 是一个可行方向,且 df(x)=0\boldsymbol{d}^\top\nabla f(\boldsymbol{x}^*)=0,则有 dF(x)d0\boldsymbol{d}^\top\boldsymbol{F}(\boldsymbol{x}^*)\boldsymbol{d}\ge 0;若 x\boldsymbol{x}^* 是内点,则 f(x)=0\nabla f(\boldsymbol{x}^*)=\boldsymbol{0}F(x)\boldsymbol{F}(\boldsymbol{x}^*) 半正定。
    3. 二阶充分条件(仅对内点):f(x)=0\nabla f(\boldsymbol{x}^*)=\boldsymbol{0}F(x)\boldsymbol{F}(\boldsymbol{x}^*) 正定,则是严格局部极小点。

优化

  1. 定义:最速梯度下降:每次用一维搜索方法选择最合适的步长 αk=argminα0f(x(k)αf(x(k)))\alpha_k=\arg\min_{\alpha\ge 0}f(\boldsymbol{x}^{(k)}-\alpha\nabla f(\boldsymbol{x}^{(k)})).
  2. 最速梯度下降产生的相邻搜索方向正交,且每步函数值都会下降直到极小值。
  3. 若黑塞矩阵非正定,或初始点远离极小点,则牛顿法可能不收敛,需分别进行以下修正:
    1. 针对初始点远离极小点:加一个步长:x(k+1)=x(k)αkF(x(k))1g(k)\boldsymbol{x}^{(k+1)}=\boldsymbol{x}^{(k)}-\alpha_k\boldsymbol{F}(\boldsymbol{x}^{(k)})^{-1}\boldsymbol{g}^{(k)}.
    2. 针对黑塞矩阵非正定:Levenberg-Marquardt修正:x(k+1)=x(k)αk(F(x(k))+μkI)1g(k)\boldsymbol{x}^{(k+1)}=\boldsymbol{x}^{(k)}-\alpha_k(\boldsymbol{F}(\boldsymbol{x}^{(k)})+\mu_k\boldsymbol{I})^{-1}\boldsymbol{g}^{(k)}μk\mu_k 满足 μk+λi>0\mu_k+\lambda_i>0,即 F(x(k))+μkI\boldsymbol{F}(\boldsymbol{x}^{(k)})+\mu_k\boldsymbol{I} 正定。