微积分 Calculus

这篇笔记总结了微积分的一些基础知识，包括导数、偏导数、泰勒展开式、拉格朗日乘数等等的基础知识。内容部分参考Mathematics for Machine Learning: Multivariate Calculus。

微积分 Calculus
Neural Networks
- Simple neural networks
- Backpropagation
泰勒级数 (Taylor series)
- 多变量泰勒级数 Multivariable Taylor Series
约束最大最小值的优化方法
线性回归Linear Regression
非线性回归 Non-linear Regression
- 快速下降法 Steepest Descent

Derivative 导数

导数的定义:

$\frac{df}{dx} = f'(x) = \lim _{\Delta x\rightarrow 0}\left( \dfrac {f\left( x + \Delta x \right) -f(x)}{\Delta x}\right)$

导数基本规则

线性法则 (Sum / Subtraction rule)

$\begin{aligned}\dfrac{d}{dx}\left(f\left(x\right)+g\left(x\right)\right)=\dfrac{df\left(x\right)}{dx}+\dfrac{dg\left(x\right)}{dx}\end{aligned}$

指数法则 (Power rule)

函数为

f(x) = a x^b

则

f'(x) = ab x^(b-1)

其他规则

函数	导数
f(x) = (¹/_x)	f'(x) = - (¹/_x²)
f(x) = e^x	f'(x) = e^x
f(x) = log_a(x)	f'(x) = (¹/_xln(a))
f(x) = sin(x)	f'(x) = cos(x)
f(x) = cos(x)	f'(x) = -sin(x)

乘积法则 (Product Rule)

函数为 f(x) · g(x) = f(x) g'(x) + f'(x) g(x)，则：

$\begin {aligned} \lim _{\Delta x\rightarrow 0}(\Delta A(x)) & = \lim_{\Delta x\rightarrow 0}(f(x) (g(x+\Delta x) - g(x)) + (f(x+\Delta x) - f(x))) \\ &= f(x) g'(x) + f'(x) g(x) \end{aligned}$

需要说明上面的等式忽略了 (f(x+Δx) - f(x)) (g(x+Δx) - g(x)) ，结合下图就可以更好理解，被忽略的部分是右下角白色的小框，随着 lim_Δx→0 ，这部分可以忽略不计了。

链式法则 (Chain rule)

对于函数 f(g), g(x)，有：

f(g(x))' = f'(g(x)) g'(x)

可以想象成两个函数分别求导，再求乘积，例子如下图

偏导数 (Partial Derivative)

定义

一个多变量的函数的偏导数是它关于其中一个变量的导数，而保持其他变量恒定。

表示为：

$f'_x,f_x,\partial_x f,D_xf,D_1f,\frac{\partial}{\partial x}f,\text{ or } \frac{\partial f}{\partial x}.\text{ or }f_x(x, y,\ldots),\frac{\partial f}{\partial x}(x,y,\ldots)$

雅可比矩阵(Jacobians Matrix)

雅克比矩阵是一阶偏导数的排列成的矩阵。其行列式称为雅克比行列式。

假设某函数从 Rⁿ 映射到 R^m，其雅克比矩阵是从 Rⁿ 到 _R^m的线性映射，其意义在于它表现了一个多变量函数的最佳线性逼近。因此，雅可比矩阵类似于单变数函数的导数。假设_F : R_n → R_m 是一个从 n 维欧氏空间映射到到 m 维欧氏空间的函数。假设一个函数由 m 个实函数组成：y₁(x₁, x₂, ..., x_n), ..., y_n(x₁, x₂, ..., x_n)，这些函数的偏导数可以组成 m 行 n 列的矩阵，矩阵就是雅克比矩阵 (Jacobians Matrix)：

$\left[ \begin{array}{ccc}{\frac{\partial y_{1}}{\partial x_{1}}} & {\cdots} & {\frac{\partial y_{1}}{\partial x_{n}}} \\ {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial y_{m}}{\partial x_{1}}} & {\cdots} & {\frac{\partial y_{m}}{\partial x_{n}}}\end{array}\right]$

矩阵符号写作：

J_F(x₁, x₂, ..., x_n)_，或者 (^{∂ (y₁, ... , y_n)}/_{∂ (x₁, ... , x_n)})

如果 _m = n_，那么 _F_ 是从 _n_ 维空间到 _n_ 维度空间的函数，它的雅克比矩阵是一个方块矩阵。

直观感受

对于下图中的函数_F_和其Jacobians矩阵，可以看出 J 的两个数值分别对应着函数 F 在 *(x, y)*的变化趋势。

把这个图画成热力图和三维形式，更容易理解：

上面只是讨论了 m = 1, n = 2 为一个函数的情况，下面看 _m = n = 2_的情况：

你会发现 Jacobians Matrix J 是从*(x, y)*空间往 (u, v) 空间变化的矩阵。

例子1

函数如下：

u(x, y) = x - 2y
v(x, y) = 3y - 2x

则Jacobians Matrix为：

$\begin{aligned} J &=\left[\begin{array}{ll}{\frac{\partial x}{\partial r}}&{\frac{\partial x}{\partial\theta}} \\ {\frac{\partial y}{\partial r}}&{\frac{\partial y}{\partial\theta}}\end{array}\right]=\left[\begin{array}{ll}{\cos(\theta)} & {-r\sin(\theta)} \\ {\sin(\theta)}&{r\cos(\theta)}\end{array}\right] \end{aligned}$

例子2

函数如下：

x(r, θ) = r cos(θ)
y(r, θ) = r sin(θ)

则Jacobians Matrix为：

$\begin{aligned} J &=\left[\begin{array}{ll}{\frac{\partial x}{\partial r}}&{\frac{\partial x}{\partial\theta}} \\ {\frac{\partial y}{\partial r}}&{\frac{\partial y}{\partial\theta}}\end{array}\right]=\left[\begin{array}{ll}{\cos(\theta)} & {-r\sin(\theta)} \\ {\sin(\theta)}&{r\cos(\theta)}\end{array}\right] \end{aligned}$

Jacobians Det为

|J| = r(cos²(θ) + sin²(θ)) = r

这里 _n = 2_ ，函数如下图：

回忆一下行列式的几何意义：一个 _n_维方阵对应着_n_维欧式空间到自身的一个线性变换，而这个线性变换把欧式空间的体积元变成多少倍就是它的行列式。

所以一个小的面积，沿着 _r_移动时，其体积的变化是以 r 为函数。（如下图中红色区域）

Hessian Matrix 海森矩阵

在一些情况下Jacobians Matrix没法很好的解决问题，比如对于 F：

$z(x,y)=3(1-x)^{2}e^{-x^{2}-(y+1)^{2}}-10\left(\frac{x}{5}-x^{3}\right)e^{-x^{2}-y^{2}}-\frac{1}{3}e^{-(x+1)^{2}-y^{2}}$

它的Jacobians Matrix可视化之后如下图：

可以看到 z(x, y) 在有很多局部最大、最小值。对于其Jacobians Matrix，你会发现有多个为0的值，但是无法判断是否是最大值或最小值。因此需要通过定义二阶导数来观察。就需要引入Hessian Matrix。

Hessian Matrix是一个以德国数学家Ludwig Otto Hesse命名的多变量实值函数的二阶偏导数组成的方块矩阵。假设_F : R_n → R_m_ 是一个从 n 维欧氏空间映射到到 m 维欧氏空间的函数。假设一个函数由 m 个实函数组成：y₁(x₁, x₂, ..., x_n), ..., y_n(x₁, x₂, ..., x_n)，这些函数的二阶偏导数可以组成 m 行 n 列的矩阵，矩阵就是Hessian矩阵：

$\mathbf{H}=\left[\begin{array}{cccc}{\frac{\partial^{2}f}{\partial x_{1}^{2}}}&{\frac{\partial^{2} f}{\partial x_{1} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f}{\partial x_{1}\partial x_{n}}}\\ {\frac{\partial^{2}f}{\partial x_{2}\partial x_{1}}}&{\frac{\partial^{2}f}{\partial x_{2}^{2}}}&{\cdots} & {\frac{\partial^{2}f}{\partial x_{2}\partial x_{n}}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {\frac{\partial^{2}f}{\partial x_{n}\partial x_{1}}}&{\frac{\partial^{2}f}{\partial x_{n}\partial x_{2}}} & {\cdots}&{\frac{\partial^{2} f}{\partial x_{n}^{2}}}\end{array}\right]$

矩阵符号写作：

H_F(x₁, x₂, ..., x_n)_，或者 (^{∂² (y₁, ... , y_n)}/_{∂² (x₁, ... , x_n)})

如果 m = n，那么 F 是从 n 维空间到 n 维度空间的函数，它的Hessian矩阵是一个方块矩阵。

Hessian Matrix性质

|H| > 0：
- 如果 H_[0,0] > 0，则 (x₀, y₀) 为局部最小值
- 如果 H_[0,0] < 0，则 (x₀, y₀) 为局部最大值
|H| < 0：
- 则 (x₀, y₀) 为鞍点
|H| < 0：
- 二阶导数无法判断该临界点的性质，得从更高阶的导数以泰勒公式来判断

幂级数

g(x) = a + bx + cx² + dx³ + ...
g₁(x) = a + bx
g₂(x) = a + bx + cx²
g₃(x) = a + bx + cx² + dx³

幂级数求导

g₀(x) = f(0)
g₁(x) = f(0) + f^'(0)x
g₂(x) = f(0) + f^'(0)x + (¹/₂)f^''(0)x²
g₃(x) = f(0) + f^'(0)x + (¹/₂)f^''(0)x² + (¹/₆)f⁽³⁾x³
...
$g(x) = \sum ^{\infty }_{n=0}\dfrac {f^{\left( n\right) }\left( 0\right) }{n!}x^{n}$

这种级数又称为麦克劳林级数（Maclaurin Series），实际是泰勒级数的一种特殊情况。

泰勒级数 (Taylor series)

泰勒级数

当 x = 0, 可得

$\sum ^{\infty }_{n=0}\dfrac {f^{\left( n\right) }\left( 0\right) }{n!}x^{n}$

其中

$\begin{aligned} f(x)&=f(p)\\ f(x)&=f(p)+f'(p)(x-p)\\ f(x)&=f(p)+f'(p)(x-p)+\frac{1}{2}f''(p-p)(x-p)^2\\ f(x)&=\sum^{\infty }_{n=0}\dfrac{f^{\left(n\right)}\left(p\right)}{n!}(x-p)^{n} \end{aligned}$

对于 _cos(x)_ 这样的函数泰勒级数可以很好的拟合，但是对于 _¹/_x_ 这样的函数拟合的很糟糕。

多变量泰勒级数 Multivariable Taylor Series

当函数有多变量时，就需要用到多变量泰勒级数，一个例子：

多变量泰勒级数的公式：

$\begin{align*} f(x+\partial_x, y+\partial_y)&={f(x,y)}\\ &{+\left(\partial_{x}f(x,y)\Delta x+\partial_{y} f(x,y) \Delta y\right)}\\ &{+\frac{1}{2}\left(\partial_{x x} f(x,y) \Delta x^{2}+2 \partial_{x y} f(x,y) \Delta x \Delta y+\partial_{y y} f(x,y) \Delta y^{2}\right)} \end{align*}$

实际上：

第二行可以写作 J_f Δx
第三行可以写作_Δx^t H_f Δx_

约束最大最小值的优化方法

牛顿-拉弗森方法 Newton-Raphson

拉格朗日乘数 Lagrange multipliers

线性回归Linear Regression

非线性回归 Non-linear Regression

快速下降法 Steepest Descent

$\mathbf{J}=\left[\frac{\partial(\chi^2)}{\partial\mu},\frac{\partial(\chi^2)}{\partial\sigma}\right]$

$\chi^2=|\mathbf{y}-f(\mathbf{x};\mu,\sigma)|^2$

$\frac{\partial(\chi^2)}{\partial\mu}=-2(\mathbf{y}-f(\mathbf{x};\mu,\sigma))\cdot\frac{\partial f}{\partial\mu}(\mathbf{x};\mu,\sigma)$

回到顶部

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

calculus.md

calculus.md

微积分 Calculus

Derivative 导数

导数基本规则

线性法则 (Sum / Subtraction rule)

指数法则 (Power rule)

其他规则

乘积法则 (Product Rule)

链式法则 (Chain rule)

偏导数 (Partial Derivative)

定义

雅可比矩阵(Jacobians Matrix)

直观感受

例子1

例子2

Hessian Matrix 海森矩阵

Hessian Matrix性质

幂级数

幂级数求导

泰勒级数 (Taylor series)

泰勒级数

多变量泰勒级数 Multivariable Taylor Series

约束最大最小值的优化方法

牛顿-拉弗森方法 Newton-Raphson

拉格朗日乘数 Lagrange multipliers

线性回归Linear Regression

非线性回归 Non-linear Regression

快速下降法 Steepest Descent

Files

calculus.md

Latest commit

History

calculus.md

File metadata and controls

微积分 Calculus

Derivative 导数

导数基本规则

线性法则 (Sum / Subtraction rule)

指数法则 (Power rule)

其他规则

乘积法则 (Product Rule)

链式法则 (Chain rule)

偏导数 (Partial Derivative)

定义

雅可比矩阵(Jacobians Matrix)

直观感受

例子1

例子2

Hessian Matrix 海森矩阵

Hessian Matrix性质

幂级数

幂级数求导

泰勒级数 (Taylor series)

泰勒级数

多变量泰勒级数 Multivariable Taylor Series

约束最大最小值的优化方法

牛顿-拉弗森方法 Newton-Raphson

拉格朗日乘数 Lagrange multipliers

线性回归Linear Regression

非线性回归 Non-linear Regression

快速下降法 Steepest Descent