概率论
概率论

概率论

1.概率分布

1.1 二项分布

均值m=Np
方差\sigma^2=Np(1-p)

1.2 高斯分布

概率密度函数:
$$f(u)=\frac{1}{\sqrt{2\pi}}e^{\frac{-u^2}{2}}$$

1.3 多项分布

多项分布是二项分布的推广,典型的例子是扔硬币:
硬币朝上的概率为p,重复扔n次硬币,k次为正面的概率是二项分布概率,把二项分布推广至多种状态,得到多项分布。
$$p\{X_1=m_1,X_2=m_2,....,X_n=m_n\}=\frac{N!}{m_1!m_2!...m_n!}p_1^{m_1}p_2^{m_2}...p_n^{m_n}$$

1.4 Dirichlet分布

Dirichlet分布又称多元Beta分布,是一类在实数域以正单纯形为支撑集的高纬连续概率分布,是Beta分布在高维下的推广。在贝叶斯推断中,Dirichlet分布作为多项分布的共轭先验使用。

1.4 gamma分布

gamma分布是一种连续概率函数,指数分布和卡方分布是gamma分布的特例。

1.5 极值分布

极值分布是指在概率论汇总极值的概率分布。

2. 熵

熵:不确定度的度量
香农熵:
$$H(X)=-\sum_iP(x_i)logP(x_i)$$
这里的log指的是自然对数,当用bit做单位时,用2做底数。
信息的定义:
$$I(X)=H_{before}-H_{after}$$

2.1 相对熵和互信息

相对熵的定义:
P和Q是两个分布
$$H(P||Q)=\sum_iP(x_i)log\frac{P(x_i)}{Q(x_i)}$$
将相对熵视为概率分布P和Q之间的距离通常很有用。
相对熵的特点:
  • 相对熵是非负的
  • 不可逆
    • 互信息
$$M(X;Y)=\sum_{i,j}P(x_i,y_j)log\frac{P(x_i,y_j)}{P(x_i)P(y_j)}$$

3. 推断

3.1 最大似然

$$\theta^{ML}=argmaxP(D|\theta,M)$$
注意,P(x|y)视为x的函数时,将其称为概率;视为y的函数时,将其称为似然。似然不是概率分布或密度,只是y的函数。
缺点:当数据很少时,会给出很差的结果。

3.2 后验

贝叶斯定理
$$P(\theta|D,M)=\frac{P(D|\theta,M)P(\theta|M)}{P(D|M)}$$
可选择的先验概率P(\theta|M)有很多合理的方法,这也是贝叶斯估计的艺术。这种选择的自由性也使得贝叶斯方法颇具争议,但是将先验知识融入统计估计的想法是非常有效的。
P(\theta|D,M)是给定数据和模型后的后验白立忱。后验概率可以以很多种方式应用于统计推断。我们可以从中抽样,定位对模型参数来说具有高可能性的区域。如果我们想要模型的一组特定参数值,我们可能会以与ML类比为指导,并选择最大后验概率(MAP)估计
$$\theta^{MAP}=argmax P(D|\theta,M)P(\theta|M)$$
注意到,我们忽略了数据的先验P(D|M),因为它是不依赖于参数\theta的。
另一种方法是采用后验均值(PME)估计,选择由后验加权的所有参数集的平均值。
MAP和PME估计量都被认为是有点可以的,因为参数的非线形变换通常会改变结果。这在技术术语中,被称为equivariant。要了解发生了什么,我们需要考虑变量变化对密度的影响。

3.3 改变变量

4.抽样

5.从计数中估计概率

6. EM算法