机器学习——EM算法

准备知识

1.参数估计的方法

概率模型的参数估计分为两大类：

1.不含隐变量的参数估计—极大似然估计/贝叶斯估计法

2.含隐变量的参数估计—EM算法

2.jensen不等式

X是一个随机变量，f(X)是一个凸函数（二阶导数大或等于0），那么有：

当且仅当X是常数的时候等号成立

如果f（X）是凹函数，不等号反向

3.先验概率、后验概率、条件概率

先验概率：P(Y)

先验概率是只根据事情之前发生各个结果出现情况估计的概率(无关特征)

后验概率：P(Y|X)

后验概率是在各个X的分布下各个Y出现的概率(特征符合这个X时Y为这个的概率)

条件概率：P(X|Y)

条件概率是在结果某一种情况时X出现这种分布的概率

4.自信息、互信息

自信息：I(x) = -logp(x)

概率是衡量确定性的度量，那么信息是衡量不确定性的度量.越不确定信息量越高。

互信息：I(x;y) = log(p(x|y)/p(x))

已知y，x的不确定性减少量(其值可正可负)

5.熵

对随机变量平均不确定性的度量，一个系统越有序，信息熵越低。

熵的另一种解读也就是自信息的期望

H(X) = E[I(X)] = ∑P(x)I(x) = -∑p(x)logp(x)

6.条件熵

在给定y条件下，x的条件自信息量为I(x|y)，X的集合的条件熵为

进一步在给定Y（各个y）的条件下，X集合的条件熵：

也就是在联合符号集合上的条件自信息量两个概率的加权平均

EM算法

EM算法主要用于求解概率模型的极大似然估计或极大后验概率。EM算法是通过迭代求解观测数据对数似然函数L(θ) = logP(Y|θ)的极大化，实现参数估计的。

每次迭代主要分为E、M两步：

E步：求期望。即求log(P，Z|θ)关于P(Z|Y，θi)的期望

(各个隐变量可能的概率下乘以出现这种结果的总和)

M步：极大化Q函数得到新的参数θ

在构建具体的EM算法时，最重要的时定义Q函数，每次迭代中，Em算法通过极大似然化Q函数来增大对数似然函数L(θ)

算法推导

注意：1.EM算法在每次迭代后均能提高观测数据的似然函数值

2.EM算法不能保证全局最优，只能保证局部最优，因此算法受初值的影响

3.EM算法可以用于无监督学习