常见模型
贝叶斯模型
贝叶斯模型是经典统计学模型之一,其最为核心的思想就是著名的贝叶斯定理,即对于事件A和B
朴素贝叶斯(Naive Bayesian)算法完全基于贝叶斯定理,这里以分类器的例子解释其原理,首先假定某种分类与其属性或者特征之间的分布完全独立,根据贝叶斯定理可以计算出在拥有某种特征的条件下属于某种分类的结果,即
算法中
而贝叶斯网络(Bayesian network)则是用概率模拟推理过程中的因果关系,以有向无环图描述多个变量或者命题之间的因果关系。贝叶斯网络可以描述更为复杂的因果关系,并且建模时网络的节点可以作为隐变量,这样网络本身的结构也能够被学习。
高斯混合模型(GMM)
高斯混合模型常用于聚类算法,该模型认为数据的分布由若干个可参数化的高斯分布线性叠加而获得的分布,即将原始分布分解为不同参数的符合高斯分布的随机变量。这些变量可以是人为设定的,也可以是通过数据学习得到的隐变量。以连续变量为例,设第j个随机变量
其中
隐马尔可夫模型(HMM)
隐马尔可夫模型常用于描述序列元素的概率关系,主要用于如语音识别等时序数据的建模。隐马尔可夫主要由状态变量
- 状态转移概率。当前状态转移到下一个状态的概率大小
- 输出观测概率(发射概率)。在当前某个状态下获得某个观测值的概率大小
- 初始状态概率。在初始状态下各个状态出现的概率
设状态轨迹
隐马尔可夫模型的参数同样可以采用EM算法进行求解,另外在给定观测变量轨迹
参数估计算法
最大似然/最大后验估计算法
最大似然估计算法和最大后验估计算法是经典的统计分布参数估计算法,这两种方法在之前的文章里也出现过。假设单个样本为
其中似然函数取对数可以将连乘改写为求和,方便计算。通常在写出似然函数后可以令
对似然函数求导并令其导数为0
求解可得
最大后验估计算法则是在最大似然估计算法的基础上增加了先验概率,即已知参数
考虑到
最大期望EM算法
实际中在使用如高斯混合模型时会带有隐变量
- E(Expectation)步:计算隐变量的分布
,再根据该分布计算似然函数 关于 的期望 - M(Maximization)步:最大似然估计下一轮参数
这两步交替进行直到达到最大迭代轮数或者似然函数不再增长时停止迭代,此时即认为算法收敛至最优解。需要注意的是EM算法不一定总是收敛至全局最优解,同时初始值的选择对于算法的结果可能有影响。
下面以高斯混合模型的参数估计为例,说明EM算法的整体过程。假设隐变量
设
其中
根据上述定义可知,
其中