0%

机器学习的基础模型与算法

常见模型

贝叶斯模型

贝叶斯模型是经典统计学模型之一,其最为核心的思想就是著名的贝叶斯定理,即对于事件A和B

被称为后验概率,可以理解为事件B作为事件A的原因的情况下其因果关系的强弱。即在事件A发生的条件下事件B发生的概率,可以认为来自样本数据。而则为源于经验设定的先验概率,或者说在没有实际测量。 贝叶斯定理表明通过过去经验与样本数据对概率的修正,能够动态地调整后验概率。贝叶斯模型最主要的应用包括朴素贝叶斯算法和贝叶斯网络。
朴素贝叶斯(Naive Bayesian)算法完全基于贝叶斯定理,这里以分类器的例子解释其原理,首先假定某种分类与其属性或者特征之间的分布完全独立,根据贝叶斯定理可以计算出在拥有某种特征的条件下属于某种分类的结果,即

算法中的概率在样本足够多的情况下可以通过直接计数统计获得,则来源于先验经验,或者对大量样本直接统计其特征和分类的频率也可以获得。
贝叶斯网络(Bayesian network)则是用概率模拟推理过程中的因果关系,以有向无环图描述多个变量或者命题之间的因果关系。贝叶斯网络可以描述更为复杂的因果关系,并且建模时网络的节点可以作为隐变量,这样网络本身的结构也能够被学习。

高斯混合模型(GMM)

高斯混合模型常用于聚类算法,该模型认为数据的分布由若干个可参数化的高斯分布线性叠加而获得的分布,即将原始分布分解为不同参数的符合高斯分布的随机变量。这些变量可以是人为设定的,也可以是通过数据学习得到的隐变量。以连续变量为例,设第j个随机变量符合维的高斯分布,即

其中分别为第j个变量对应维的均值向量和大小的协方差矩阵,假设待求解的变量s由个高斯分布组合而成,则其的分布满足

为混合系数,为了确保的积分为1,所有混合系数之和应该为1。高斯混合模型的混合成分的参数可以通过下述的EM算法在给定的训练集上学习

隐马尔可夫模型(HMM)

隐马尔可夫模型常用于描述序列元素的概率关系,主要用于如语音识别等时序数据的建模。隐马尔可夫主要由状态变量和观测变量组成。其中状态变量确定了系统的当前状态,并且状态之间可以相互转换,并且系统的下一次状态当前状态有关。由于状态变量一般不可以直接观测,因此也被称为隐变量。而观测变量则是仅由状态变量决定的可以观测到的量。隐马尔可夫模型的图结构中还包含了以下几个参数:

  • 状态转移概率。当前状态转移到下一个状态的概率大小
  • 输出观测概率(发射概率)。在当前某个状态下获得某个观测值的概率大小
  • 初始状态概率。在初始状态下各个状态出现的概率

设状态轨迹,对应的观测变量轨迹为,其联合概率大小为

隐马尔可夫模型的参数同样可以采用EM算法进行求解,另外在给定观测变量轨迹的条件下可以采用维特比算法估计状态轨迹

参数估计算法

最大似然/最大后验估计算法

最大似然估计算法和最大后验估计算法是经典的统计分布参数估计算法,这两种方法在之前的文章里也出现过。假设单个样本为,模型参数为最大似然估计算法实际上是计算最有可能产生当前样本的参数值,即


其中似然函数取对数可以将连乘改写为求和,方便计算。通常在写出似然函数后可以令计算对数似然函数的极值点。以单个随机变量的高斯分布参数估计为例,说明最大似然估计算法的过程。设样本为,随机变量服从分布,其似然函数可以写为

对似然函数求导并令其导数为0

求解可得

最大后验估计算法则是在最大似然估计算法的基础上增加了先验概率,即已知参数的分布,根据贝叶斯公式可以计算出在给定样本的条件下参数的概率

考虑到为固定值,在计算最大值时可以忽略。最大后验估计需要求解以下函数的最大值,后续步骤与最大似然估计基本一致

最大期望EM算法

实际中在使用如高斯混合模型时会带有隐变量,这些变量通常不能够直接估计,这样在求解参数时不能够直接求出似然函数的最大值。为了解决这个问题,我们可以先求出在当前参数下隐变量的数学期望值,将其作为固定值代入似然函数在求其最大值时的参数取值,用该过程迭代若干次后即可得到最优参数。这就是最大期望(EM)算法的过程,实际上这个算法在最大似然估计的基础上增加了计算隐变量期望一步。假设似然函数为,EM算法的过程如下:

  • E(Expectation)步:计算隐变量的分布,再根据该分布计算似然函数关于的期望
  • M(Maximization)步:最大似然估计下一轮参数

这两步交替进行直到达到最大迭代轮数或者似然函数不再增长时停止迭代,此时即认为算法收敛至最优解。需要注意的是EM算法不一定总是收敛至全局最优解,同时初始值的选择对于算法的结果可能有影响。
下面以高斯混合模型的参数估计为例,说明EM算法的整体过程。假设隐变量为生成高斯混合成分的序号,则隐变量的后验概率分布为

代表是否由第i个高斯混合成分生成,其为1则代表是,0则代表否。则k个样本下的高斯混合模型的似然函数可以表示为

其中.接下来对于似然函数求隐变量期望,即E步

根据上述定义可知,的数学期望即为,代入后令的导数为0求解M步结果为

其中的求解需要利用写出拉格朗日函数转换为无约束的待优化函数,后令其导数为0求解。