文档库 最新最全的文档下载
当前位置:文档库 › 混合高斯模型(Mixtures-of-Gaussians)和EM算法

混合高斯模型(Mixtures-of-Gaussians)和EM算法

混合高斯模型(Mixtures-of-Gaussians)和EM算法
混合高斯模型(Mixtures-of-Gaussians)和EM算法

混合高斯模型(Mixtures of Gaussians)和EM算法

这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。

与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k 个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由此可以得到联合分布。

整个模型简单描述为对于每个样例,我们先从k个类别中按多项式分布抽取一个,然后根据所对应的k个多值高斯分布中的一个生成样例,。整个过程称作混合高斯模型。注意的是这里的仍然是隐含随机变量。模型中还有三个变量和。最大似然估计为。对数化后如下:

这个式子的最大值是不能通过前面使用的求导数为0的方法解决的,因为求的结果不是close form。但是假设我们知道了每个样例的,那么上式可以简化为:

这时候我们再来对和进行求导得到:

就是样本类别中的比率。是类别为j的样本特征均值,是类别为j的样例的特征的协方差矩阵。

实际上,当知道后,最大似然估计就近似于高斯判别分析模型(Gaussian discriminant analysis model)了。所不同的是GDA中类别y是伯努利分布,而这里的z是多项式分布,还有这里的每个样例都有不同的协方差矩阵,而GDA中认为只有一个。

之前我们是假设给定了,实际上是不知道的。那么怎么办呢?考虑之前提到的EM的思想,第一步是猜测隐含类别变量z,第二步是更新其他参数,以获得最大的最大似然估计。用到这里就是:

循环下面步骤,直到收敛:{

(E步)对于每一个i和j,计算

(M步),更新参数:

}

在E步中,我们将其他参数看作常量,计算的后验概率,也就是估计隐含类别变量。估计好后,利用上面的公式重新计算其他参数,计算好后发现最大化最大似然估计时,值又不对了,需要重新计算,周而复始,直至收敛。

的具体计算公式如下:

这个式子利用了贝叶斯公式。

这里我们使用代替了前面的,由简单的0/1值变成了概率值。

对比K-means可以发现,这里使用了“软”指定,为每个样例分配的类别是有一定的概率的,同时计算量也变大了,每个样例i都要计算属于每一个类别j的概率。与K-means相同的是,结果仍然是局部最优解。对其他参数取不同的初始值进行多次计算不失为一种好方法。

虽然之前再K-means中定性描述了EM的收敛性,仍然没有定量地给出,还有一般化EM 的推导过程仍然没有给出。下一篇着重介绍这些容。

(EM算法)The EM Algorithm

EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell 的书中也提到EM可以用于贝叶斯网络中。

下面主要介绍EM的整个推导过程。

1. Jensen不等式

回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(),那么f是凸函数。如果或者,那么称f是严格凸函数。

Jensen不等式表述如下:

如果f是凸函数,X是随机变量,那么

特别地,如果f是严格凸函数,那么当且仅当,也就是说X是常量。

这里我们将简写为。

如果用图表示会很清晰:

图中,实线f是凸函数,X是随机变量,有0.5的概率是a,有0.5的概率是b。(就像掷硬币一样)。X的期望值就是a和b的中值了,图中可以看到成立。

当f是(严格)凹函数当且仅当-f是(严格)凸函数。

Jensen不等式应用于凹函数时,不等号方向反向,也就是。

2. EM算法

给定的训练样本是,样例间独立,我们想找到每个样例隐含的类别z,能使得p(x,z)最大。p(x,z)的最大似然估计如下:

第一步是对极大似然取对数,第二步是对每个样例的每个可能类别z求联合分布概率和。但是直接求一般比较困难,因为有隐藏变量z存在,但是一般确定了z后,求解就容易了。

EM是一种解决存在隐含变量优化问题的有效方法。竟然不能直接最大化,我们可以不断地建立的下界(E步),然后优化下界(M步)。这句话比较抽象,看下面的。

对于每一个样例i,让表示该样例隐含变量z的某种分布,满足的条件是。(如果z是连续性的,那么是概率密度函数,需要将求和符号换做积分符号)。比如要将班上学生聚类,假设隐藏变量z是身高,那么就是连续的高斯分布。如果按照隐藏变量是男女,那么就是伯努利分布了。可以由前面阐述的容得到下面的公式:

(1)到(2)比较直接,就是分子分母同乘以一个相等的函数。(2)到(3)利用了Jensen 不等式,考虑到是凹函数(二阶导数小于0),而且

就是的期望(回想期望公式中的Lazy Statistician规则)

设Y是随机变量X的函数(g是连续函数),那么

(1)X是离散型随机变量,它的分布律为,k=1,2,…。若绝对收敛,则有

(2)X是连续型随机变量,它的概率密度为,若绝对收敛,则有

对应于上述问题,Y是,X是,是,g是到的映射。这样解释了式子(2)中的期望,再根据凹函数时的Jensen不等式:

可以得到(3)。

这个过程可以看作是对求了下界。对于的选择,有多种可能,那种更好的?假设已经给定,那么的值就决定于和了。我们可以通过调整这两个概率使下界不断上升,以逼近的真实值,那么什么时候算是调整好了呢?当不等式变成等式时,说明我们调整后的概率能够等价于了。按照这个思路,我们要找到等式成立的条件。根据Jensen不等式,要想让等式成立,需要让随机变量变成常数值,这里得到:

c为常数,不依赖于。对此式子做进一步推导,我们知道,那么也就有,(多个等式分子分母相加不变,这个认为每个样例的两个概率比值都是c),那么有下式:

至此,我们推出了在固定其他参数后,的计算公式就是后验概率,解决了如何选择的问题。这一步就是E步,建立的下界。接下来的M步,就是在给定后,调整,去极大化的下界(在固定后,下界还可以调整的更大)。那么一般的EM算法的步骤如下:

循环重复直到收敛{

(E步)对于每一个i,计算

(M步)计算

那么究竟怎么确保EM收敛?假定和是EM第t次和t+1次迭代后的结果。如果我们证明了,也就是说极大似然估计单调增加,那么最终我们会到达最大似然估计的最大值。下面来证明,选定后,我们得到E步

这一步保证了在给定时,Jensen不等式中的等式成立,也就是

然后进行M步,固定,并将视作变量,对上面的求导后,得到,这样经过一些推导会有以下式子成立:

解释第(4)步,得到时,只是最大化,也就是的下界,而没有使等式成立,等式成立只有是在固定,并按E步得到时才能成立。

况且根据我们前面得到的下式,对于所有的和都成立

第(5)步利用了M步的定义,M步就是将调整到,使得下界最大化。因此(5)成立,(6)是之前的等式结果。

这样就证明了会单调增加。一种收敛方法是不再变化,还有一种就是变化幅度很小。

再次解释一下(4)、(5)、(6)。首先(4)对所有的参数都满足,而其等式成立条件只是在固定,并调整好Q时成立,而第(4)步只是固定Q,调整,不能保证等式一定成立。(4)到(5)就是M步的定义,(5)到(6)是前面E步所保证等式成立条件。也就是说E步会将下界拉到与一个特定值(这里)一样的高度,而此时发现下界仍然可以上升,因此经过M步后,下界又被拉升,但达不到与另外一个特定值一样的高度,之后E步又将下界拉到与这个特定值一样的高度,重复下去,直到最大值。

如果我们定义

从前面的推导中我们知道,EM可以看作是J的坐标上升法,E步固定,优化,M步固定优化。

3. 重新审视混合高斯模型

我们已经知道了EM的精髓和推导过程,再次审视一下混合高斯模型。之前提到的混合高斯模型的参数和计算公式都是根据很多假定得出的,有些没有说明来由。为了简单,这里在M 步只给出和的推导方法。

E步很简单,按照一般EM公式得到:

简单解释就是每个样例i的隐含类别为j的概率可以通过后验概率计算得到。

在M步中,我们需要在固定后最大化最大似然估计,也就是

这是将的k种情况展开后的样子,未知参数和。

固定和,对求导得

等于0时,得到

这就是我们之前模型中的的更新公式。

然后推导的更新公式。看之前得到的

在和确定后,分子上面的一串都是常数了,实际上需要优化的公式是:

需要知道的是,还需要满足一定的约束条件就是。

这个优化问题我们很熟悉了,直接构造拉格朗日乘子。

还有一点就是,但这一点会在得到的公式里自动满足。

求导得,

等于0,得到

也就是说再次使用,得到

这样就神奇地得到了。

那么就顺势得到M步中的更新公式:

的推导也类似,不过稍微复杂一些,毕竟是矩阵。结果在之前的混合高斯模型中已经给出。

4. 总结

如果将样本看作观察值,潜在类别看作是隐藏变量,那么聚类问题也就是参数估计问题,只不过聚类问题中参数分为隐含类别变量和其他参数,这犹如在x-y坐标系中找一个曲线的极值,然而曲线函数不能直接求导,因此什么梯度下降方法就不适用了。但固定一个变量后,另外一个可以通过求导得到,因此可以使用坐标上升法,一次固定一个变量,对另外的求极值,最后逐步逼近极值。对应到EM上,E步估计隐含变量,M步估计其他参数,交替将极值推向最大。EM中还有“硬”指定和“软”指定的概念,“软”指定看似更为合理,但计算量要大,“硬”指定在某些场合如K-means中更为实用(要是保持一个样本点到其他所有中心的概率,就会很麻烦)。

另外,EM的收敛性证明方法确实很牛,能够利用log的凹函数性质,还能够想到利用创造下界,拉平函数下界,优化下界的方法来逐步逼近极大值。而且每一步迭代都能保证是单调的。最重要的是证明的数学公式非常精妙,硬是分子分母都乘以z的概率变成期望来套上Jensen不等式,前人都是怎么想到的。

在Mitchell的Machine Learning书中也举了一个EM应用的例子,明白地说就是将班上学生的身高都放在一起,要求聚成两个类。这些身高可以看作是男生身高的高斯分布和女生身高的高斯分布组成。因此变成了如何估计每个样例是男生还是女生,然后在确定男女生情况下,如何估计均值和方差,里面也给出了公式,有兴趣可以参考。

高斯分布背景模型原理

高斯分布背景模型原理 背景差分法的关键是背景图像的描述模型即背景模型,它是背景差分法分割运动前景的基础。背景模型主要有单模态和多模态两种,前者在每个背景像素点上的颜色分布比较集中,可以用单分布概率模型来描述,后者的分布则比较分散,需要用多分布概率模型来共同描述。在许多应用场景,如水面的波纹、摇摆的树枝,飘扬的红旗、监视器屏幕等,像素点的值都呈现出多模态特性。最常用的描述场景背景点颜色分布的概率密度模型(概率密度分布)是高斯分布(正态分布)。 1 单高斯分布背景模型 单高斯分布背景模型适用于单模态背景情形, 它为每个图象点的颜色建立了用单个高斯分布表示的模型) ,(,t t x N σμ其中下标t 表示时间。设图象点的当前颜色度量为t X ,若(,,)ttt p N X T μσ ≤ (这里p T 为概率阈值) , 则该点被判定为前景点, 否则为背景点(这时又称t X 与) ,(,t t x N σμ相匹配)。 在常见的一维情形中, 以t σ表示均方差, 则常根据/t t d σ的取值 设置前景检测阈值:若/t t d T σ>,则该点被判定为前景点, 否则为背 景点。 单高斯分布背景模型的更新即指各图象点高斯分布参数的更新。引入表示更新快慢的常数——更新率α, 则该点高斯分布参数的更新可表示为 1(1)t t t d μαμα+=-?+? (1)

21(1)t t t d σασα+=-?+? (2) 单高斯背景模型能处理有微小变化与慢慢变化的简单场景,当较复杂场景背景变化很大或发生突变,或者背景像素值为多峰分布(如微小重复运动)时,背景像素值的变化较快,并不是由一个相对稳定的单峰分布渐渐过度到另一个单峰分布,这时单高斯背景模型就无能为力,不能准确地描述背景了。]1[ 2 混合高斯分布背景模型 与单高斯背景模型不同,混合高斯背景模型对每个像素点用多个高斯模型混合表示。设用来描述每个像素的高斯分布共K 个(K 通常取 3—5个),象素uv Z 的概率函数: ,,,1()(,,)K u v j u v u v j u v j u v j P Z N Z ωμ ==∑∑ 其中,j uv ω是第j 个高斯分布的权值, 背景建模和更新过程(仅针对单个像素): 1.初始化:第一个高斯分布用第一帧图像该点的像素值作为均值或前N 帧图像该点的像素值的平均值作为均值,并对该高斯分布的权值取较大值(比其它几个高斯分布大)。其余的高斯分布的均值均为0,权重相等,所有高斯函数的方差取相等的较大值。 2.权值归一化 3.选取背景

混合高斯模型(Mixtures of Gaussians)和EM算法

混合高斯模型(Mixtures of Gaussians)和EM算法 这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与 k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项 式分布,,其中,有k个值{1,…,k} 可以选取。而且我们认为在给定后,满足多值高斯分布,即。由 此可以得到联合分布。 整个模型简单描述为对于每个样例,我们先从k个类别中按多项式分布抽取一个, 然后根据所对应的k个多值高斯分布中的一个生成样例,。整个过程称作混合高斯模型。 注意的是这里的仍然是隐含随机变量。模型中还有三个变量和。最大似然估计为 。对数化后如下: 这个式子的最大值是不能通过前面使用的求导数为0的方法解决的,因为求的结果不是 close form。但是假设我们知道了每个样例的,那么上式可以简化为: 这时候我们再来对和进行求导得到:

就是样本类别中的比率。是类别为j的样本特征均值,是类别为j的样例的特征的协方差矩阵。 实际上,当知道后,最大似然估计就近似于高斯判别分析模型(Gaussian discriminant analysis model)了。所不同的是GDA中类别y是伯努利分布,而这里的z是多项式分布,还有这里的每个样例都有不同的协方差矩阵,而GDA中认为只有一个。 之前我们是假设给定了,实际上是不知道的。那么怎么办呢?考虑之前提到的EM 的思想,第一步是猜测隐含类别变量z,第二步是更新其他参数,以获得最大的最大似然估计。用到这里就是:

高斯混合模型实现——【机器学习与算法分析 精品资源池】

实验算法高斯混合模型实验 【实验名称】 高斯混合模型实验 【实验要求】 掌握高斯混合模型应用过程,根据模型要求进行数据预处理,建模,评价与应用; 【背景描述】 高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上GMM 可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况。属于无监督机器学习,用于对结构化数据进行聚类。 【知识准备】 了解高斯混合模型的使用场景,数据标准。了解Python/Spark数据处理一般方法。了解spark 模型调用,训练以及应用方法 【实验设备】 Windows或Linux操作系统的计算机。部署Spark,Python,本实验提供centos6.8环境。【实验说明】 采用UCI机器学习库中的wine数据集作为算法数据,除去原来的类别号,把数据看做没有类别的样本,训练混合高斯模型,对样本进行聚类。 【实验环境】 Spark 2.3.1,Pyrhon3.X,实验在命令行pyspark中进行,或者把代码写在py脚本,由于本次为实验,以学习模型为主,所以在命令行中逐步执行代码,以便更加清晰地了解整个建模流程。【实验步骤】 第一步:启动pyspark: 1

命令行中键入pyspark --master local[4],本地模式启动spark与python: 第二步:导入用到的包,并读取数据: (1).导入所需的包 from pyspark import SparkContext, SQLContext, SparkConf from math import sqrt from pyspark.sql.functions import monotonically_increasing_id (2).读取数据源 df_wine = sc.textFile(u"file:/opt/algorithm/gaussianMixture/wine.txt").map( lambda x: str(x).split(",")).map(lambda x: [float(z) for z in x]) (3).数据转换为Data df_wine_rdd = sqlContext.createDataFrame(df_wine) (4).数据展示 df_wine_rdd.show() 1

混合高斯模型算法原理

混合高斯模型算法原理 混合高斯模型是一种经典的背景建模算法,用于背景相对稳定情况下的运动目标检测。它由单高斯模型发展而来,对于多模态的背景有一定的鲁棒性,如:树叶晃动、水纹波动等。在介绍混合高斯模型前,首先介绍单高斯模型。 1. 单高斯背景模型: 单高斯模型将图像中每一个像素点的颜色值看成是一个随机过程,并假设该点的像素值出现的概率服从高斯分布。该算法的基本原理就是对每一个像素位置建立一个高斯模型,模型中保存该处像素的均值和方差。如,可设),(y x 处像素的均值为),(y x u ,方差为),(2y x σ,标准差为),(y x σ。由于随着视频图像序列的输入,模型参数不断更新,所以不同时刻模型参数有不同的值,故可将模型参数表示为三个变量t y x ,,的函数:均值),,(t y x u 、方差),,(2t y x σ、标准差),,(t y x σ。用单高斯模型进行运动检测的基本过程包括:模型的初始化、更新参数并检测两个步骤。 1)模型初始化 模型的初始化即对每个像素位置上对应的高斯模型参数进行初始化,初始化采用如下公式完成: ?? ???===init std y x init std y x y x I y x u _)0,,(_)0,,()0,,()0,,(22σσ (1) 其中,)0,,(y x I 表示视频图像序列中的第一张图像),(y x 位置处的像素值,init std _为一个自己设的常数,如可设20_=init std 。 2)更新参数并检测 每读入一张新的图片,判断新图片中对应点像素是否在高斯模型描述的范围中,如是,则判断该点处为背景,否则,判断该点处为前景。假设前景检测的结 果图为out put ,其中在t 时刻),(y x 位置处的像素值表示为),,(t y x output ,),,(t y x output 的计算公式如下: ???-?<--=otherwise t y x t y x u t y x I t y x output ,1)1,,()1,,(),,(,0),,(σλ (2) 其中,λ是自己设的一个常数,如可设5.2=λ。以上公式表示的含义是:若新的图片中相应位置的像素值与对应模型中像素的均值的距离小于标准差的λ倍,则该点为背景,否则为前景。 模型的更新采用如下公式: ?? ???=-?+-?-=?+-?-=),,(),,()],,(),,(I [)1,,()1(),,(),,()1,,()1(),,(2222t y x t y x t y x u t y x t y x t y x t y x u t y x u t y x u σσασασαα (3) 其中,参数α表示更新率,也是自己设的一个常数,该常数的存在可以使得模型在背景的缓慢变化时具有一定的鲁棒性,如光照的缓慢变亮或变暗等。

GMM算法原理

高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。 对图像背景建立高斯模型的原理及过程:图像灰度直方图反映的是图像中某个灰度值出现的频次,也可以认为是图像灰度概率密度的估计。如果图像所包含的目标区域和背景区域相比比较大,且背景区域和目标区域在灰度上有一定的差异,那么该图像的灰度直方图呈现双峰-谷形状,其中一个峰对应于目标,另一 个峰对应于背景的中心灰度。对于复杂的图像,尤其是医学图像,一般是多峰的。通过将直方图的多峰特性看作是多个高斯分布的叠加,可以解决图像的分割问题。在智能监控系统中,对于运动目标的检测是中心内容,而在运动目标检测提取中,背景目标对于目标的识别和跟踪至关重要。而建模正是背景目标提取的一个重要环节。 我们首先要提起背景和前景的概念,前景是指在假设背景为静止的情况下,任何有意义的运动物体即为前景。建模的基本思想是从当前帧中提取前景,其目的是使背景更接近当前视频帧的背景。即利用当前帧和视频序列中的当前背景帧进行加权平均来更新背景,但是由于光照突变以及其他外界环境的影响,一般的 建模后的背景并非十分干净清晰,而高斯混合模型是是建模最为成功的方法之一。 混合高斯模型使用K(基本为3到5个)个高斯模型来表征图像中各个像素点的特征,在新一帧图像获得后更新混合高斯模型, 用当前图像中的每个像素点 与混合高斯模型匹配,如果成功则判定该点为背景点, 否则为前景点。通观整个高斯模型,主要是有方差和均值两个参数决定,对均值和方差的学习,采取不同的学习机制,将直接影响到模型的稳定性、精确性和收敛性。由于我们是对运动目标的背景提取建模,因此需要对高斯模型中方差和均值两个参数实时更新。为提高模型的学习能力,改进方法对均值和方差的更新采用不同的学习率;为提高在繁忙的场景下,大而慢的运动目标的检测效果,引入权值均值的概念,建立背景图 像并实时更新,然后结合权值、权值均值和背景图像对像素点进行前景和背景的 分类。 1、为图像的每个像素点指定一个初始的均值、标准差以及权重。 2、收集N(一般取200以上,否则很难得到像样的结果)帧图像利用在线EM算法得到每个像素点的均值、标准差以及权重。 3、从N+1帧开始检测,检测的方法: 对每个像素点: 1)将所有的高斯核按照ω/ σ降序排序 2)选择满足下式的前M个高斯核: M = arg min(ω/ σ> T) 3)如果当前像素点的像素值在中有一个满足:就可以认为其为背景点。 4、更新背景图像,用在线EM算法。

混和高斯模型的推导和实现

基于GMM 的运动目标检测方法研究 一、GMM 数学公式推导 1、预备知识: (1)设离散型随机变量X 的分布率为: {} 2,1,P ===k p a X k k 则称()∑= k k k p a X E 为X 的数学期望或均值 (2)设连续型随机变量X 的概率密度函数(PDF )为f(x) 其数学期望定义为:()()dx x xf X E ? +∞ ∞ -= (3)()()()[] 2 X E X E X D -=称为随机变量x 的方差,()X D 称为X 的标准差 (4)正态分布:() 2,~σμN X 概率密度函数为:()()??????? ?--= 22221 σμσ πx e x p (5)设(x,y)为二维随机变量,()[]()[]{}Y E Y X E X E --若存在,则 称其为X 和Y 的协方差,记为cov(x,y) ()()[]()[]{}()XY E Y E Y X E X E Y X =--=,cov 2、单高斯模型:SGM (也就是多维正态分布) 其概率密度函数PDF 定义如下: ()() ()()μμπμ--- -= x C x n T e C C x N 12 1 21 ,; 其中,x 是维数为n 的样本向量(列向量),μ是期望,C 是协方差矩阵,|C|表示C 的行列式,1-C 表示C 的逆矩阵,()T x μ-表示()μ-x 的转置。 3、混合高斯模型:GMM 设想有 m 个类:m 321????,,,, ,每类均服从正态分布。 各分布的中心点(均值)分别为:m 321μμμμ,,,,

方差分别为:m 321σσσσ,,,, 每一类在所有的类中所占的比例为 ()()()()m P P P P ????,,,,321 其中()11=∑=m i i P ?。 同时,已知 个观察点: 。其中,用大写P 表示概率,用小写p 表 示概率密度。 则依此构想,可得概率密度函数为: ()()()()()()()() ()()()μμπ??σμ?σμ?σμ--- =-∑ =?++?+?=x C x m i d i m m m T e C P P N P N P N x p 12 1 12221112,,, 其中d 是维数,|·|是行列式 但是在利用GMM 进行目标检测时,这些模型的参数可能已知,也可能不知道,当参数已知时,可以直接利用GMM 进行目标检测,在未知的情况下,需要对参数进行估计。对参数估计时,还要考虑样本分类是否已知。 (1)样本已知: 最大似然估计: 可以直接采用MLE (最大似然估计)进行参数估计: 未知量为集合:()()()m P P C C ??μμλ,,1m 1m 1 ,,,,,,= 将衡量概率密度函数优劣的标准写出:()()∏==n k k x P x p 1||λλ 即为: ()() () ()()i k T i k x C x n k m i d i e C P x p μμπ?λ--- ==-∏∑ =12 1 11 | |2| 只要定出该标准的最大值位置,就可以求出最优的待定参数。为了 求出这个最

EM算法在高斯混合模型中的应用

EM 算法在高斯混合模型中的应用 1.定义 对于一个随机信号生成器,假设他的模型参数为Θ,我们能观测到的数据输出为X ,不能观测到的数据输出为Y ,且随机系统模型结构的概率密度函数为 (,|)p x y Θ (1) 能够观测到的一部分数据输出数据12{,,...,}N x x x ,模型的另一部分输出数据 未知,模型的参数Θ也未知。EM 算法就是要求我们从观测数据12{,,...,}N x x x 中估计出参数Θ。 2.EM 算法的描述 假设每一对随机系统的输出样本(,)n n x y 对于不同的n 相互独立,这样当(,,)p x y Θ,x 和y 都已知的情况下,概率(,,)p x y Θ也已知。未观测的输出y 的概率分布也属于待求参数Θ。 根据独立性假设有: 1(,|)(,|)N n n n p x y p x y =Θ=Θ∏ (2) 3.EM 算法的基本思路 基本问题是求解下面的方程的解: arg max (,|)p x y Θ=Θ (3) 由于X 是确定量,Y 是未知的,因此即使给定了Θ,也无法求得(,|)p x y Θ的值,因此我们只能退一步求: arg max (|)p x Θ=Θ (4) 其中 (|)(,|)[(|),(|,)]y Y y Y p x p x y p y p x y ∈∈Θ=Θ=ΘΘ∑∑ (5) 表示考虑了未知数据y 的所有可能的取值Y 后对(|,)p x y Θ求平均值。 最后根据log 函数的单调性得到(4)的等效形式: arg max log (|)p x Θ=Θ (6) 对于(6)给出的最优化问题,考虑用下面的递推算法解决,即:先给定一个估值k Θ并计算(|)k p x Θ,然后更新k Θ得到1k +Θ并且有 1log (|)log (|)k k p x p x +Θ>Θ (7) ()log (|)log [(|)(|,)] |(|,)log (|,)(|,)(|)(|,)(|,)log (|,)(,) y Y k k y Y k k y Y k p x p y p x y p y p x y p y x p y x p y p x y p y x p y x B ∈∈∈Θ=ΘΘΘΘ? ?=Θ??Θ???? ??ΘΘ≥Θ????Θ??? ?=ΘΘ∑∑∑ (8) 其中,等号在(,)k k B ΘΘ时成立,即: (,)log (|)k k k B p x ΘΘ=Θ (9)

高斯混合模型GMM实现matlab

高斯混合模型GMM实现matlab (1 )以下matlab代码实现了高斯混合模型: function [Alpha, Mu, Sigma] = GMM_EM(Data, Alpha0, Mu0, Sigma0) %%EM 迭代停止条件 loglik_threshold = 1e-10; %%初始化参数 [dim, N] = size(Data); M = size(Mu0,2); loglik_old = -realmax; nbStep = 0; Mu = Mu0; Sigma = Sigma0; Alpha = Alpha0; Epsilon = 0.0001; while (nbStep < 1200) nbStep = nbStep+1; %%E-步骤 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% for i=1:M % PDF of each point Pxi(:,i) = GaussPDF(Data, Mu(:,i), Sigma(:,:,i)); end % 计算后验概率 beta(i|x) Pix_tmp = repmat(Alpha,[N 1]).*Pxi; Pix = Pix_tmp ./ (repmat(sum(Pix_tmp,2),[1 M])+realmin); Beta = sum(Pix); %%M- 步骤 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% for i=1:M % 更新权值 Alpha(i) = Beta(i) / N; %更新均值 Mu(:,i) = Data*Pix(:,i) / Beta(i); %更新方差 Data_tmp1 = Data - repmat(Mu(:,i),1,N);

基于阴影消除和混合高斯模型的视频分割算法

第35卷第3期 光电工程V ol.35, No.3 2008年3月Opto-Electronic Engineering March, 2008文章编号:1003-501X(2008)03-0021-05 基于阴影消除和混合高斯模型的视频分割算法 王勇,谭毅华,田金文 ( 华中科技大学图像所,多谱信息处理技术国防重点实验室,武汉 430074 ) 摘要:针对固定场景监控中复杂背景、光照变化、阴影等影响视频分割的问题,提出了一种有效的混合高斯模型的自适应背景更新算法,各像素点根据其像素值出现的混乱程度采取不同个数的高斯分布描述,通过对背景模型的学习与更新、高斯分布生成准则等方面的改进和优化,采用基于形态学重构的阴影消除方法使得前景目标分割的性能得到了有效地提高。文中同时给出了光照突变检测及其背景更新方法。通过对各种实际场景的实验仿真表明,该算法能够快速准确地建立背景模型,准确分割前景目标,与其它算法比较具有更强的鲁棒性。 关键词:视频分割;背景建模;混合高斯模型;阴影消除 中图分类号:TN911.73 文献标志码:A Video Segmentation Algorithm with Gaussian Mixture Model and Shadow Removal WANG Yong,TAN Yi-hua,TIAN Jin-wen ( State Key Laboratory for Multi-spectrum Information Processing, Institute for Pattern Recognition and Artificial Intelligence, Huazhong University of Science and Technology, Wuhan 430074, China ) Abstract:Background subtraction based on Gaussian Mixture Model (GMM) is a common method for real-time video segmentation of moving objects. An effective adaptive background updating method based on GMM is presented. The number of mixture components of GMM is estimated according to the frequency of pixel value changes, and the performance of GMM can be effectively improved with the modified background learning and update new distribution generation rule and shadow removal based on morphological reconstruction. The detection of sudden illumination change and background updating are also proposed. Compared with existing approaches, experimental results with different real scenes demonstrate the robustness of the proposed method. Key words:video segmentation; background modeling; mixture Gaussians model; shadow removal 1 引 言 在背景减除的实时视频监控及运动目标检测与跟踪领域中经常采用混合高斯方法为背景建模。混合高斯背景模型是一些高斯函数的加权和,能够描述像素的双峰或多峰状态,能够对比较复杂、光照缓慢变化和存在小幅度重复运动的背景(喷泉、摇动的树木、雨雪天气等情况)准确建模。前期的研究者通常采用EM 算法估计混合高斯模型参数,但由于EM算法固有的缺陷[1]限制了其应用,目前GMM基本采用在线K均值估计的统计建模方法。文献[2]中背景模型的学习与更新都采用一个小的常量α,虽能保证背景模型的稳定性,但影响了高斯成分的收敛速度,对于动态背景的适应能力较差。文献[3]对学习率因子做了改进,将它与时间建立联系,使学习算法具有了自适应性,提高了收敛速度。文献[4]结合EM算法推导了基于最大后验概率准则的高斯模型参数迭代公式,该算法虽具有较好的适应性和分割效果,缺点是计算复杂并且选取合适的参数比较困难。采用背景减除得到的前景目标通常包含运动阴影,且与物体轮廓相连。如果不进 收稿日期:2007-04-23;收到修改稿日期:2008-01-20 作者简介:王勇(1980-),男(汉族),湖北仙桃人,博士生,主要研究工作是模式识别与智能系统。E-mail: wy112708@https://www.wendangku.net/doc/855669105.html,

聚类(1)——混合高斯模型 Gaussian Mixture Model

聚类(1)——混合高斯模型Gaussian Mixture Model 分类:Machine Learning 2012-06-14 17:57 5075人阅读评论(5) 收藏举报算法function 聚类系列: ?聚类(序)----监督学习与无监督学习 ? ?聚类(1)----混合高斯模型 Gaussian Mixture Model ?聚类(2)----层次聚类 Hierarchical Clustering ?聚类(3)----谱聚类 Spectral Clustering -------------------------------- 聚类的方法有很多种,k-means要数最简单的一种聚类方法了,其大致思想就是把数据分为多个堆,每个堆就是一类。每个堆都有一个聚类中心(学习的结果就是获得这k个聚类中心),这个中心就是这个类中所有数据的均值,而这个堆中所有的点到该类的聚类中心都小于到其他类的聚类中心(分类的过程就是将未知数据对这k个聚类中心进行比较的过程,离谁近就是谁)。其实k-means算的上最直观、最方便理解的一种聚类方式了,原则就是把最像的数据分在一起,而“像”这个定义由我们来完成,比如说欧式距离的最小,等等。想对k-means的具体算法过程了解的话,请看这里。而在这篇博文里,我要介绍的是另外一种比较流行的聚类方法----GMM(Gaussian Mixture Model)。 GMM和k-means其实是十分相似的,区别仅仅在于对GMM来说,我们引入了概率。说到这里,我想先补充一点东西。统计学习的模型有两种,一种是概率模型,一种是非概率模型。所谓概率模型,就是指我们要学习的模型的形式是P(Y|X),这样在分类的过程中,我们通过未知数据X可以获得Y取值的一个概率分布,也就是训练后模型得到的输出不是一个具体的值,而是一系列值的概率(对应于分类问题来说,就是对应于各个不同的类的概率),然后我们可以选取概率最大的那个类作为判决对象(算软分类soft assignment)。而非概率模型,就是指我们学习的模型是一个决策函数Y=f(X),输入数据X是多少就可以投影得到唯一的一个Y,就是判决结果(算硬分类hard assignment)。回到GMM,学习的过程就是训练出几个概率分布,所谓混合高斯模型就是指对样本的概率密度分布进行估计,而估计的模型是几个高斯模型加权之和(具体是几个要在模型训练前建立好)。每个高斯模型就代表了一个类(一个Cluster)。对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。 得到概率有什么好处呢?我们知道人很聪明,就是在于我们会用各种不同的模型对观察到的事物和现象做判决和分析。当你在路上发现一条狗的时候,你可能光看外形好像邻居家的狗,又更像一点点女朋友家的狗,你很难判断,所以从外形上看,用软分类的方法,是女朋友家的狗概率51%,是邻居家的狗的概率是49%,属于一个易混淆的区域内,这时你可以再用其它办法进行区分到底是谁家的狗。而如果是硬分类的话,你所判断的就是女朋友家的狗,没有“多像”这个概念,所以不方便多模型的融合。 从中心极限定理的角度上看,把混合模型假设为高斯的是比较合理的,当然也可以根据实际数据定义成任何分布的Mixture Model,不过定义为高斯的在计算上有一些方便之处,另外,理论上可以通过增加Model的个数,用GMM近似任何概率分布。 混合高斯模型的定义为: 其中K为模型的个数,πk为第k个高斯的权重,则为第k个高斯的概率密度函数,其均值为μk,方差为σk。我们对此概率密度的估计就是要求πk、μk和σk各个变量。当求出的表达式后,求和式的各项的结果就分别代表样本x属于各个类的概率。 在做参数估计的时候,常采用的方法是最大似然。最大似然法就是使样本点在估计的概率密度函数上的概率值最大。由于概率值一般都很小,N很大的时候这个连乘的结果非常小,容易造成浮点数下溢。所以我们通常取log,将目标改写成: 也就是最大化log-likelyhood function,完整形式则为:

高斯混合模型GMM实现 matlab

(1)以下matlab代码实现了高斯混合模型: function [Alpha, Mu, Sigma] = GMM_EM(Data, Alpha0, Mu0, Sigma0) %% EM 迭代停止条件 loglik_threshold = 1e-10; %% 初始化参数 [dim, N] = size(Data); M = size(Mu0,2); loglik_old = -realmax; nbStep = 0; Mu = Mu0; Sigma = Sigma0; Alpha = Alpha0; Epsilon = 0.0001; while (nbStep < 1200) nbStep = nbStep+1; %% E-步骤 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% for i=1:M % PDF of each point Pxi(:,i) = GaussPDF(Data, Mu(:,i), Sigma(:,:,i)); end % 计算后验概率 beta(i|x) Pix_tmp = repmat(Alpha,[N 1]).*Pxi; Pix = Pix_tmp ./ (repmat(sum(Pix_tmp,2),[1 M])+realmin); Beta = sum(Pix); %% M-步骤 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% for i=1:M % 更新权值 Alpha(i) = Beta(i) / N; % 更新均值 Mu(:,i) = Data*Pix(:,i) / Beta(i); % 更新方差 Data_tmp1 = Data - repmat(Mu(:,i),1,N);

高斯混合模型GMM实现matlab

高斯混合模型GMM 实现matlab (1)以下matlab 代码实现了高斯混合模型: function[Alpha,Mu,Sigma]=GMM_EM(Data,Alpha0,Mu0,Sigma0) %%EM迭代停止条件 loglik_threshold=1e-10; %%初始化参数 [dim,N]=size(Data); M=size(Mu0,2); loglik_old=-realmax; nbStep=0; Mu=Mu0; Sigma=Sigma0; Alpha=Alpha0; Epsilon=0.0001; while(nbStep<1200) nbStep=nbStep+1; %%E-步骤%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% fori=1:M %PDFofeachpoint Pxi(:,i)=GaussPDF(Data,Mu(:,i),Sigma(:,:,i));e nd %计算后验概率beta(i|x) Pix_tmp=repmat(Alpha,[N1]).*Pxi; Pix=Pix_tmp./(repmat(sum(Pix_tmp,2),[1M])+realmin); Beta=sum(Pix); %%M-步骤%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% fori=1:M %更新权值 Alpha(i)=Beta(i)/N; %更新均值 Mu(:,i)=Data*Pix(:,i)/Beta(i); %更新方差 Data_tmp1=Data-repmat(Mu(:,i),1,N);

Sigma(:,:,i)=(repmat(Pix(:,i)',dim,1).*Data_tmp1*Data_tmp1')/Beta(i); %%AddatinyvariancetoavoidnumericalinstabilitySigm a(:,:,i)=Sigma(:,:,i)+1E-5.*diag(ones(dim,1)); end %%%Stoppingcriterion1%%%%%%%%%%%%%%%%%%%% %fori=1:M %Computethenewprobabilityp(x|i) %Pxi(:,i)=GaussPDF(Data,Mu(:,i),Sigma(i)); %end %Computetheloglikelihood %F=Pxi*Alpha'; %F(find(F

相关文档
相关文档 最新文档