- 14
- 0
- 约5.25千字
- 约 20页
- 2016-08-14 发布于湖北
- 举报
由高斯聚类到LDA分析
高斯聚类是一种基于概率密度的模型方法,即使用概率密度函数描述数据的生成,并试图优化实际数据与模型的拟合度。高斯聚类认为每个类都可以表示为概率的参数分布形式,多个不同的类别数据就可以建模成所有类分布的混合分布。这样在观察到多个混合分布的数据后,数据的聚类问题就转化为模型参数的估计问题。
1、 GMM混合模型
设观察到的数据由K个Gaussian分布混合生成,每个类的Gaussian分布生成该类别的数据,所有类别的高斯分布线性加成在一起就组成了GMM (Gaussian Mixture Model)的概率密度函数:
px=k=1Kpkpxk=k=1KπkP(x|μk,Σk) (1)
令pk=πk是每种类别的概率,且 k=1Kpk=1。pxk是满足参数为(u,Σ)第k个类的高斯分布。根据上面的式子,数据的生成过程是这样完成的:首先根据概率随机地在这 K个类之中选一个,每个类被选中的概率实际上就是它的系数πk,选择类别之后,再从这个类别分布pxμk,Σk中生成数据点,执行完整过程就生成了观察得到的数据。
1.1、极大似然估计
由数据计算相关的模型参数,最基本的方法是极大似然估计法。假定随机变量X服从某一个参数为θ的分布,概率密度为 P(x;θ),θ∈Θ,其中θ为带估计的参数,Θ是θ的可能取值范围。设x1,x2,…,xn是来自模型的样本
您可能关注的文档
最近下载
- [找邮箱方法.doc VIP
- 植入式静脉给药装置(输液港)护理技术考核试题.doc VIP
- 2025年山东省济南市外国语学校小升初考试语文试卷.docx VIP
- 2026年电商达人LV1LV2LV3LV4等级提升试卷试题及答案.docx
- J B-T 8896-1999工业机器人 验收规则.pdf VIP
- 审计学(西南财经大学)中国大学MOOC 慕课 期末考试答案.pdf VIP
- 2025年陕西汉中职业技术学院及附属医院招聘考试试卷真题 .pdf VIP
- 【交通运输类】浙江省汽车维修行业工时定额和收费标准浙江省交通厅浙江省物价局精编.pdf VIP
- 新人教版七年级语文下册期中水平测试题.doc VIP
- 人教版七年级英语下册期中测试题.doc VIP
原创力文档

文档评论(0)