- 6
- 0
- 约 87页
- 2016-06-27 发布于湖北
- 举报
2.7 文本聚类——基于亲和性消息的聚类 (4/3) 6)对每个元素i 计算k=argmax(r(i,k’)+a(i,k’)) ,若k=i,则k自身为一个范例,否则k为i的范例。如果满足终止条件则结束;否则转4) 继续迭代 * 2.7 文本聚类——生成式聚类 每个文档类别被看作对应一个主题的文档集合 将文档的产生看作随机过程,每个主题类别有一个关于文档的概率分布模型 一个文档应该归属哪个类,要看哪个类别的模型产生文档的概率最大 关键是各个类别概率模型的估计和参数估计 * 2.7 文本聚类——生成式聚类(二值概率模型) 文档是二值元素的向量,每个元素对应词表W中的一个词t 假设词的出现是相互独立的事件,并只考虑词是否出现而不管出现的次数,则可得在概率参数集合Φ条件下文档d 生成的二值概率模型 由于词表中的词数远远多于文档中的词数,所以φt的平均值低于0.5,使得该模型有利于短文本的生成,同时降低了实际出现可能性大的文档的产生概率 * 2.7 文本聚类——生成式聚类(多值概率模型) 考虑词在文档中的出现次数 假设文档的总长度L 符合一个概率分布P(l) 文档的产生过程是一个掷|W| 个面的骰子的过程,每个面对应词
原创力文档

文档评论(0)