文本检索剖析.pptVIP

下载本文档

6
0
约 87页
2016-06-27 发布于湖北
举报

文本检索剖析.ppt

2.7 文本聚类——基于亲和性消息的聚类 (4/3) 6)对每个元素i 计算k=argmax(r(i,k’)+a(i,k’)) ，若k=i，则k自身为一个范例，否则k为i的范例。如果满足终止条件则结束；否则转4) 继续迭代 * 2.7 文本聚类——生成式聚类每个文档类别被看作对应一个主题的文档集合将文档的产生看作随机过程，每个主题类别有一个关于文档的概率分布模型一个文档应该归属哪个类，要看哪个类别的模型产生文档的概率最大关键是各个类别概率模型的估计和参数估计 * 2.7 文本聚类——生成式聚类(二值概率模型) 文档是二值元素的向量，每个元素对应词表W中的一个词t 假设词的出现是相互独立的事件，并只考虑词是否出现而不管出现的次数，则可得在概率参数集合Φ条件下文档d 生成的二值概率模型由于词表中的词数远远多于文档中的词数，所以φt的平均值低于0.5，使得该模型有利于短文本的生成，同时降低了实际出现可能性大的文档的产生概率 * 2.7 文本聚类——生成式聚类(多值概率模型) 考虑词在文档中的出现次数假设文档的总长度L 符合一个概率分布P(l) 文档的产生过程是一个掷|W| 个面的骰子的过程，每个面对应词

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

文本检索剖析.pptVIP