2.7 文本聚类——基于亲和性消息的聚类 (4/3) 6)对每个元素i 计算k=argmax(r(i,k’)+a(i,k’)) ,若k=i,则k自身为一个范例,否则k为i的范例。如果满足终止条件则结束;否则转4) 继续迭代 * 2.7 文本聚类——生成式聚类 每个文档类别被看作对应一个主题的文档集合 将文档的产生看作随机过程,每个主题类别有一个关于文档的概率分布模型 一个文档应该归属哪个类,要看哪个类别的模型产生文档的概率最大 关键是各个类别概率模型的估计和参数估计 * 2.7 文本聚类——生成式聚类(二值概率模型) 文档是二值元素的向量,每个元素对应词表W中的一个词t 假设词的出现是相互独立的事件,并只考虑词是否出现而不管出现的次数,则可得在概率参数集合Φ条件下文档d 生成的二值概率模型 由于词表中的词数远远多于文档中的词数,所以φt的平均值低于0.5,使得该模型有利于短文本的生成,同时降低了实际出现可能性大的文档的产生概率 * 2.7 文本聚类——生成式聚类(多值概率模型) 考虑词在文档中的出现次数 假设文档的总长度L 符合一个概率分布P(l) 文档的产生过程是一个掷|W| 个面的骰子的过程,每个面对应词
您可能关注的文档
最近下载
- 2026中国装配式建筑行业发展驱动因素及政策支持分析报告.docx
- 无人机驾驶员初级植保理论考试复习题库推荐.docx
- 2025年汽车工业用PU减震缓冲件项目可行性研究报告.docx
- 福建省福州市2025-2026学年高三三月质量检测(二模)物理试题(含答案).pdf VIP
- 内蒙古自治区通辽市科尔沁区2025年人教版小升初考试数学试卷(无答案).pdf VIP
- 爬梯防护笼安全要求.docx VIP
- 《膝关节半月板损伤》课件.ppt VIP
- 22G101与16G101钢筋平法图集对比变化汇总.docx VIP
- 【199页PPT】AIAG第三版APQP产品质量先期策划培训教程学员版.pptx VIP
- 新22J03 外装修图集 .docx VIP
原创力文档

文档评论(0)