中文信息学报基于主题语言模型的中文信息检索系统研究.pdf

中文信息学报基于主题语言模型的中文信息检索系统研究.pdf

中文信息学报基于主题语言模型的中文信息检索系统研究

中 文  信  息  学  报 第 19 卷 第 3 期   JOURNAL OF CHINESE INFORMATION PROCESSING Vol 19 No3 ( ) 文章编号 :1003 - 0077 2005 03 - 0014 - 07 基于主题语言模型的中文信息检索系统研究① 张俊林 ,孙  乐 , 孙玉芳 ( 中国科学院软件研究所 系统软件与中文信息中心 ,北京  100080) 摘要 :准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了 基于主题语言模型的信息检索系统 ,首先设计了“改进的两阶段 KMeans 聚类算法”来对文档集合进行聚类 , 通过引入Aspect Model 结合聚类结果可以得到基于主题的语言模型 。这个新的语言模型较深入地刻画了词汇 在不同主题下的分布规律以及文档所蕴含不同主题的分布规律 。将主题语言模型和文档本身的语言模型通 过线性插

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档