文本主题识别研究与应用.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本主题识别研究及应用 丁秉公¨黄昌宁2黄德根1 1丕堡矍兰丕堂丛蔓垫墨!盔整!!!!!!1 2(微软亚洲研究院,北京100080) E·mail:dbg_dlut@hotmail.tom 摘要: 文本的主题识别是TDT研究计划的核心任务之一.本文研究了文本主题识别的主要算 法,并分析了采用不同的文本特征包括unigram和NGram可以改善算法的性能.同时,针对现有 搜索流程的不足,提出了一个基于主题识别技术的应用模型.最后,在谊应用模型的基础上设 计并实现了一个原型系统. 关键词:主题识别;TDT;文本聚类;信息检索: 引言 随着Internet的发展,网络信息成几何级数增长。当用户使用搜索引擎检索信息的时候, 搜索引擎通常会返回成千上万的含有关键字的Web页面列表。在这种情况下,人们面临的问题不 是信息匮乏,而是由于信息爆炸而无法迅速定位有用的信息。用户为了找到他所感兴趣的Web 页面, 必须逐一浏览返回的网页。 这种搜索流程有两种缺点。首先.由于用户的检索词通常很短而且有歧义存在。所以在所 有被检索回来的页面中,用户可能只需要其中自己感兴趣的某一部分。其次,有研究表明…, 用户平均浏览不会超过10篇文档。所以,当相关的网页在列表中排名很低时,用户通常会忽略 这些网页。 针对这两个问题,有研究者提出利用聚类技术来帮助用户定位信息“’6‘9。”1。具体思想是在用 户检索返回的列表基础上,利用文本聚类技术识别出一些主题类簇(cluster),用户通过查看 类簇找到自己所需的页面。我们可以看出.识别网页所属类簇的实质就是要将网页按不同主题 分开。如当检索“tiger”时,有关“tiger(老虎)”的网页和“tigerwoods(著名高尔夫球手)” 的网页应该按不同主题显示出来。目前.主题识别是DAR队提出的主题识别与追踪(Topic Detectionand Tracking,TDT)的核心任务之一“1。国外研究者在主题识别任务上都做了很多 有益的尝试,提出了不同的算法,如K-Means““,层次聚类”1。单一扫描聚类“1等等。虽然目前 题,但他们与本文的区别在于:(1)我们的系统应用于Web页面,处理的对象具有领域无关性, 不再仅仅局限于新闻领域;(2)由于用户的检索需求是不可预知的,所以主题识别是实时和动 态的.无需进行预处理;(3)我们用自动生成的文本摘要作为对主题类簇的有益补充。 本文研究了基于质心的单一扫描聚类算法,用不同的文本特征表示改善了算法的性能,并 用实验加以证明。在此基础上,本文提出了一个主题识别的应用模型。在模型中.加入了文本 自动摘要模块.为人们快速获取相关信息提供了方便。最后,我们设计并实现了一个利用主题 识别帮助用户检索的原型系统。 本文组织如下:第一节介绍了主题识别技术,并提出了改进的基于质心的单一扫描聚类算 法。第二节介绍主题识别技术的实验及评测结果。第三节介绍了主题识别应用模型及原型系统。 第四节给出了本文结论和对下一步工作的展望。 此工作是作者在微软亚洲研究院实习期间完成. ·406· 1主题识别技术 主题识别从本质上来说是一个聚类问题“1。目前,常见的聚类算法一般可以分为两类:层 次式聚类”’”’;非层次式聚类”’。层次式聚类生成一个树状图,图中每个节点都是其父节点的一 个子类,节点下的所有文本都属于同一个类,树的叶子就是聚类的基本单元——文本。非层次 式聚类生成了聚类单元的一个切分。算法在数据集上定义一个优化函数,通过迭代求得该函数 的最优解,此时的切分为数据集的最佳切分。由于网页聚类是在线聚类,所以聚类算法必须有 较低的时间复杂度。在选择聚类算法时,我们没有考虑时间复杂度为n2的层次聚类算法。而是 采用了时间复杂度为n的基于质心的单一扫描聚类算法(Centroid-based singlepass Model)。 法中,常用来表征文本特征的向量空间模型(VectorSpace 1.1向量空间模型 向量空间模型(VectorSpaceModel)是常用的文本特征表示模型之一。在信息检索领域, 常用的文本特征表示模型有布尔

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档