SCC--利用分类技术改进的短摘要比较方法.pdfVIP

SCC--利用分类技术改进的短摘要比较方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
清华大学学报(自然科学版)2005年第45卷第s1期 17/39 —ISSN10—00-0054 CN 1806—1809 11—2223/NJ Univ(SciTech),2005,V01.45,No.S1 Tsinghua SCC一利用分类技术改进的短摘要比较方法 龚笔宏 (北京大学计算机科学技术系,北京100871) 摘要:搜索引擎返回结果的摘要的特点在于文档长度短, 的文档摘要,并根据一定的排序算法对文档进行排 大部分关键字最多只出现一次,因此传统文档比较方法所使 序。然而由于搜索引擎返回的相关文档太多,同时存 用的TF—IDF、夹角余弦等方法对摘要比较失去了作用。为在大量重复或相似文档,使得用户无法快速获得自 了改进传统文档比较方法,该文利用分类技术对短摘要信息 己真正需要的信息。于是出现了各种各样的信息检 进行扩充,以改进摘要比较。将两个摘要分别与参照物进行 索(informationretrieval)改进技术以满足用户多元 比较,在较大的一个文档集合中找到与摘要相近的文档集 化的需求。例如:对返回结果进行聚类[I],即对搜索 合。用这些文档集合扩充短摘要的含义,以替代短摘要来衡 引擎返回的摘要进行聚类处理,以类别形式返回给 量摘要相似度。实验结果表明,使用改进后的摘要比较算法, 用户;或利用用户反馈技术,由用户对检索出的文 相关集合的DCG指标有了明显改进。 档进行相关性的判定,系统根据这些判定生成新的 关键词:信息检索;文档比较;摘要;用户反馈 查询,从而提高最终结果的准确率口]。这些技术都需 中图分类号:TP391 文献标识码:A 要处理一个问题,就是如何比较两个摘要的相似度。 文章编号:1000—0054(2005)$1—1806—04 摘要是搜索引擎在检索得到用户查询相关文档 集之后对每个相关文档提取的一个小段落,并作为 to SCC:Anapproachimprovesni‘ppets文档代表返回给用户。这样的小段落,长度不超过 comparisonbyclassification255个字节,通常由若干句子片段构成。将摘要映射 GONG Bihong 到文档向量空间上,每个词频一般不超过1。在这种 ofScienceand 情况下,传统的TF—IDF计算已经失去了意义。在向 (Department Technology,PekingUniversity, 100871,China) Beijing 量空间模型中比较2个文档的经典方法中,计算文 is a inwhichmost Abstract:A shortdocument keywords snippet 档向量夹角的公式为 occur makesconventionaldocument

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档