- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于文本相似度自动文摘评价方法
基于文本相似度自动文摘评价方法
摘要:讨论了现有的自动文摘评价方法,并具体分析了内部评价方法的缺陷,由此提出了基于文本相似度的自动文摘评价方法。同时,通过基于VSM(支持向量机)相似度和基于语义相似度两种相似度方法来比较评价方法的性能。实验表明,基于相似度的方法实现简单、效果良好,是一种更接近自然模型的评价方法。??
关键词:自动文摘; 评价方法; 相似度; 向量空间模型
中图分类号:TP391文献标志码:A
文章编号:1001-3695(2007)08-0097-03
随着科技的进步和Internet的发展,自动文摘以其简洁精练的特点越来越受到人们的重视。在最近二十年中,国内外已有很多效果不错的自动文摘系统,其运用领域也是多种多样的。然而,对于如何更有效地评估系统的性能却没有得到充分的关注,现在还没有一种让大家普遍公认的客观评价方法。这也在一定程度上制约了自动文摘的发展。
国内外一些会议曾对当前的自动文摘系统进行了综合评测。例如国外的文本理解会议中()就采用外部评价方法来评测各个科研机构研究的自动文摘系统;我国2004年度汉语自动文摘评测是完全采用人工打分方式。??
1传统的评价方法与问题??
1.1 传统评价方法??
目前,自动文摘的评价方法大致分为两类[1]:a)内部评价(intrinsic)方法,通过直接分析摘要的质量来评价文摘系统,主要采用准确率、召回率等性能指标;b)外部评价(extrinsic)方法,一种间接的方法,通过测试文摘系统完成某一特殊任务的效果来评价文摘系统。
两种评价方法都有其优势和劣势,这也是导致自动文摘没有一个客观公认方法的主要原因。外部评价方法需要具体设计任务的方式和评价,往往很耗时间和人力,而且每次评价只针对一个特定任务,局限性太大,只适用于大规模地对多个文摘系统进行综合评价。内部评价方法则需要与理想文摘进行比较,而理想文摘的获取较难,一般都请几位专家给定,但专家往往很难达成一致的意见。这种方法的主观性太强,但其方法简单、容易实现,适用于研究者对自己的文摘系统进行评价。??
由于外部评价方法主要是针对大规模文摘系统的评价,不适合于研究者们对文摘方法的改进。本文就主要针对内部评价进行讨论。??
1.2内部评价的缺陷??
内部评价方法[2]是按信息的覆盖面和正确率来评价文摘质量的,通常采用与理想文摘相比较的方法。这种评价方法源于信息抽取技术。它将机器摘要与理想文摘在召回率(recall)、准确率(precision)等几个指标上进行比较,这种评价方法简称为P/R方法。召回率和准确率的计算公式[3,4]如下:??
现在所采用的理想文摘一般都是由专家对原文进行抽取得到的。为了避免一个专家抽取摘要时过多地引入个人观点,通常是请多个专家为同一篇文章进行手工摘要,然后对他们所得到的摘要句子集合进行交集运算,或是取大多数意见构成理想文摘句子集合。然而,专家的一致性意见是很低的[5,6]。这主要有两个原因:当两个句子大约等价时,专家很可能随机选择其中一个进入摘要句;专家对文章主要内容意见不一致,则选择的摘要句也不相同。这就导致了这种摘要方式具有很强的主观性和随机性,其细微差别都将对后面的评价产生巨大影响。??
b)P/R的缺陷。
从准确率和召回率公式中可以发现,它采用的是布尔值来判断一个句子。也就是说,机器摘要与理想文摘的句子是同一句话就为真;否则为假。下面通过一个简单的实例来具体说明P/R方法存在的问题。??
取一篇题为“关于学习科技知识”的短小议论文作为实例,它共有10个句子。本文按压缩比为20%提取摘要句子,其理想文摘和机器摘要获取的句子如下:??
理想文摘:“②当今时代,科技进步对一个国家经济社会的发展越来越具有决定性的作用。③我们必须坚定不移地实施科教兴国战略,真正把加速科技进步放在经济社会发展的关键地位,尽快形成自己的科技创新体系,着力促进科技成果切实转化为现实生产力。”??
机器摘要(系统1):“②当今时代,科技进步对一个国家经济社会的发展越来越具有决定性的作用。⑤我们学习科技知识,首先是要通过这种学习把握世界发展的大势,加强做好工作的紧迫感和责任感。”??
机器摘要(系统2):“①科学技术是第一生产力。②当今时代,科技进步对一个国家经济社会的发展越来越具有决定性的作用。”??
机器摘要(系统3):“⑤我们学习科技知识,首先是要通过这种学习把握世界发展的大势,加强做好工作的紧迫感和责任感。⑦对于一切代表未来经济发展和科技进步方向的事物,我们都要及时地加以把握。”??
上面的摘要句子选择,可以通过表1来更清楚地表达。??
您可能关注的文档
最近下载
- CJJT258-2017 住宅专项维修资金管理信息系统技术规范.docx VIP
- 电缆管施工方案.docx
- 凿岩台车、潜孔钻司机岗位安全生产责任制.doc VIP
- 地理丨广东省广州市2022届高三上学期12月调研测试地理试卷及答案.doc VIP
- JMP入门与提高学习资料.pptx VIP
- CJJT257-2017 住宅专项维修资金管理基础信息数据标准.docx VIP
- 概率论与数理统计教程(华东师范大学).docx VIP
- 分离工程绪论培训课件.ppt VIP
- 阅读理解之七选五五种考法(讲案)解析版-2024年高考英语一轮复习知识清单(全国通用).pdf VIP
- 大厦写字楼招商部流程管理手册.doc VIP
文档评论(0)