《中文文本信息处理》 第十五章 自动文摘.ppt

《中文文本信息处理》 第十五章 自动文摘.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本信息处理的原理与应用 自动文摘的方法 基于统计的自动文摘 基于理解的自动文摘 基于信息抽取的自动文摘 基于结构的自动文摘 中文文本信息处理的原理与应用 基于结构的自动文摘 基本思想: 篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之间存在着错综复杂的关系 篇章结构分析清楚了,文章的核心部分自然能够找到 语言学对于篇章结构的研究还很不够,可用的形式规则就更少了,这使得基于结构的自动文摘到目前为止还没有一套成熟的方法 中文文本信息处理的原理与应用 基于结构的自动文摘(续1) 常用的几种方法有: 关联网络 修辞结构 语用功能 中文文本信息处理的原理与应用 主要内容 关于自动文摘 自动文摘的方法 自动文摘的评测 自动文摘系统 中文文本信息处理的原理与应用 自动文摘的评测 广义的角度分为两类: 一类称作内部评价方法,它通过直接分析摘要的质量来评价文摘系统 另一类是外部评价方法,它是一种间接的评价方法,将自动文摘应用于某一个特殊的任务中,如自动问答、阅读理解等,根据摘要功能提高这项任务的效果来评价自动文摘系统的性能 中文文本信息处理的原理与应用 内部评价方法 “理想文摘”比较法 “提问一回答”评价方法 可接受性评价方法 将系统产生的“机器摘要”与“理想摘要”进行比较,根据两者的差距进行评价 认为好的摘要必须能够阐述原文中的关键要点。因此,该方法要求首先对文章进行分析,取出其中的要点,根据摘要中是否包含这些要点来进行评价 采用纯粹的主观性评价方法,评价结果为可接受或不可接受,以及摘要是否流畅、原文写作风格是否保留等 中文文本信息处理的原理与应用 内部评价方法(续1) 优点:内部评价方法比较有针对性,对系统的改进有较大的帮助,其评价过程也是对系统的一种深入研究学习过程。 缺点:在于该方法主观性太强,不利于大规模的对多个文摘系统进行客观评测。 中文文本信息处理的原理与应用 自动文摘的外部评价 根据一般性的摘要进行主题相关判定 利用文摘系统对每篇文章生成一篇一般性的摘要,评测者根据该摘要对原文章进行分类 以分类的准确度和花费的时间作为测评指标 根据具有偏重性的摘要进行主题相关判定 偏重性摘要就是系统对原文信息进行有偏向性的浓缩。 系统可以利用偏重性功能从原文中摘要出感性的内容(比如有关农业的内容)来满足他的特别需要 中文文本信息处理的原理与应用 自动文摘的外部评价(续1) 优点:外部评价方法具有较少的主观性,易于对多个文摘系统进行评价,也有助于自动文摘在其他领域中的应用研究。 缺点:每次测评只是针对一个特定任务,有一定的局限性,不利于系统性能的全面改进;由于情报处理中有各种各样的任务,因此评测方法也相应的种类繁多,难以实现标准化。 中文文本信息处理的原理与应用 DUC介绍 DUC(Document Understanding Conference):国际上比较权威的关于自动文摘的评测会议 在DUC2004中,对自动文摘规定了五项评测任务: 非常短的单文档文摘 关于TDT事件的较短多文档文摘 非常短的多语言单文档文摘 关于TDT事件的多语言较短多文档文摘 基于问题的较短文摘 中文文本信息处理的原理与应用 863智能评测 04年的评测大纲中指出:根据评价者的主观感觉来对文摘进行评分。评价标准由主题的反映度和文字的流畅度综合评价 主题的反映度文摘内容真实反映原文主题的程度,包括文摘内容是否与原文相符 (不能歪曲原文)、概括是否全面 (不能遗漏原文的主要内容)、是否体现原文篇章结构等 文字的流畅度文摘在文字上的流畅程度,包括句子是否通顺、句子间意义是否连贯,句子间是否有关联词连接、逻辑结构是否合理等 中文文本信息处理的原理与应用 主要内容 关于自动文摘 自动文摘的方法 自动文摘的评测 自动文摘系统 中文文本信息处理的原理与应用 自动文摘系统举例 哈工大中文多文档自动文摘系统 摘自:/product_08.html 中文文本信息处理的原理与应用 自动文摘系统举例(续1) 哈工大中文多文档自动文摘系统框图 中文文本信息处理的原理与应用 自动文摘系统举例(续2) 该系统技术特点如下: 系统采用了多特征融合的句子相似度计算方法。句子相似度计算是多文档文摘的基础。 系统采用了根据阈值自动确定多文档集合子主题的方法。在句子相似度计算的基础上,将相似的句子合并为一个类,每类代表一个子主题。 系统采用了句子的优化选择技术。为了保证文摘在有限的空间要求下,尽可能覆盖重要全面的信息,将文摘句的抽取过程分解为子主题的排序以及子主题内的句子的优化选择两个阶段。最后以信息覆盖率为优化目标,对子主题内句子优化选择。 中文文本信息处理的原理与应用 Thanks 第十五章 自动文摘

您可能关注的文档

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档