- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索课件–精简版–自动文摘
文摘的定义 中华人民共和国国家标准《文摘编写规则》(GB 6447 - 86) “以提供文献内容梗概为目的,不加评论和补充解释、简明、确切地记述文献重要内容的短文。” 美国国家标准学会(ANSI)《文摘编写标准》 “某一文献内容的简要而准确的表达,不加解释和评论,也不区分这篇文献是由谁写的。” 国际标准《文献工作——出版物的文摘和文献工作》( ISO 214 - 1976 ( E) ) “一份文献内容的缩短的精确的表达而无须补充解释或评论,且对写文摘的人来说没有差别。” 文摘的特点 简洁性 文摘比所摘的文献短 长度为原文献的5 %~10 %的文摘就能基本上反映文献的主要内容; 当文摘的长度达到原文献的10 %~25 %时,很多文章的写作风格就可以在文摘中体现出来了。 准确性 无论长短,文摘必须准确无误地报道原文献的基本内容 不能主观改变原文观点 科技文献的文摘应确保正确引用原文中的各项数据。 清晰性 必须使用一种易读的文体把文献内容清晰地表示出来 最好用完整的句子编写文摘 尽可能使用著者自己使用的词语。 文摘的功能 促进新资料的快速通报 节省阅读时间 有助于克服语言障碍 有利于文献检索 …… 1:按文摘面向的用户划分 通用文摘 偏重文摘 通用文摘和偏重文摘的区别在于是否考虑了用户的兴趣。 通用型文摘就是面向所有用户的、文摘内容不带有任何侧重的、全面反映原文内容的文摘。 对于一篇长的文章,如果用户只关心某一方面(例如工业) ,这就涉及到了偏重问题。 1:按文摘面向的用户划分 偏重文摘也称为用户聚焦文摘、主题聚焦文摘或查询聚焦文摘。 根据需要或者用户的兴趣提供相应的有侧重点的文摘。 偏重文摘的结果 不仅仅决定于原文的主题 也决定于用户的个性化要求 它能够把焦点放在用户关心的部分 而不是把原文的每个部分平等对待 2:按文摘处理的文本对象划分 单文档文摘 多文档文摘 单文档文摘处理的文本对象是单篇文摘 它对每篇文章独立的生成文摘。 处理文档集合时会有什么问题? 2:按文摘处理的文本对象划分 处理文档集合时会有什么问题? 内容重复 多文档文摘就是从一个文档集中去除冗余 考虑文档相互的关联性及各自的差异 产生一个浓缩的信息集。 2:按文摘处理的文本对象划分 多文档文摘实际上是对单文档文摘的一个扩展 它与单文档相比较需要一些新的技术和方法来处理 它主要考虑以下几个方面的问题 需要一个高效地去除冗余的方法。 系列文档可能包含时间及空间的变化。 文摘结果压缩比很大,通常1 %~10 % ,而单文档可以在30 %左右。 发生在不同文档中的事件及实体,它们的关联、融合处理是一个难题。 基于统计的自动文摘 基于统计的自动文摘 将文本视为句子的线性序列 将句子视为词的线性序列 它通常分4 步进行: 计算词的权值 计算句子的权值 对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句 将所有文摘句按照它们在原文中的出现顺序输出 权重计算依据 词频 标题 位置 句法结构 特殊词 …… 基于统计的自动文摘的优点 基于统计的自动文摘所依据的是文本形式上的规律 总的来说,任何一篇文章都不同程度地符合这些规律 因此基于统计的自动文摘能够适用于非受限领域 这是它突出的优点 基于统计的自动文摘的不足 然而,一篇文章常常 在某些形式特征上符合常规 而在另一些形式特征上违反常规 摘录的结果能否抓住原文的中心内容要看文章在多大程度上符合常规 因此,基于统计的自动文摘的质量很不稳定。 基于统计的自动文摘的不足 当加权函数调整时又总是顾此失彼 对这一类文章的效果好了 对另一类文章的效果又差了 基于统计的自动文摘的不足 不全面 对于多主题的文献 不简洁 重复文章的中心内容 不连贯 省略、指代、逻辑次序 基本步骤 语法分析 借助词典中的语言学知识对原文中的句子进行语法分析,获得语法结构 语义分析 运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基础的语义表示。 语用分析和信息提取 根据知识库中预先存放的领域知识在上下文中进行推理,并将提取出来的关键内容存入一张信息表。 文本生成 将信息表中的内容转换为一段完整连贯的文字输出。 语法语义分析技术不成熟 面向大规模真实语料的语法语义分析技术尚未完全成熟 因此如果想获得高质量的语言分析结果,就必须将待处理的语料限制在某个范围之内。 知识表示难以移植 理解文摘方法的基础是框架等知识表示 框架需要根据领域知识预先拟定 因此如果想把适用于某个领域的理解文摘系统推广到另一领域,则需重新拟定框架 这种填充和组织领域知识的沉重负担使理解文摘难以移植 理解文摘的不足 理解文摘的不足在于领域严格受限 造成领域受限的原因在于: 语法语义分析技术不成熟 知识
文档评论(0)