信息检索课件–精简版–自动文摘.ppt

下载文档

3
0
约2.02千字
约 18页
2017-05-13 发布于北京
举报
版权申诉
保障服务

信息检索课件–精简版–自动文摘.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

信息检索课件–精简版–自动文摘

文摘的定义中华人民共和国国家标准《文摘编写规则》(GB 6447 - 86) “以提供文献内容梗概为目的,不加评论和补充解释、简明、确切地记述文献重要内容的短文。” 美国国家标准学会(ANSI)《文摘编写标准》 “某一文献内容的简要而准确的表达,不加解释和评论,也不区分这篇文献是由谁写的。” 国际标准《文献工作——出版物的文摘和文献工作》( ISO 214 - 1976 ( E) ) “一份文献内容的缩短的精确的表达而无须补充解释或评论,且对写文摘的人来说没有差别。” 文摘的特点简洁性文摘比所摘的文献短长度为原文献的5 %～10 %的文摘就能基本上反映文献的主要内容; 当文摘的长度达到原文献的10 %～25 %时,很多文章的写作风格就可以在文摘中体现出来了。准确性无论长短,文摘必须准确无误地报道原文献的基本内容不能主观改变原文观点科技文献的文摘应确保正确引用原文中的各项数据。清晰性必须使用一种易读的文体把文献内容清晰地表示出来最好用完整的句子编写文摘尽可能使用著者自己使用的词语。文摘的功能促进新资料的快速通报节省阅读时间有助于克服语言障碍有利于文献检索 …… 1:按文摘面向的用户划分通用文摘偏重文摘通用文摘和偏重文摘的区别在于是否考虑了用户的兴趣。通用型文摘就是面向所有用户的、文摘内容不带有任何侧重的、全面反映原文内容的文摘。对于一篇长的文章,如果用户只关心某一方面(例如工业) ,这就涉及到了偏重问题。 1:按文摘面向的用户划分偏重文摘也称为用户聚焦文摘、主题聚焦文摘或查询聚焦文摘。根据需要或者用户的兴趣提供相应的有侧重点的文摘。偏重文摘的结果不仅仅决定于原文的主题也决定于用户的个性化要求它能够把焦点放在用户关心的部分而不是把原文的每个部分平等对待 2:按文摘处理的文本对象划分单文档文摘多文档文摘单文档文摘处理的文本对象是单篇文摘它对每篇文章独立的生成文摘。处理文档集合时会有什么问题？ 2:按文摘处理的文本对象划分处理文档集合时会有什么问题？内容重复多文档文摘就是从一个文档集中去除冗余考虑文档相互的关联性及各自的差异产生一个浓缩的信息集。 2:按文摘处理的文本对象划分多文档文摘实际上是对单文档文摘的一个扩展它与单文档相比较需要一些新的技术和方法来处理它主要考虑以下几个方面的问题需要一个高效地去除冗余的方法。系列文档可能包含时间及空间的变化。文摘结果压缩比很大,通常1 %～10 % ,而单文档可以在30 %左右。发生在不同文档中的事件及实体,它们的关联、融合处理是一个难题。基于统计的自动文摘基于统计的自动文摘将文本视为句子的线性序列将句子视为词的线性序列它通常分4 步进行: 计算词的权值计算句子的权值对原文中的所有句子按权值高低降序排列，权值最高的若干句子被确定为文摘句将所有文摘句按照它们在原文中的出现顺序输出权重计算依据词频标题位置句法结构特殊词 …… 基于统计的自动文摘的优点基于统计的自动文摘所依据的是文本形式上的规律总的来说，任何一篇文章都不同程度地符合这些规律因此基于统计的自动文摘能够适用于非受限领域这是它突出的优点基于统计的自动文摘的不足然而，一篇文章常常在某些形式特征上符合常规而在另一些形式特征上违反常规摘录的结果能否抓住原文的中心内容要看文章在多大程度上符合常规因此，基于统计的自动文摘的质量很不稳定。基于统计的自动文摘的不足当加权函数调整时又总是顾此失彼对这一类文章的效果好了对另一类文章的效果又差了基于统计的自动文摘的不足不全面对于多主题的文献不简洁重复文章的中心内容不连贯省略、指代、逻辑次序基本步骤语法分析借助词典中的语言学知识对原文中的句子进行语法分析，获得语法结构语义分析运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基础的语义表示。语用分析和信息提取根据知识库中预先存放的领域知识在上下文中进行推理，并将提取出来的关键内容存入一张信息表。文本生成将信息表中的内容转换为一段完整连贯的文字输出。语法语义分析技术不成熟面向大规模真实语料的语法语义分析技术尚未完全成熟因此如果想获得高质量的语言分析结果，就必须将待处理的语料限制在某个范围之内。知识表示难以移植理解文摘方法的基础是框架等知识表示框架需要根据领域知识预先拟定因此如果想把适用于某个领域的理解文摘系统推广到另一领域，则需重新拟定框架这种填充和组织领域知识的沉重负担使理解文摘难以移植理解文摘的不足理解文摘的不足在于领域严格受限造成领域受限的原因在于: 语法语义分析技术不成熟知识