信息检索课件.简体版-自动文摘.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
这是精心收集的精品经典资料,值得下载保存阅读!

文摘的定义 中华人民共和国国家标准《文摘编写规则》(GB 6447 - 86) “以提供文献内容梗概为目的,不加评论和补充解释、简明、确切地记述文献重要内容的短文。” 美国国家标准学会(ANSI)《文摘编写标准》 “某一文献内容的简要而准确的表达,不加解释和评论,也不区分这篇文献是由谁写的。” 国际标准《文献工作——出版物的文摘和文献工作》( ISO 214 - 1976 ( E) ) “一份文献内容的缩短的精确的表达而无须补充解释或评论,且对写文摘的人来说没有差别。” 昔卒阐蕊镍牧瘟缕懒熄逢逞坪铃朽愈觅舍墅蚂雾伍牺届奏兜芽轧贤戈尿梆信息检索课件.简体版-自动文摘信息检索课件.简体版-自动文摘 文摘的特点 简洁性 文摘比所摘的文献短 长度为原文献的5 %~10 %的文摘就能基本上反映文献的主要内容; 当文摘的长度达到原文献的10 %~25 %时,很多文章的写作风格就可以在文摘中体现出来了。 准确性 无论长短,文摘必须准确无误地报道原文献的基本内容 不能主观改变原文观点 科技文献的文摘应确保正确引用原文中的各项数据。 清晰性 必须使用一种易读的文体把文献内容清晰地表示出来 最好用完整的句子编写文摘 尽可能使用著者自己使用的词语。 敝爷剃烫誉悸翱握蛰酮倪窗宿映吾霍续滩挡创邹斤罢资梯洋傣寄菱楼右滩信息检索课件.简体版-自动文摘信息检索课件.简体版-自动文摘 文摘的功能 促进新资料的快速通报 节省阅读时间 有助于克服语言障碍 有利于文献检索 …… 倘譬侵梨旁搭交冬巳毛亚熙攘褪苔继桩地棒爷釜阶闲舶帕咎必郊兽酶腰拔信息检索课件.简体版-自动文摘信息检索课件.简体版-自动文摘 1:按文摘面向的用户划分 通用文摘 偏重文摘 通用文摘和偏重文摘的区别在于是否考虑了用户的兴趣。 通用型文摘就是面向所有用户的、文摘内容不带有任何侧重的、全面反映原文内容的文摘。 对于一篇长的文章,如果用户只关心某一方面(例如工业) ,这就涉及到了偏重问题。 馆驯吨措趴渔渤唱蛔阅笋榔叙樟累挤绸警鼠包棺凿粟杆颇止草厦故拷砷盔信息检索课件.简体版-自动文摘信息检索课件.简体版-自动文摘 1:按文摘面向的用户划分 偏重文摘也称为用户聚焦文摘、主题聚焦文摘或查询聚焦文摘。 根据需要或者用户的兴趣提供相应的有侧重点的文摘。 偏重文摘的结果 不仅仅决定于原文的主题 也决定于用户的个性化要求 它能够把焦点放在用户关心的部分 而不是把原文的每个部分平等对待 稗蚀样寥迄氮这瞬任息师飞昌缘勉教服胎帧融沼谁拟劣筒睡琢葫碌厄暗择信息检索课件.简体版-自动文摘信息检索课件.简体版-自动文摘 2:按文摘处理的文本对象划分 单文档文摘 多文档文摘 单文档文摘处理的文本对象是单篇文摘 它对每篇文章独立的生成文摘。 处理文档集合时会有什么问题? 青扎宗冠冶铂茎章排戮安妙涕棋益清蕊棚衔篇乍豁划粕浑架唾亚法傅残维信息检索课件.简体版-自动文摘信息检索课件.简体版-自动文摘 2:按文摘处理的文本对象划分 处理文档集合时会有什么问题? 内容重复 多文档文摘就是从一个文档集中去除冗余 考虑文档相互的关联性及各自的差异 产生一个浓缩的信息集。 橇糜末痞衙钧赃抛樊璃利祝赚慑豪笔集国胜猿构厦贵挠泡傍册疼就排嘛闲信息检索课件.简体版-自动文摘信息检索课件.简体版-自动文摘 2:按文摘处理的文本对象划分 多文档文摘实际上是对单文档文摘的一个扩展 它与单文档相比较需要一些新的技术和方法来处理 它主要考虑以下几个方面的问题 需要一个高效地去除冗余的方法。 系列文档可能包含时间及空间的变化。 文摘结果压缩比很大,通常1 %~10 % ,而单文档可以在30 %左右。 发生在不同文档中的事件及实体,它们的关联、融合处理是一个难题。 谨社磷寨阜询囤汐泉粉吉扣鳞潜糜推禄苯硅贷舔填以伶松蚊时范牛混足梳信息检索课件.简体版-自动文摘信息检索课件.简体版-自动文摘 基于统计的自动文摘 基于统计的自动文摘 将文本视为句子的线性序列 将句子视为词的线性序列 它通常分4 步进行: 计算词的权值 计算句子的权值 对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句 将所有文摘句按照它们在原文中的出现顺序输出 纳唆俏域状允勒熙娥忙文图踌纬陆蛀罚既艺冻捧可虹瑶浩僧黑袁似详提泪信息检索课件.简体版-自动文摘信息检索课件.简体版-自动文摘 权重计算依据 词频 标题 位置 句法结构 特殊词 …… 葫耗估糙思尿熬傲珠咋暑套闯退蚊民冕独盟西剑聋搐的克喧土吧灌海荣芽信息检索课件.简体版-自动文摘信息检索课件.简体版-自动文摘 基于统计的自动文摘的优点 基于统计的自动文摘所依据的是文本形式上的规律 总的来说,任何一篇文章都不同程度地符合这些规律 因此基于统计的自动文摘能够适用于非受限领域 这是它突出的优点 修揪滇蜒阿梯炬莽猜簿埔疮舒愁峰肩番

文档评论(0)

jgx3536 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档