文本处理Text Summarization.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本处理— Text Summarization 自动摘要技术 所谓自动摘要,就是利用计算机自动地从原始文献中提取文摘。 文摘被认为是准确全面地反映某一文献中心内容的简洁且连贯的短文。 当今社会,信息成为人们生活中不可缺少的部分,文献数量成指数增长。为了合理地使用这些信息,必须对信息的筛选和浓缩等问题进行认真地研究。 摘要和信息检索 检索结果 直接用于检索。 关键词查询 … 自动摘要技术 它可以帮助读者初步了解有关文本的内容,快速地掌握信息,准确地找到自己需要的资料。 目前,大多数自动摘要方面的研究工作都是努力从文本中抽取出重要的文本片段,这些自动摘要算法大致可以分为三大类: 领域相关方法 领域无关方法 相互结合的方法 自动摘要技术 领域相关的方法。 这是基于知识理解的算法 为了获得较为准确的摘要,必须利用语义领域的先验知识和文本结构信息(如天气预报、财经、医疗信息等)。 这类方法准确度高,但是应用范围受到领域限制。这类算法的自动摘要算法为了从文档中识别出重要的信息,采用了信息抽取技术。 这方面的研究工作还包括从特定的数据库中生成报告和事件摘要的技术 自动摘要技术 领域无关的方法。 基于统计的算法,采用统计的方法,如向量空间索引模型,同时利用语言学技术,如词汇相关性,来识别文档中的重要段落或语句。这类算法与领域无关,但是精度低。 大多数领域无关的方法在采用统计技术的同时,还采用了健壮的浅层语言技术,来抽取重要的文档片段。所采用的统计技术与信息抽取中所采用的相似,如向量空间模型、项频率和反文档频率TF/IDF,所采用的语言技术从词汇相关度技术到健壮的首语重复解决策略。 自动摘要技术 前两者方法相互融合得到的方法。 现有的各种自动摘要方法主要包括以下四种: 自动摘录 基于理解的自动摘要 信息抽取 基于结构的自动摘要。 自动摘录 自动摘录的步骤和依据 基本思想是将文本视为句子的线性序列,将句子视为词项的线性序列,评估语句的权重,选取权重较高的若干语句作为摘要语句,并将这些语句按照它们在原文中出现的顺序输出。 它通常分四步进行: 计算词的权值; 计算句子的权值; 对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句; 将所有文摘句按照它们在原文中的出现顺序输出。 自动摘录 在自动摘录中,计算词权、句权、选择文摘句的依据是文本的六种形式特征: 词频 词频是指句子中有效词的个数。根据词频可以计算句子的权值。文献的主要内容可用该文献中含有最重要情报的句子的集合来表达,最重要句子是含有该文献重要词汇的集合的句子,而该文献中经常使用的频率最高的实意词是重要词汇,但应剔除那些频率很高而无效的实意词。 标题 标题是作者给出的提示文章内容的短语,借助停用词词表,在标题或小标题中剔除功能词或只具有一般意义的名词,剩下的词和原文内容往往有紧密的联系,可以作为有效词。 位置 统计结果显示:段落的论题是段落首句的概率为85%,是段落末句的概率为7%。因此,有必要提高处于特殊位置的句子的权值。 自动摘录 句法结构 句式与句子的重要性之间存在着某种联系,比如文摘中的句子大多是陈述句,而疑问句、感叹句等则不宜进入文摘。 线索词 文摘系统中有一个预先编制的线索词词典,词典中的线索词共分三种:取正值的褒义词,取负值的贬义词,取零值的无效词。句子的权值就等于句中每个线索词的权值之和。 指示性短语 1977年,英国Lancaster大学的Paice提出根据各种“指示性短语”来选择文摘句的方法。和线索词相比,指示性短语的可靠性要强。 目前多是多种方法综合使用。 自动摘录 问题在于: 不全面 对于多主题的文献,用自动摘录方法生成的文摘有时仅包含了原文着重谈论的某个主题,而对于其它方面的内容却只字不提,从而影响了文摘的全面性。这是由于自动摘录缺乏对文本结构的分析而造成的。 不简洁 作者常常在文章中的不同位置用不同形式的句子重复文章的中心内容,以便起到强调的作用。这些句子都是关键句,很容易同时进入文摘,从而造成文摘内容的冗余。 不连贯 抽取文章中的若干原句组成的摘要往往缺乏连贯性,当把文章中不同位置上出现的若干关键句连缀成一个段落时,这些关键句因脱离了上下文而难以准确地理解。同时,句子之间由于缺乏逻辑次序而显得杂乱无章,无法在整个段落中构成平滑的概念流。用户在阅读这样的段落时需要进行猜测和推理,不但加重了负担,有时还可能得出与原文不符的观点。 基于理解的自动摘要 基于理解的文摘方法是以人工智能,特别是自然语言理解技术为基础而发展起来的文摘方法。 这种方法与自动摘录的明显区别在于对知识的利用,它不仅利用语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。 基于理解的自动摘要 基本步骤 语法分析

文档评论(0)

you-you + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档