面向林业新闻的文本自动摘要方法研究与系统实现.pdf

面向林业新闻的文本自动摘要方法研究与系统实现.pdf

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘要 网络时代的到来,带来了海量资源,也带来了信息过载的困扰。文本自动摘要 技术已成为解决这一难题的重要方法,但面向林业新闻的自动摘要研究甚少。传统 的TextRank 自动摘要算法以词项间的共现关系为基准计算语句相似度,忽略了不同 词相似义的情况。为弥补这种方法缺陷与行业应用空缺,提出面向林业新闻的基于 TextRank+Word2vec 的文本自动摘要方法,帮助林业工作者及爱好者快速捕获林业 新闻关键信息,旨在节省大量的时间与精力。 本文研究内容如下: (1)爬取林业新闻数据并完成林业词向量的训练,获取林业行业词汇之间的语 义关系。基于林业词向量改进TextRank 算法中语句相似度计算方法。 (2 )结合中文写作习惯调整特殊位置语句权重,运用TextRank 方法获取得分 较高的语句作为摘要候选群。对摘要句长度进行过滤限制,得到摘要结果。 (3 )为验证所提方法的可行性,设计若干组实验,以林业新闻测试集获取摘要, 运用ROUGE 评价方法及人工评测对摘要结果进行评测。结果表明,所提方法较传 统的TextRank 算法ROUGE-1 值、ROUGE-2 值、ROUGE-L 值分别约有5%、3%、 3% 的提升,证明面向林业新闻生成摘要时,基于TextRank+Word2vec 方法可行。 (4 )以所论述的方法为理论基础,设计并实现面向林业新闻的文本自动摘要系 统。 本文基于TextRank+Word2vec 面向林业新闻自动摘要方法的研究与实现,不仅 是解决林业领域信息过载的一种尝试,更是林业行业研究与自然语言处理研究相结 合的一种突破,将为以后实际应用提供理论支撑与技术支持。 关键词:文本自动摘要,林业新闻,TextRank ,Word2vec ,语句相似度 1 目录 目录 摘要I ABSTRACT II 1 绪论 1 1.1 研究目的与意义 1 1.2 国内外研究现状2 1.2.1 自动文摘研究现状2 1.2.2 TextRank 算法研究现状 5 1.2.3 林业新闻文本特点研究现状 6 1.2.4 林业词向量研究现状 6 1.2.5 目前研究存在的问题7 1.3 研究内容与技术路线 8 1.3.1 技术路线 8 1.3.2 研究内容 9 1.4 论文组织结构 10 2 相关技术与方法 11 2.1 PageRank 算法 11 2.1.1 PageRank 算法来源 11 2.1.2 PageRank 算法表示 11 2.2 TextRank 算法 12 2.2.1 TextRank 算法来源 12 2.2.2 TextRank 算法表示 13 2.3 语句相似度计算方法 14 2.3.1 BM25 方法 14 2.3.2 同义词语义树方法 15 2.3.3 Word2vec 方法 16 2.4 词向量介绍 16 2.5 摘要评价方法介绍 18 2.5.1 Edmundson 评价方法 18 2.5.2 ROUGE 评价方法 19 2.6 本章小结20 3 基于TextRank 和Word2vec 的摘要提取设计21 IV

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档