基于进化模糊规则的Web新闻自动摘要相关技术研究.pdfVIP

  • 3
  • 0
  • 约6.97万字
  • 约 57页
  • 2021-01-07 发布于江苏
  • 举报

基于进化模糊规则的Web新闻自动摘要相关技术研究.pdf

摘要 摘 要 如今大数据时代的每一天都会产生大量的数据,当今人们感觉最为强烈的就 是社会媒体数据的爆炸增长,比如我们日常涉及的 Web 新闻、微信、微博及各 种类型的行业数据,数据量之大几乎超出现有的存储、处理及分析工具的能力。 而其中 Web 新闻更是已成为人们瞬息万变的时事与获取最新资讯的最佳媒介之 一,面对这些海量新闻,人们很难利用在线阅读各类信息来获取自身所需的内容, 尤其是对那些资讯信息有着较大需求的个体与公司。近些年,有关自动摘要层面 的研究,开始成为民众关注的热点,这不仅有助于消除因特网有关信息过载问题, 还能对用户所获取的信息进行精简,另外,还能结合用户所需快速获得相应的内 容,显著提升他们的越多效率。 在本次研究以新闻文本为对象,分析其自动摘要技术,在对前人研究成果基 础之上,着力解决 WEB 中新闻内容的辨识与提取,重点内容涉及到:对新闻文 本特征进行分析和提取,分配相应的权重,以及在自动摘要中对模糊逻辑系统的 应用。 本次研究主要内容以及期望的成果主要为: 第一,对新闻文本结构、语义等领域的特征进行深入分析,对其摘要要素组 成进行明确,提出了相应的自动摘要技术框架,并对其中所涉及到关键技术进行 了重点论述。 第二,深入剖析以 WEB 为基础的新闻内容自动摘要技术,提出以 DOM 树 作为基础的针对这类内容的提取与辨识之法,然后对其特殊结构特点,论述了这 种文本的特征项提取以及相关算法,对其重要性进行判断,最后提出以这类文本 摘要的新词汇与句子特征。 第三,对特征项的权重计算方法进行优化,并且将模糊逻辑规则应用于摘要 句的选择中,学者Zadeh 是当前模糊逻辑的创始人,它所提出的相关理论对模糊 逻辑思维功能进行了模拟,同时亦是对模糊性、系统不确定性等相关事物进行处 理的重要工具。本次将遗传算法与模糊逻辑规则进行融合,提高了新闻摘要的生 成质量。 第四,将生成的摘要内容进行修饰与润色,就借助于本次所提出的相应算法 对其进行实验分析,得出它在提取文本摘要方面有着较佳效果,可以基本上满足 当前应用所需。 I 摘要 关 键 词:Web 新闻;自动摘要;特征提取;摘要评价;空间向量模型;遗传 算法;模糊逻辑 论文类型:应用基础研究 选题来源:国家自然科学基金项目 No II 目录 目 录 第1 章 绪论 7 1.1 研究背景与意义 7 1.2 国内外研究现状 8 1.2.1 国外研究现状 8 1.2.2 国内研究现状 9 1.2.3 自动摘要方法 10 1.3 本文研究内容与论文结构 11 1.3.1 本文研究内容 11 1.3.2 论文组织结构 12 第2 章 新闻文本的特征分析及其自动摘要框架 13 2.1 新闻文本特征分析 13 2.2 新闻文本摘要的技术框架 16 2.3 新闻文本自动摘要的关键技术 17 2.4 小结 19 第3 章 Web 新闻内容的识别提取 21 3.1 Web 新闻内容的识别 22 3.2 Web 新闻内容的提取 23 3.2.1 回溯法的具体步骤 23 3.2.2 新闻文本的提取 23 3.3 小结 25 第4 章 新闻文本关键特征提取 27 4.1 概述 27 4.2 新闻文本的特征表示 28 4.3 特征项的重要性判定算法 30 4.3.1 词的重要性判断 31 4.3.2 句子重要性判定 33 4.4

文档评论(0)

1亿VIP精品文档

相关文档