基于进化模糊规则的Web新闻自动摘要相关技术研究.pdfVIP

下载本文档

3
0
约6.97万字
约 57页
2021-01-07 发布于江苏
举报

基于进化模糊规则的Web新闻自动摘要相关技术研究.pdf

摘要摘要如今大数据时代的每一天都会产生大量的数据，当今人们感觉最为强烈的就是社会媒体数据的爆炸增长，比如我们日常涉及的 Web 新闻、微信、微博及各种类型的行业数据，数据量之大几乎超出现有的存储、处理及分析工具的能力。而其中 Web 新闻更是已成为人们瞬息万变的时事与获取最新资讯的最佳媒介之一，面对这些海量新闻，人们很难利用在线阅读各类信息来获取自身所需的内容，尤其是对那些资讯信息有着较大需求的个体与公司。近些年，有关自动摘要层面的研究，开始成为民众关注的热点，这不仅有助于消除因特网有关信息过载问题，还能对用户所获取的信息进行精简，另外，还能结合用户所需快速获得相应的内容，显著提升他们的越多效率。在本次研究以新闻文本为对象，分析其自动摘要技术，在对前人研究成果基础之上，着力解决 WEB 中新闻内容的辨识与提取，重点内容涉及到：对新闻文本特征进行分析和提取，分配相应的权重，以及在自动摘要中对模糊逻辑系统的应用。本次研究主要内容以及期望的成果主要为：第一，对新闻文本结构、语义等领域的特征进行深入分析，对其摘要要素组成进行明确，提出了相应的自动摘要技术框架，并对其中所涉及到关键技术进行了重点论述。第二，深入剖析以 WEB 为基础的新闻内容自动摘要技术，提出以 DOM 树作为基础的针对这类内容的提取与辨识之法，然后对其特殊结构特点，论述了这种文本的特征项提取以及相关算法，对其重要性进行判断，最后提出以这类文本摘要的新词汇与句子特征。第三，对特征项的权重计算方法进行优化，并且将模糊逻辑规则应用于摘要句的选择中，学者Zadeh 是当前模糊逻辑的创始人，它所提出的相关理论对模糊逻辑思维功能进行了模拟，同时亦是对模糊性、系统不确定性等相关事物进行处理的重要工具。本次将遗传算法与模糊逻辑规则进行融合，提高了新闻摘要的生成质量。第四，将生成的摘要内容进行修饰与润色，就借助于本次所提出的相应算法对其进行实验分析，得出它在提取文本摘要方面有着较佳效果，可以基本上满足当前应用所需。 I 摘要关键词：Web 新闻；自动摘要；特征提取；摘要评价；空间向量模型；遗传算法；模糊逻辑论文类型：应用基础研究选题来源：国家自然科学基金项目 No II 目录目录第1 章绪论 7 1.1 研究背景与意义 7 1.2 国内外研究现状 8 1.2.1 国外研究现状 8 1.2.2 国内研究现状 9 1.2.3 自动摘要方法 10 1.3 本文研究内容与论文结构 11 1.3.1 本文研究内容 11 1.3.2 论文组织结构 12 第2 章新闻文本的特征分析及其自动摘要框架 13 2.1 新闻文本特征分析 13 2.2 新闻文本摘要的技术框架 16 2.3 新闻文本自动摘要的关键技术 17 2.4 小结 19 第3 章 Web 新闻内容的识别提取 21 3.1 Web 新闻内容的识别 22 3.2 Web 新闻内容的提取 23 3.2.1 回溯法的具体步骤 23 3.2.2 新闻文本的提取 23 3.3 小结 25 第4 章新闻文本关键特征提取 27 4.1 概述 27 4.2 新闻文本的特征表示 28 4.3 特征项的重要性判定算法 30 4.3.1 词的重要性判断 31 4.3.2 句子重要性判定 33 4.4

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于进化模糊规则的Web新闻自动摘要相关技术研究.pdfVIP