- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
硕L论文
硕L论文 基于粗糙集理论臼
摘 要
随着社会的发展,互联网已成为信息传播和获取的重要平台,为我们进行信息交流 提供了极大的便利。与此同时,互联网也成为发布虚假信息、滥发商业广告、随意侮辱 他人、滥用信息技术、进行网络欺诈等犯罪行为滋生的载体,因此web信息过滤成为当 前网络安全领域匾待解决的问题之一。考虑到web信息具有页面级数大、信息隐蔽等特 点,本文采用粗糙集相关知识来解决web信息过滤的问题。
按照信息过滤的流程,web信息过滤包括信息采集、构建用户需求模板、属性约简、 规则提取、信息过滤以及主动学习等过程,本文对构建用户需求模板、属性约简及规则 提取三个部分进行了重点研究。在样本选择过程中,传统的约简算法采用的样本实例数 和维数通常较低,缺乏真实性,因此本文利用网络爬虫从互联网采集真实的页面作为算 法的样本。
在构造用户需求模板阶段,本文首先提出模糊分词思想并与过去的扫描分词法结合 形成二次分词,从而更好地挖掘隐蔽的非法信息;其次为了缓解二次分词的较大系统压 力,本文给出主从式分词系统,利用map/reduce思想将分词任务分解到多个子结点同时
处理;最后整理TXT词汇文本构造向量空间模型。在属性约简阶段,针对样本信息量
大且不同类别样本间特征离散严重等特点,本文提出了一种同属性约简算法;该算法构 造特征矩阵,利用重叠率有效地达到降维目的。在规则提取阶段,分析前人算法并结合 同属性约简算法得到的约简结果特点本文提出同值约简算法,该算法去除决策表中冗余 属性值,并且去除其中的重复和蕴含关系得到最终的过滤规则。
对于规则匹配,本文深化扩展传统的布尔逻辑模型true/false表达,引入二进制位运 算思想,大大提高了匹配效率同时又不会丢失关键特征(即标记为l的二进制位)。最 后本文将上述流程封装成过滤层嵌入到开源框架carrot2中,新增过滤功能完善其原来 单纯的搜索功能。另外由于过滤规则库较大,本文提出对二进制规则串切割并建立索引, 提高了查找和匹配的效率。
关键词:信息过滤,模糊分词,同属性约简,粗糙集,特征矩阵
硕L论文
硕L论文 基于粗糙集理论的web信息过滤技术研究
Abstract
Along wim the development of society,the Internet has become all important platform of information dissemination and acquisition,which makes people’S communication easy. However,at the sanle time,the Internet also becomes the carrier of executing crime behavior,
such as issuing the false information,listing massively commercial advertisement,insulting
other people,abusing information technology,conducting network cheat and SO on.Therefore the web information filtering becomes one of the key techniques that should be solved in
network information security area.Characteristic of the web information is big and concealed,
SO this paper uses Rough Set theory to solve the problem of web information filtering. According to the information filtering flow,web information filtering is divided into the
information acquisition,USertS demand template construction,
您可能关注的文档
- 基于差异化理念的产品系统设计研究-工业设计工程专业论文.docx
- 基于差异化营销提升产品价格优势的研究——以北京动力源DUM系列通信电源产品为例-市场营销专业论文.docx
- 基于差异化战略的大学定位分析-企业管理专业论文.docx
- 基于磁阻传感器的交通流参数采集与应用研究-计算机技术专业论文.docx
- 基于差异化战略的大学定位研究-高等教育学专业论文.docx
- 基于磁阻传感器的雾区智能行车诱导系统设计-交通信息工程及控制专业论文.docx
- 基于磁阻传感器的载体姿态测量系统的设计-控制理论与控制工程专业论文.docx
- 基于差异化战略的舟山乡村旅游产品双导向发展研究-农业推广专业论文.docx
- 基于差异基因cDNA文库基础上耐药性癫痫患者脑内特异性标示蛋白筛选和机制探讨-神经病学专业论文.docx
- 基于磁阻和加速度传感器的三轴电子罗盘研制-仪器科学与技术专业论文.docx
- 基于粗糙集理论的不确定决策问题的研究与应用-管理科学与工程专业论文.docx
- 基于粗糙集理论的不完备混合决策信息系统下供应商评价选择的研究-管理科学与工程专业论文.docx
- 基于粗糙集理论的不完备数据的完备化算法研究-运筹学与控制论专业论文.docx
- 基于超级电容的混合动力液压挖掘机储能系统研究-机械电子工程专业论文.docx
- 基于粗糙集理论的不完备信息系统属性约简研究-计算数学专业论文.docx
- 基于超级电容的再生制动能量吸收利用技术研究-电力电子与电力传动专业论文.docx
- 基于粗糙集理论的不完备信息系统数据挖掘的研究-运筹学与控制论专业论文.docx
- 基于超级电容的直流供电系统电压稳定装置研究-电气工程专业论文.docx
- 基于超级电容器的电解质研究-光学工程专业论文.docx
- 基于粗糙集理论的不完备信息系统知识获取的有关技术研究-控制理论与控制工程专业论文.docx
最近下载
- 四川省成都市天府新区2024-2025学年七年级下学期期末数学试卷(含部分简单答案).pdf VIP
- 高一数学第一学期必修一、四全册导学案.pdf VIP
- 应用型大学英语综合教程基础篇1 第五版 配套课件.ppt VIP
- 初中物理必考知识点.docx VIP
- 3at断路器-产品介绍.pptx VIP
- 纯电动汽车故障诊断与排除(吉利帝豪EV450)JL450-教学课件2.2 交流充电口异常故障诊断与排除.pdf VIP
- 教育学原理课后习题(答案).pdf VIP
- 高中英语课件学好英语的方法.ppt VIP
- 航道工程测量方案.docx
- 《中国古典诗词中的品格与修养》2019期末考试答案.pdf VIP
文档评论(0)