基于粗糙集理论的web信息过滤技术研究-计算机应用技术专业论文.docxVIP

下载本文档

2
0
约7.37万字
约 72页
2019-02-22 发布于上海
举报
版权申诉

基于粗糙集理论的web信息过滤技术研究-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

硕L论文硕L论文基于粗糙集理论臼摘要随着社会的发展，互联网已成为信息传播和获取的重要平台，为我们进行信息交流提供了极大的便利。与此同时，互联网也成为发布虚假信息、滥发商业广告、随意侮辱他人、滥用信息技术、进行网络欺诈等犯罪行为滋生的载体，因此web信息过滤成为当前网络安全领域匾待解决的问题之一。考虑到web信息具有页面级数大、信息隐蔽等特点，本文采用粗糙集相关知识来解决web信息过滤的问题。按照信息过滤的流程，web信息过滤包括信息采集、构建用户需求模板、属性约简、规则提取、信息过滤以及主动学习等过程，本文对构建用户需求模板、属性约简及规则提取三个部分进行了重点研究。在样本选择过程中，传统的约简算法采用的样本实例数和维数通常较低，缺乏真实性，因此本文利用网络爬虫从互联网采集真实的页面作为算法的样本。在构造用户需求模板阶段，本文首先提出模糊分词思想并与过去的扫描分词法结合形成二次分词，从而更好地挖掘隐蔽的非法信息；其次为了缓解二次分词的较大系统压力，本文给出主从式分词系统，利用map／reduce思想将分词任务分解到多个子结点同时处理；最后整理TXT词汇文本构造向量空间模型。在属性约简阶段，针对样本信息量大且不同类别样本间特征离散严重等特点，本文提出了一种同属性约简算法；该算法构造特征矩阵，利用重叠率有效地达到降维目的。在规则提取阶段，分析前人算法并结合同属性约简算法得到的约简结果特点本文提出同值约简算法，该算法去除决策表中冗余属性值，并且去除其中的重复和蕴含关系得到最终的过滤规则。对于规则匹配，本文深化扩展传统的布尔逻辑模型true／false表达，引入二进制位运算思想，大大提高了匹配效率同时又不会丢失关键特征(即标记为l的二进制位)。最后本文将上述流程封装成过滤层嵌入到开源框架carrot2中，新增过滤功能完善其原来单纯的搜索功能。另外由于过滤规则库较大，本文提出对二进制规则串切割并建立索引，提高了查找和匹配的效率。关键词：信息过滤，模糊分词，同属性约简，粗糙集，特征矩阵硕L论文硕L论文基于粗糙集理论的web信息过滤技术研究 Abstract Along wim the development of society,the Internet has become all important platform of information dissemination and acquisition，which makes people’S communication easy． However,at the sanle time，the Internet also becomes the carrier of executing crime behavior, such as issuing the false information，listing massively commercial advertisement，insulting other people，abusing information technology,conducting network cheat and SO on．Therefore the web information filtering becomes one of the key techniques that should be solved in network information security area．Characteristic of the web information is big and concealed, SO this paper uses Rough Set theory to solve the problem of web information filtering． According to the information filtering flow,web information filtering is divided into the information acquisition，USertS demand template construction，