面向网页文本内容的网页信息过滤系统设计.docVIP

下载本文档

37
0
约4.08千字
约 7页
2018-04-07 发布于北京
举报
版权申诉

面向网页文本内容的网页信息过滤系统设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向网页文本内容的网页信息过滤系统设计　　摘要:该文按照基于内容理解的中文文本网页的主题探测和过滤设计网页信息过滤系统。首先对智能网页过滤系统工作流程进行了研究,然后给出了智能网页信息过滤系统的系统设并对各个模块进行分析,最后对网络数据处理、文本数据处理和自适应处理三个模块进行详细研究。　　关键词:网页信息过滤系统;文本内容;文本数据处理;自适应处理　　中图分类号:TP302文献标识码:A文章编号:1009-3044(2009)27-7775-02 　　　　Network Page Filtration System Design Facing Network Text Content 　　ZHOU Tian-qi 　　(Zhejiang Lanxi City The fisrst Middle School, Lanxi 321100, China) 　　Abstract: In this paper, network page information filtration system was topic investigated and filtration designed according to Chinese text network based on content understanding. Firstly intellectual network filtration system work flow was studied, then systematic design of intellectual network information filtration system was given and each module was analyzed, finally three modules of network data processing, text data processing and adaptive processing were performed detailed study. 　　Key works: network information filtration system; text content; text data processing; adaptive processing 　　　　1 智能网页信息过滤系统简介　　　　智能网页信息过滤系统的过滤方法是基于内容的过滤,过滤对象是面向中文文本网页,过滤目的为主题探测。系统运行在局域网网关上可以监听流入局域网内的网页信息,发现并过滤网络管理员指定的主题信息。如企业、学校、网吧对内部局域网进行不良信息的管理时,通过该系统可以对暴力、色情、反动等信息进行屏蔽。图1示例了该系统运行在网关上的一个典型应用,它也可以运行在非网关的主机上,过滤本机用户指定的任何主题的网页信息。该系统过滤的主题在系统使用前由用户指定生成,使用中也可以根据需要重新生成新的过滤主题;它给用户提供了个性化的服务方案。在实验中我们选取了精油类知识作为过滤主题。对过滤出来的文档,提供了反馈机制,并将最终确定的群体导入模板训练库,通过遗传算法跟踪并学习用户的意图,以生成更精确的用户模板。　　按照信息处理的流程,过滤系统在各阶段应处理的事务有:1)信息获取阶段:网络信息过滤是基于数据包捕获基础之上的。信息获取需要捕获网络中的HTTP封包,并将数据包根据IP协议、TCP协议和HTTP协议解析为用来处理的文本格式。2)信息表示阶段:处理从信息获取阶段得到的文本,抽取能代表该文档特征的关键字并计算权值。由于中文文档没有明显的分隔符存在,所以在特征提取前还要进行分词处理。AIFS信息表示采用的是向量空间模型。3)匹配阶段:得到的未知文档的文本表示与已知的用户模板(知识模式)相匹配,用向量空间模型的相似度来计算未知文档与实际需求的相关性,在达到一定的阈值后,将未知文档进行标识。4)信息归类阶段:通过系统标识和用户对标识结果的反馈,将文档输入到相应的文档集合中,方便重建用户模板。5)知识模式:也就是用户模板的建立与更新。系统建立了学习进化机制,根据用户的反馈,将用户模板进行遗传算法学习,以提高系统的自适应能力。　　　　2 智能网页信息过滤系统设计　　　　信息过滤系统的性能主要体现在过滤的正确率,过滤系统不可靠的主要原因在于用户模板的精确性问题。而知识和信息的快速变化以及用户需求的不稳定性,决定了用户模板需要不断更新。智能网页信息过滤系统在设计中充分考虑了系统的进化需求,运行中会不断优化用户模板,以提高过滤的准确率。该系统的总体设计图如图2所示。　　首先建立基本的“词典数据库”和“用户模板”。词典数据库包括分词数据