网页信息过滤系的研究与设计.pdf

下载文档 降价啦

9
0
约6.81万字
约 65页
2016-01-01 发布于四川
举报
版权申诉
保障服务

网页信息过滤系的研究与设计.pdf

1、本文档共65页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网页信息过滤系的研究与设计

网页信息过滤系统的研究与设计中文摘要网页信息过滤系统的研究与设计中文摘要互联网不断地深入到人们生活的方方面面，如何对互联网上的非法网页进行过滤，给用户营造一个良好的学习和工作环境，成为一个重要的研究领域。由于当前的网页过滤系统对网页过滤的查全率、查准率、速度三个方面的存在诸多不足，为此，本文构建了一个动态的训练语料库、一个非法关键词集合和一个良好的网页向量表示方法，并在此基础上设计了一个多层次、多策略的网页过滤系统。分类算法的分类性能与训练语料库相关，高质量的训练语料库会提高分类器的性能。本文在基于密度的KNN分类器的样本裁剪算法的基础上，提出基于密度的 KNN分类器的样本添加算法。并通过对训练语料库进行基于密度的KNN分类器的样本裁剪、添加算法，获得了一个动态的、密度均匀、且覆盖度较大的训练语料库。一个好的非法关键词集合应能实时的反映当前互联网上非法网页的特征，本文 RAl算法相结合提出一种新的非法将基于贪心算法的非法关键词抽取算法与OCAT 关键词集合抽取算法，该算法能自动获取一个合适大小的非法关键词集合，且采用该集合使用关键词过滤算法对文本进行过滤，取得了较好的过滤效果。为了对网页过滤获得更好的过滤效果，本文将网页结构和网页内容信息结合起来，构成了一个维数较小的网页表示向量，利用新的网页向量对网页采用KNN进行二值过滤，在进一步提高对网页过滤效果的同时，减少了训练网页的个数。最后，根据URL过滤、关键词过滤、l心烈过滤的不同特点，构建了一个多层次、多策略的网页过滤系统。实验证明，该系统对网页过滤具有较高查全率、查准率的同时，满足了实时性的要求。关键词：语料库，OCATRAl，文本过滤，网页过滤作者：刘辉指导老师：钱培德 Researchand ofWebInformation Abstract Design FilteringSystem Researchand ofWebInformation Design FilteringSystem Abstract the WiththeIntemet into of tofilter lives，how constantlyeveryaspectpeople’s web for a environmentfor is all illegalpagecreatinggood peoplebecomingimportant field．Becauseofthe ofthecurrentweb filteringsystem，thispaper disadvantage page a setof wordsanda to vector constructs way dynamicco