- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要作为互联网的重要应用,网页浏览一直受到广大网民的青睐。但
摘要
作为互联网的重要应用,网页浏览一直受到广大网民的青睐。但 是互联网在给大家带来便利的同时,无用信息和不良网页问题也日益 严峻。这类网页不仅耗费网络带宽和计算机时空开销,而且不良信息 会对用户的身心健康造成严重的干扰。
网页过滤系统旨在帮助用户屏蔽无用和不良的网页信息。目前经 常采用的网页过滤技术一般包括地址过滤、规则过滤以及敏感词过滤 等。传统的过滤方法简单快速,但是对健康网页的误判率还较高。另 外一个思路就是从网页的文本内容入手,使用文本分类、信息过滤的 算法,在训练网页集合上学习网页分类器来进行网页过滤。由于网页 过滤系统通常是在线式的应用环境,在将文本分类算法引入到网页过 滤中时,往往很难在过滤的准确度和处理的实时性上达到平衡。
本文构建了基于混合模式的网页过滤系统,将传统的基于网址过 滤和敏感词过滤的方法与基于文本分类的过滤方法结合起来。文章重 点讨论了特征量选取、网页结构化信息利用、文本分类算法组合等方 面的改进措施。实验表明这种模型在保持易于实现的特点的同时,在 速度和准确度方面都有不同程度的提高。
关键词信息过滤,文本分类,特征量选择,朴素贝叶斯,人工神经 网络
ABSTRACTAs
ABSTRACT
As an important application of the Internet,W曲browsing has been favored by the majority of Internet users.The Internet brings convenience to everyone,while unwanted information and harmful website are also
increasingly serious problems.Those websites are not only consuming network bandwidth and computer time expenses,harmful website even would cause seriOUS physical and mental health problems.
Wreb filtering system is to help users keeping away from unwanted
information and harmful website.Black or white list technology
rules and keyword based content filtering technology are often used in website filtering.Those traditional methods of website filtration are very simple and fast,but the accuracy of those methods still needs to be
erdaanced.
Another approach is using automated text categorization and information filtering to filter unwanted information and harmful website. Since web filtering system usually works in online mode,when useing text classification algorithm,it is difficult to balance the speed and
accuracy.
This paper constructs a hybrid model based web filtering system which make the traditional filtering technique and new algorithms of text classification work tegather.The main point of this paper is to study how to use the structured information of website。how to improve the techniques of feature extraction and how to combinate text classification algorithms.Experiments show that the new model gain better speed
您可能关注的文档
- 尖峰岭国家自然保护区苔藓植物物种多样性研究-植物学专业论文.docx
- 尖晶石LiMn,2O,4的制备、修饰及性能研究-应用化学专业论文.docx
- 基于混合高斯模型的运动目标检测技术研究-计算机软件与理论专业论文.docx
- 基于机器学习的目标图像定位算法研究-计算机技术专业论文.docx
- 基于混合高斯模型的运动目标检测算法研究-通信与信息系统专业论文.docx
- 尖晶石LiMn,2O,4制备方法及其电化学性能分析-化学工艺专业论文.docx
- 尖晶石LiMn,2O,4制备方法及其电化学性能研究-材料物理与化学专业论文.docx
- 基于机器学习的欠定语音分离方法研究-信息与通信工程专业论文.docx
- 基于混合工质的低品位热能发电系统性能实验研究-动力工程及工程热物理专业论文.docx
- 基于机器学习的人脸卡通化方法研究-信息获取与探测技术专业论文.docx
- 尖锐湿疣中PAR-1、β-catenin的表达及研究-皮肤与性病学专业论文.docx
- 基于机械基础素材库的网络多媒体辅助教学系统-机械工程专业论文.docx
- 尖锐湿疣中sFRP-1、wnt-1的表达和细胞凋亡指数的检测与意义-皮肤病与性病学专业论文.docx
- 尖锐湿疣组织中VEGF、TGFβ1及其受体的研究-皮肤病与性病学专业论文.docx
- 基于机械热泵的海水淡化零排放分析-制冷及低温工程专业论文.docx
- 尖锐湿疣组织中白介素10和转化生长因子β1mRNA的表达及其意义-皮肤与性病学专业论文.docx
- 基于机械设计领域的汉语句法分析研究-机械制造及其自动化专业论文.docx
- 尖吻蝮蛇毒C型凝集素类蛋白质及类凝血酶cDNA克隆、结构分析和重组表达分析-生物化学与分子生物学专业论文.docx
- 基于机械系统的动力学行为与裂结的研究-粒子物理与原子核物理专业论文.docx
- 基于机械与电子复合技术的快速转换开关研制-电气工程专业论文.docx
文档评论(0)