基于关键词匹配的网页文本过滤算法的研究和实现-计算机应用技术专业论文.docxVIP

下载本文档

16
0
约6.77万字
约 85页
2019-02-26 发布于上海
举报
版权申诉

基于关键词匹配的网页文本过滤算法的研究和实现-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关键词匹配的网页文本过滤算法的研究和实现-计算机应用技术专业论文

贵州贵州大学 2009 届硕士学位论文第第 I 页摘要在互联网提供的海量、庞杂的信息中，不良信息以不同的表现形式，从不同的角度对不同人群造成毒害或干扰。因此，对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环境的重要环节。基于互联网的不良信息滤技术就是在这种情况下诞生的。互联网信息过滤(Information Filtering)是指从海量的 Web 文本中识别出含有不良信息的非法文本，以将其屏蔽。目前它已成为信息过滤的一个新的研究领域。文本是当前 Internet 上信息最主要的表现形式，中文文本过滤的相关技术是本文的研究重点。本文在对信息过滤系统的体系结构和文本过滤的原型进行研究的基础上，给出了一个基于向量空间模型的文本过滤逻辑模型。中文文本的特征项抽取和表示是中文文本过滤基础。获取中文文本的表示需经过分词、停用词处理、特征项抽取和特征项权重计算等过程，本文对这几个过程进行了详细的研究并提出了一种基于 TF*IDF 的特征项权重计算方法。用户信息需求模型（User Profile）是文本过滤的依据，本文探讨了获取用户信息需求的方式和方法，给出了向量空间模型下用户模板的表示方法，并对用反馈技术对需求模板进行优化进行了讨论。代理服务器在 Intranet 管理中具有重要作用。本文基于 HTTP 代理服务器在应用层实现了对 Web 页内容的内容过滤。并且，通过将客户机成功访问过的网页内容存储在代理服务器端，实现了 Web 页访问的内容重现。本文在对多种信息过滤方法进行分析研究及初步评估的基础上，为提高系统过滤不良信息的整体性能和运行速度，提出二级过滤的策略：第一级基于黑白名单过滤，第二级基于关键字的文本内容的过滤。实验证明，该方法提高了文本过滤性能。关键词:信息过滤，文本过滤，向量空间模型，特征抽取，用户模板，代理服务器第第 II 页 ABSTRACT In the numerous and jumbled information of the Internet, bad information, by various forms, would cause harm or disturbance to different populations at a different angle . So an important process which constructs a healthy and secure network environment is to deal Web visiting with necessary and effective content filtering . It appearances under this kind of condition that the bad information filtering technology based on Internet. The Internet Information Filtering refers to identify the illegitimate text which includes ill content and takes them out. Along with the growth of the illegitimate text in Web, it has become a new study field of Information Filtering. Text is the main form of information on Internet. This paper focuses on the relevant Issues of Chinese Text Filtering(TF). On the basis of researching on the system structure of information filtering systems and model of Text Filtering ， this paper gives a logical model of Chinese Text Filtering based on Vector Space Model(VSM). Text feature extraction and representation is the fundamental operation for Chinese Text Filtering. Four processes of getting Chinese text expression are words segmentation