文本内容信息过滤系统研究与设计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本内容信息过滤系统研究与设计

文本内容信息过滤系统研究与设计   摘要:该文设计的文本内容信息过滤系统使用PHP开发设计,做为PHP网站的一个功能接口,该系统主要功能有:后台管理、非法信息过滤、远程页面检测和自动安装等。系统方便了网站管理员对词库、检测日志报告等信息的管理,同时系统自动检测网站信息内容并过滤其中的不良信息,大大提高了网站管理员审核文章等信息内容的速度和效率。该文研究与设计的系统在一定程度上抑制了非法信息在网络上的传播,净化了网络环境,为网络用户提供了一个良好健康的信息资源环境。   关键词:文本;信息过滤;敏感词   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)34-8187-05   1 概述   随着互联网的发展,人们享受网络技术带来的美好生活,同时也使某些不法分子通过网络传送非法信息。随着网络技术的发展和应用,网上色情、暴力、反动等不良信息时有传播,而且有泛滥的趋势,因此,网络信息安全值得大家去关注和研究。在此背景下,为了滤除网络文本内容中的不良信息,减少不良信息在网络中传播,为网络用户提供一个良好健康的信息资源环境,就需要建立一个高效的信息过滤系统,对信息发布者所发布的信息内容进行分析过滤,滤除其中的不良信息内容。该文主要是研究与设计文本内容信息过滤系统,使用PHP开发,该系统做为PHP网站的一个功能接口,对信息发布者发表的评论、文章内容等信息进行监控,通过信息过滤系统分析,过滤其中出现的不良信息,再将过滤后的信息内容返回给网站,最后网站再将信息发布。该文对文本内容信息过滤技术进行研究,净化网络文本信息,为网络用户提供一个良好健康的信息资源,就需要建立一个高效的信息过滤系统,对信息发布者的信息进行分析过滤。该文在理论研究的基础上,设计了一个文本内容信息过滤系统,并应用于中小型网站,获取用户发表的评论、文章等内容信息,通过信息过滤系统分析,过滤文中出现的不良信息,再将信息返回给网站,网站再将信息发布。   2 系统功能需求   文本内容信息过滤系统对网站信息发布、公众信息公开申请和网站留言等模块内容实现提交??的自动过滤处理,发现有谩骂、诽谤、等非法言论进行自动过滤,并给用户友好的提示,同时向管理员提交报告。从而大大提高了审核速度和效率。使用PHP开发设计文本内容信息过滤系统,该系统可将文本内容中的有害信息滤除,并可对已经发表的文章内容进行检测,得出检测结果,通知管理员对该文章进行相应的操作,如修改或删除操作。信息过滤流程如图1所示。   (1)数据库设计   使用MySQL数据库,设计结构清晰,方便管理的词库表、用户表与日志表等,词库表中包含了敏感词名、敏感词、词类别等信息。用户表中包含了用户名、用户密码、用户类别信息。日志表则包含了检测结果、URL地址、原文章内容。   (2)中文简体转繁体功能   MySQL数据库字符集设置的为GBK格式,敏感词为简体。而在用户发表文章时,文章内容信息往往含有繁体敏感词。在对用户发表文章中的文本内容,进行信息过滤时,需要进行敏感词的简繁转换,提高信息过滤的准确性。中文简体转繁体流程如图2所示。   (3)中文转换拼音功能   许多敏感词都以拼音字母的形式出现在各个文章中,中文转换拼音的功能应用到文本内容信息过滤系统中,可以有效地滤除文章中的有害敏感词信息,使得过滤有害信息更加精确。中文转拼音流程如图3所示。   3 系统设计   本系统整体上包括四大模块:后台管理模块、信息过滤模块、页面检测模块和自动安装模块。后台管理模块为管理员提供一个管理敏感词库、用户管理、权限管理等操作后台。信息过滤模块为本系统的核心模块,将文本内容的敏感词进行分析,过滤文本内容中的非法词汇。页面检测模块是检测远程URL地址,提取网页源码,分析其中的文本内容滤除有害信息。自动安装模块是对系统进行配置,如数据库连接信息,创建系统管理员,并生成配置文件。文本内容信息过滤系统结构如图4所示。   3.1 后台管理设计   本系统为管理员设计一个友好、简洁、功能完善的后台管理,管理员能够进行用户的管理,词库的管理,对词库中数据可增加、删除、修改、查询等操作以及权限管理。   3.2 信息过滤模块设计   信息过滤模块包括了简繁转换,中文转拼音与信息过滤,喜好词生成等功能。能够对用户发表的文章中的不法信息进行滤除,对用户所搜索的关键词进行分析,智能生成喜好词,方便用户搜索自己感兴趣的信息。   3.3 页面检测模块设计   页面检测模块用于检测未经过信息系统过滤已发布的文章或评论,可对多页面检测,并将检测结果入库,得出分析报告,管理员根据报告内容,可对原URL文章的内容进行修改或者删除操作。   3.4 自动安装设计   自动安装模块是用于对系统进行

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档