硅丰佳盾互联网内容过数滤软件技术白皮书.docVIP

下载本文档

3
0
约6.36千字
约 16页
2016-09-30 发布于湖南
举报
版权申诉

硅丰佳盾互联网内容过数滤软件技术白皮书.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

硅丰佳盾互联网内容过数滤软件技术白皮书

硅丰佳盾互联网内容过滤软件技术白皮书简介武汉市硅丰科技发展有限公司是专业从事网络安全和数据保障的软件企业，主要研发、生产、销售互联网内容过滤产品和数据安全产品。针对互联网上有害网络泛滥的现状，本公司自主研发了硅丰佳盾(GuardForce)互联网内容过滤系统，该系统集成了网络开关、内容识别和AGENT技术，运行在WINDOWS平台上，支持WIN98/Me/2000/XP等操作系统，可以过滤监控IE、NETSCAPE、MSN, ICQ, realplayer, quicktime等网络应用程序，系统自带的过滤库包含10大类55万2002年8月硅丰佳盾获得公安部颁发的计算机信息系统安全专用产品销售许可证，许可证编号：XKC30271。 ?? ? ?? 5万个不良网站； URL关键字过滤；通讯端口控制；根据关键字限制应用程序执行；过滤数据库升级； ?远程规则管理、配置、发布；远程计算机屏幕抓取；向远程计算机发送短消息；系统要求操作系统：Windows 9X/Me/Win2000/XP浏览器：? Internet Explorer5.x/6.0, Netscape5.x/6.x, Opera处理器：? Pentium 以上；内? 存：? 至少32MB硬盘空间：至少100MB空间上网方式：28.8k,33.6k,56k, ISDN, ADSL, 10/100 Ethernetpass-through）过滤技术，是精确的、可靠的、可扩展的互联网过滤技术，每台计算机发出的互联网访问请求将通过“硅丰佳盾”的检查点进行实时检查，判断其是否被允许或禁止访问。 B.“硅丰佳盾”通过一个系统附带的过滤数据库（Master Database）对网络访问请求进行过滤，过滤数据库中包含超过55万10个大类，包括了：色情、在线电影, 赌博、暴力、毒品、黑客等类型的站点。管理者可以依据时间限制上网的时段；手动添加允许或禁止访问的站点；定义在URL中过滤的关键字；同时“硅丰佳盾”还具备端口管理功能，您可以限制计算机上各种联网游戏的运行（例如：网上扑克，网络围棋，QQ聊天等）。每天都有新的站点加入到我们的数据库之中，“硅丰佳盾”将自动（或手动）下载过滤数据库升级包，以确保您的网络内容过滤引擎和互联网的发展相一致。 C.“硅丰佳盾”软件作用于WINDOWS网络层，不在运行任务列表之中，也不占用WINDOWS系统资源，其它非授权程序或操作员无法终止它的运行。 D.“硅丰佳盾”可以对WINDOWS网络的流通实施内容控制，检查URL的关键字和主机地址、通讯时间、端口等。“硅丰佳盾”使用起来相当容易，应用程序（IE、Netscape、outlook）中无需设置就可以直接使用本系统。任何发生的IP数据流都通过经过“硅丰佳盾”代理中继（relay）、检查（check）、转发(forward)。 E.“硅丰佳盾”可以根据应用程序标题栏关键字禁止运行EXE应用程序；例如：输入“Windows Media Player”可禁止媒体播放机程序运行。同理可以基于语义的内容识别算法 “语义识别”是硅丰佳盾内容过滤系统的另一项关键性技术创新。 HTML是一个结构化的文档，分析其结构可以获得许多关于网页内容和类别的描述信息。通过对大量网页的分析发现，以下几个特定位置中最有可能出现与图像相关的文本。要从HTML文档中提取有用的关键字，需要进行以下几个步骤的处理，首先通过HTML标志符过滤器，去除文本中夹杂的HTML标签，如〈CENTER〉，〈FONT〉等，此后得到的是句子和短语的集合，我们再运用词典技术将集合切割成独立的单词，但这些词还不足以构成描述，因为许多单词并无确切的含义，再通过小词过滤器（small word filter）过滤掉助词、介词、连接词等无意义词，至此文本已抽象成为关键字的集合，再以每个关键字为分量构造一个高维向量，其中每个分量的长度是用“TF*IDF”算法得到该关键字的权值。计算机对特定内容的识别率需要达到一定的准确度，需要具备分类的基础知识库，将知识库的语义数学模型与网站内容的语义数学模型相比较，研判二者的相似度，给出分类及分级指数。基础知识库的知识覆盖面和语义数学模型决定了机器内容识别的准确度。我们采用一系列的方法搜集：通过门户网站搜索引擎，利用专用软件检索、识别、分类，将已被门户分类的成人、色情、恐怖、邪教等不良网址复制到数据库中；我们还采用了软件机器人在网络中爬行访问，采用QBE（Query By Example）和LSA（Latent Semantic Algorithm）查询含有特定内容的网址，分析语义，判断网址的分数。该计算程序使用分布式并行计算结构，运行时耗用大量计算和网络资源，