- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ieblocker个人版不当网站防制系统
IEBLOCKER個人版 不當網站防制系統 邱志傑 王明習 謝錫堃 賴溪松* 國立成功大學 計算機與網路中心 *國立成功大學 電機工程學系 報告人:邱志傑 2006年11月 大綱 前言 不當網站資料庫系統 IEBLOCKER功能架構 IEBLOCKER功能簡介 資料庫數量及阻擋成效 結論 前言(一) 在2004年6月的Internetpolicy中指出,全球色情網站大約有四千六百多萬的網頁,而隨著網路頻寬的增加,瀏覽網頁不再受限於以往的網路頻寬過慢,反而更以多媒體聲音及動畫影片來突顯網頁的豐富性。 各區網中心代理伺服器瀏覽統計中,每日瀏覽次數前一百大排名的網站平均約有四個網站是屬於不適合存取網站。 全台各區網中心平均每天約有一百五十六個不當網站被使用者所瀏覽,平均每日約有七萬多次的瀏覽次數及965MB的網頁下載量 。 前言(二) 教育部之防制措施 不當網站資料庫系統架構圖 搜尋引擎過濾結果 利用Google、Gais及Yahoo搜尋400個不當關鍵字辭,每個關鍵字詞取前100大排名。 搜尋結果有37,978筆資訊,分別為29,567筆不重複網頁及6,465筆不重複網站。 過濾結果 4,936筆正常網站 783筆空白網站 416筆不當網站 330筆無效網站 網站分析系統(一)Website Analysis System(WAS) 網站分析系統(二) 自動擷取該網站下所有內容 快速整合該網站下所有符合htm、html、txt、asp及php的網頁成一個網站內容資料庫 WAC處理整合後的資訊 網站分析核心(一)Website Analysis Core (WAC) 關鍵字詞(keyword)資料庫 計算該網站出現哪些不當關鍵字詞 中文詞彙(chinese)資料庫 分析該網站有多少中文詞彙 網站名稱(dns)資料庫 偵測網頁原始檔中包含哪些伺服器主機名稱 內部相關網頁鏈結(link)資料庫 偵測網頁原始檔中有哪些頁面在本身網站下面 外部相關網頁鏈結(friend) 資料庫 偵測網頁原始檔中有哪些頁面不在本身網站下面 圖檔鏈結(gif)資料庫 偵測網頁原始檔中包含哪些圖檔網頁位址 網站分級(icra)資料庫 偵測網頁原始檔中是否包含有註明網站分級之資訊或電子郵件位址 網站分析核心(二) 網站分析核心(三) 本系統軟硬體設備 MS Windows2000 Server Dual Xeon2.8G及2G ECC Memory,105Gb HD Apache(1.329)+Php(4.34)+Mysql(4.016), C, BCB. 支援平行處理 WAS效率分析 下載1000個不當網站 運算時間接近於一個工作天 分成25個批次檔同時執行 檔案總大小為1.2Gb,當中包含59,007個檔案、6,378個資料夾、9,602張jpg圖檔及7,947張gif圖檔。 下載google之18,240筆網站 花費時間約小於五個工作天 分成100個批次檔同時執行 檔案總大小為48.6Gb,當中包含1,462,835個檔案及238,147個資料夾。 下載5000個不當網站 花費時間約小於三個工作天 分成100個批次檔同時執行 檔案總大小為2.53Gb,當中包含139,619個檔案及30,929個資料夾。 WAC效率分析 1000個網站之檔案資料庫(Content DB)總大小為912MB。 WAC總計算的時間為1833秒,平均處理一個網站時間約為1.83秒。 WAC運算時間包含動態找尋所有目錄、找尋特定副檔名檔案、開檔及七大資料庫輸出時間。 WAC處理完畢後資料庫大小為260MB。 網站之關鍵字詞比對流程 關鍵字詞代理器實驗結果 精準率為0.96(確實為不當網站/被認定為不當網站) 召回率為0.86(確實為正常網站/被認定為正常網站) 偵測率為0.85(1000個不當網站偵測出852個) 誤判率為0.04(1000個正常網站偵測出47個) 檢測率為0.90(如下定義) 圖片偵測代理器(Graphic Agent) 色彩空間轉換 RGB =YCbCr 圖片膚色特徵 膚色特徵之強化 動態人種膚色門檻值 膚色分佈 網站連結代理器(Link Agent) Link Agent 分析該網站被連結與連結的權重分數 100個正常網站平均權重為0.84 100個不適合存取網站平均權重為2.59 網站分類及評分系統(WRACE) 採用SVM (Support Vector Machine)演算法 本研究採用Radial Basis Function Kernel來做訓練及測試的樣本 SVM採向量方式處理訓練及測試資料 SVM可處理線性不可分割的問題 SVM在分類上有極佳之效果 SVM訓練樣本 100筆正常網站 100筆不正常網站 SVM測試樣本
您可能关注的文档
- h13 钢的高温拉伸性能研究 - 应用力学学报.pdf
- hazop 分析技术在煤气化装置中的应用 - 北京三星九千认证中心.pdf
- halcon软件在机器视觉中的典型应用.pdf
- hdmi已经迅速成为全世界消费电子产品的标准数字接口从dtv到 .doc
- hazop 分析技术在输油管道站场的应用 - 油气储运.pdf
- he19认识抗精神病药物.doc
- hec - hms 水文模型系统在汉江褒河流域的应用研究 - 水土保持通报.pdf
- high - 兆丰银行.doc
- herbert hoover 小学加州教育局学校教学责任报告卡报告内容摘自 .pdf
- hing tak scho o l 兴 德 学 校 地址:新界屯门庆平路1号 电话 .doc
- igbt 发射极电感对开通延迟时间的影响 - 嘉兴斯达半导体股份有限公司.pdf
- ii.2007年11月5-9日的标准委会议.doc
- indesign 桌面排版实战教学 indesign 是一套专业的桌面排版软体 .doc
- indesign 电子书制作实战教学 indesign 是一套专业的桌面排版软体 .doc
- informatica_template_sep2003 “turning integration into - fda.ppt
- infraworks – 极具渲染力的开发初期规划infraworks 课程内容 .pdf
- intel 8088微处理器的外部特性.ppt
- intosai 公部门审计人员伦理规范与审计准则 - 中华民国内部稽核协会.pdf
- introduction - 平行处理实验室.doc
- ip qos技术在千兆位以太网中的实现 - 计算机工程与科学.pdf
文档评论(0)