ieblocker个人版不当网站防制系统.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ieblocker个人版不当网站防制系统

IEBLOCKER個人版 不當網站防制系統 邱志傑 王明習 謝錫堃 賴溪松* 國立成功大學 計算機與網路中心 *國立成功大學 電機工程學系 報告人:邱志傑   2006年11月 大綱 前言 不當網站資料庫系統 IEBLOCKER功能架構 IEBLOCKER功能簡介 資料庫數量及阻擋成效 結論 前言(一) 在2004年6月的Internetpolicy中指出,全球色情網站大約有四千六百多萬的網頁,而隨著網路頻寬的增加,瀏覽網頁不再受限於以往的網路頻寬過慢,反而更以多媒體聲音及動畫影片來突顯網頁的豐富性。 各區網中心代理伺服器瀏覽統計中,每日瀏覽次數前一百大排名的網站平均約有四個網站是屬於不適合存取網站。 全台各區網中心平均每天約有一百五十六個不當網站被使用者所瀏覽,平均每日約有七萬多次的瀏覽次數及965MB的網頁下載量 。 前言(二) 教育部之防制措施 不當網站資料庫系統架構圖 搜尋引擎過濾結果 利用Google、Gais及Yahoo搜尋400個不當關鍵字辭,每個關鍵字詞取前100大排名。 搜尋結果有37,978筆資訊,分別為29,567筆不重複網頁及6,465筆不重複網站。 過濾結果 4,936筆正常網站 783筆空白網站 416筆不當網站 330筆無效網站 網站分析系統(一) Website Analysis System(WAS) 網站分析系統(二) 自動擷取該網站下所有內容 快速整合該網站下所有符合htm、html、txt、asp及php的網頁成一個網站內容資料庫 WAC處理整合後的資訊 網站分析核心(一) Website Analysis Core (WAC) 關鍵字詞(keyword)資料庫 計算該網站出現哪些不當關鍵字詞 中文詞彙(chinese)資料庫 分析該網站有多少中文詞彙 網站名稱(dns)資料庫 偵測網頁原始檔中包含哪些伺服器主機名稱 內部相關網頁鏈結(link)資料庫 偵測網頁原始檔中有哪些頁面在本身網站下面 外部相關網頁鏈結(friend) 資料庫 偵測網頁原始檔中有哪些頁面不在本身網站下面 圖檔鏈結(gif)資料庫 偵測網頁原始檔中包含哪些圖檔網頁位址 網站分級(icra)資料庫 偵測網頁原始檔中是否包含有註明網站分級之資訊或電子郵件位址 網站分析核心(二) 網站分析核心(三) 本系統軟硬體設備 MS Windows2000 Server Dual Xeon2.8G及2G ECC Memory,105Gb HD Apache(1.329)+Php(4.34)+Mysql(4.016), C, BCB. 支援平行處理 WAS效率分析 下載1000個不當網站 運算時間接近於一個工作天 分成25個批次檔同時執行 檔案總大小為1.2Gb,當中包含59,007個檔案、6,378個資料夾、9,602張jpg圖檔及7,947張gif圖檔。 下載google之18,240筆網站 花費時間約小於五個工作天 分成100個批次檔同時執行 檔案總大小為48.6Gb,當中包含1,462,835個檔案及238,147個資料夾。 下載5000個不當網站 花費時間約小於三個工作天 分成100個批次檔同時執行 檔案總大小為2.53Gb,當中包含139,619個檔案及30,929個資料夾。 WAC效率分析 1000個網站之檔案資料庫(Content DB)總大小為912MB。 WAC總計算的時間為1833秒,平均處理一個網站時間約為1.83秒。 WAC運算時間包含動態找尋所有目錄、找尋特定副檔名檔案、開檔及七大資料庫輸出時間。 WAC處理完畢後資料庫大小為260MB。 網站之關鍵字詞比對流程 關鍵字詞代理器實驗結果 精準率為0.96(確實為不當網站/被認定為不當網站) 召回率為0.86(確實為正常網站/被認定為正常網站) 偵測率為0.85(1000個不當網站偵測出852個) 誤判率為0.04(1000個正常網站偵測出47個) 檢測率為0.90(如下定義) 圖片偵測代理器(Graphic Agent) 色彩空間轉換 RGB =YCbCr 圖片膚色特徵 膚色特徵之強化 動態人種膚色門檻值 膚色分佈 網站連結代理器(Link Agent) Link Agent 分析該網站被連結與連結的權重分數 100個正常網站平均權重為0.84 100個不適合存取網站平均權重為2.59 網站分類及評分系統(WRACE) 採用SVM (Support Vector Machine)演算法 本研究採用Radial Basis Function Kernel來做訓練及測試的樣本 SVM採向量方式處理訓練及測試資料 SVM可處理線性不可分割的問題 SVM在分類上有極佳之效果 SVM訓練樣本 100筆正常網站 100筆不正常網站 SVM測試樣本

文档评论(0)

yanpizhuang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档