- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
适用于即时网路流量分析的快速模糊关联规则产生方法
適用於即時網路流量分析的快速模糊關聯規則產生方法 蘇民揚,戴宏偉,龍京佑 銘傳大學資訊工程學系 摘 要 對於網路安全的運用中,許多的網路入侵偵測工具都必須藉由「分析網路流量」來完成,對於動態新增資料庫(網路流量)資訊而言,所設計的演算法必須快速且準確的分析網路資訊。 本文提出了一個快速的模糊關聯規則演算法,適用於分析即時動態的網路流量,能針對大量的網路流量做即時、動態且準確的分析。 摘 要 為了達到即時分析,系統設定 3秒鐘統計一筆網路流量的資訊,針對 6種特徵,且各特徵分低、中、高, 3種程度做挖掘,經過測試,系統處理一筆新進資料平均只需要 0.0067秒,可以有效的支援線上即時探勘的需求。 系統也可以針對於不同的環境如地點、時間點以及不同的網路行為做特徵選取上的更動。 背景知識 關聯規則演算法-Apriori 模糊關聯規則 漸進式模糊關聯規則探勘-Real-Time 關聯規則演算法-Apriori 在關聯規則演算法中,目前以Apriori演算法為基礎所推導出的各種資料探勘技術為最具代表性的方法之一,其設計為針對靜態的資料做探勘的動作,而從中擷取出對使用者有興趣的相關法則。Apriori演算法中主要包含以下兩個主要的步驟: 1、重複的產生候選項目組(candidate itemset)並且搜尋整個資料庫,直到找出所有大型項目組(large itemset)。 2、利用上述所找出的大型項目組進行拆解,並且推倒出所有的關聯法則。 關聯規則演算法-Apriori 在步驟 1之中,候選項目組(candidate itemset)必須大於使用者所設定的最小支持門檻值(minimal support)才能成為大項目組(large itemset) 。 同樣在步驟 2之中,所產生的關聯法則也必須大於使用者所設定的最小可靠門檻值(minimal confidence)才能成為一條有效的法則。 Apriori演算法推導過程 Apriori 所面臨問題 由於Apriori演算法牽涉到多次資料庫的掃描,或者產生大量的項目組,因此,當資料庫產生變動時,必須從頭的掃描來產生項目組以產生新的關聯法則,當資料庫龐大時,搜索的動作便成了耗時的工作,因此,對於使用在動態的網路流量的探勘中,很顯然的Apriori演算法並不適用。 模糊關聯規則 Apriroi 演算法之support(X)是以項目集X中的項目同時出現在資料庫D中記錄的筆數來計算,而用在網路入侵偵測上,每個項目在每筆記錄中都會出現,因此每個項目都會有一個量化的值。如下圖: 模糊關聯規則 很顯然,對於量化的資料庫,傳統的Apriori演算法並不適用。資料探勘領域中對於這種項目量化的問題也有若干方法被提出,而對量化資料庫探勘最直接簡單的方法,就是對於每個項目的數值給予明確的切割以判定等級,我們用重要性(significance)及穩定度(certainty)分別取代傳統Apriori演算法中的支持度(support)以及信賴度(confidence) 我們融入了模糊理論的觀念,套用模糊理論的術語,每個項目名稱改稱為模糊變量(fuzzy Variable),每個項目名稱的分類改稱為模糊集合(fuzzy Sets),如low,medium,high,個別用一個連續函式,稱為成員函式(membership function),來描述之 。 模糊關聯規則 將切割的等級分成不同程度(低、中、高)帶入模糊函式,取自於MATLAB Fuzzy Tool Box的預設函數如下,其中a, b, c為可調整之常數,右圖為不同程度所代表的模糊函數分類。 Low :f ( x ) = 1 / ( 1 + exp( a ( x - c) ) ) Medium:f ( x ) = 1 / ( 1 + | ( x - c) / a | ^ 2b ) High :f ( x ) = 1 / ( 1 + exp( -a ( x - c) ) ) 漸進式關聯規則 網路資料(流量)的更新是隨時進行的,因此,資料庫中的資料也必須隨著交易的新增而動態的紀錄新的資料。 但由於一般所謂的動態資料並不適用於用在網路流量分析上,因為適用於網路中的動態資料,其對於〝即時〞更為關鍵,所設計的演算法必須快速的處理一筆新增的資料,且在下一筆新增資料進入之前完成探勘,並產生關聯法則。 漸進式關聯規則 設計想法考慮到不需要針對資料庫做重複的掃描,融合了漸進式關聯規則(incremental)的觀念,其演算法設計的方式,只需要針對上一筆資料的結果加入新進資料做結合來處理。 不同於傳統關聯規則必須針對資料庫重複的掃描,漸進式關聯規則能針對新的資料處理,大大的改進重複搜索資料庫所浪費的時間與資源,因此,動態的
您可能关注的文档
- 深圳市高速公路边坡和采石场植被恢复技术 - 生态学杂志.pdf
- 深圳市正控科技有限公司 -------橡胶深度检测仪------- 一、概述 橡胶 .doc
- 什么是数学建模 - read.ppt
- 神经机器翻译.pdf
- 神、理、声、色姚鼐的诗歌体性论 - 北京大学中国语言学研究中心.pdf
- 神经网络用于模式识别分类的改进算法 - 东南大学学报.pdf
- 神经机器翻译前沿进展 - 中国云计算.pdf
- 神农架海拔梯度上的植物种域分布特征及rapoport法则 - 生物多样性.pdf
- 审查《建立更安全的世界的横滨战略和行动计划》 - unisdr.pdf
- 神奇锯人术空中悬人人体三分身火苗穿巾冻不死的魔术师封底封面 .ppt
文档评论(0)