垃圾邮件过滤之初步研究.pptVIP

下载本文档

2
0
约2.84千字
约 26页
2017-08-21 发布于重庆
举报
版权申诉

垃圾邮件过滤之初步研究.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

垃圾邮件过滤之初步研究.ppt

垃圾郵件過濾之初步研究邱炫盛大綱垃圾郵件過濾簡介規則導向過濾機械學習導向過濾過濾模型介紹貝氏分類器潛藏語意分析隱藏式馬可夫模型實驗結論與未來展望垃圾郵件過濾簡介：規則導向過濾規則導向過濾：事先定義好關鍵字，如果新郵件有部分符合，則認定為垃圾郵件可能遇到的問題：人工定義費時費力中文斷詞問題關鍵字定義是否明確亦可以自動學習規則： RIPPER演算法垃圾郵件過濾簡介：機械學習導向過濾郵件過濾模型：貝氏分類器（Bayesian Classifier) 潛藏語意分析(Latent Semantic Analysis, LSA) 隱藏式馬可夫模型(Hidden Markov Model, HMM) 本論文著重於此類型過濾提出隱藏式馬可夫模型，並與其他模型作比較效果貝氏分類器貝氏分類器從貝氏網路簡化而來 rooF: a new binary variable concerning cat making noise on the roof. 貝氏分類器貝氏分類器貝氏分類器貝氏分類器求取新郵件d屬於某類別Ck的機率：求　　　　與求可分成多變量伯努利事件與多項式事件模型貝氏分類器：多變量伯努利模型多變量伯努利模型：假設郵件d是由連續|V|次的伯努利試驗所產生郵件d是|V|維的向量，每個維度t，其值Id,t為0或1 給定類別Ck產生郵件d的機率：給定類別產生詞wt的機率： I(wt,di)表示某一個詞wt是否出現在郵件郵件di 貝氏分類器：多項式模型多項式模型：假設郵件d由一連串詞w組成，為多項式分布，詞w來自詞典V 郵件d是|V|維的向量，每個維度t，其值nd,t為詞出現次數給定類別Ck產生郵件d的機率：給定類別產生詞wt的機率：貝氏分類器求給定郵件d屬於哪一類Ck的機率較大的類別潛藏語意分析潛藏語意分析：根據潛藏在文字中的語意來作郵件過濾三步驟：建立特徵矩陣、奇異值分解運算(SVD)與產生語意指標(Semantic Anchor)及文件分類潛藏語意分析：第一步建立特徵矩陣M 矩陣M，第一行向量為合法郵件向量，第二行是垃圾郵件向量，每一列表示某一個詞wt 第t列第k行，其值正規化熵值：使出現相同次數的詞wt有不同的權重潛藏語意分析：第二步奇異值分解(SVD) 產生三個矩陣：U、S、V 產生了兩個語意上的映射：合法郵件映射與垃圾郵件映射，表示合法郵件，表示垃圾郵件。潛藏語意分析：第三步郵件過濾：新郵件d也轉換成向量，與建矩陣方式相同。郵件d投影到潛藏語意空間S 測量方式餘弦測量隱藏式馬可夫模型隱藏式馬可夫模型假設類別中有屬於該類的生成模型以詞為特徵：語言模型訓練三個語言模型合法郵件模型、垃圾郵件模型、通用郵件模型使用SRILM toolkit 三種型態：單連、二連模型隱藏式馬可夫模型型I：型II：型III：實驗實驗語料：實驗特徵選取：透過交互資訊(Mutual Information)選出部份詞當新的特徵交互資訊：多變量伯努利模型：　　　　：訓練語料中某類別中包含詞的郵件數除以所有類別郵件總數　　　：某一類別的郵件數除以所有類別的郵件總數　　　：所有類別中包含詞的郵件數除以所有類別的郵件總數。多項式模型：　　　　：訓練語料中某類別中詞的詞頻數數除以兩類別總詞數　　　：某一類別的總詞數除以所有類別總詞數　　　：所有類別中詞頻數除以有類別總詞數實驗實驗一：特徵數量與正確率的關係正相關實驗實驗二：潛藏語意分析維度與正確率的關係實驗實驗三：隱藏式馬可夫模型三種型式與正確率的關係實驗實驗結果：實驗實驗結果：結論與未來展望找強建性特徵的方法建立模型的方法 PLSA TMM ME 語音辨識與文件分類技術結合應用 *Speech Lab. NTNU * CPT: Conditional Probability Table w2 C w1 w3 wn w2 C w1 w3 wn 簡單貝式分類器複雜貝式分類器 … … 表 1 Ling-Spam郵件語料資料表 ~July 17, 2000 收錄時期 912.77 634.83 平均長度 439,040 1,531,209 總詞數 481 2412 數量垃圾郵件合法郵件類別表 2 中文訓練郵件語料資料表 ~June 2005 ~March 20