垃圾邮件过滤之初步研究.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垃圾邮件过滤之初步研究.ppt

垃圾郵件過濾之初步研究 邱炫盛 大綱 垃圾郵件過濾簡介 規則導向過濾 機械學習導向過濾 過濾模型介紹 貝氏分類器 潛藏語意分析 隱藏式馬可夫模型 實驗 結論與未來展望 垃圾郵件過濾簡介:規則導向過濾 規則導向過濾: 事先定義好關鍵字,如果新郵件有部分符合,則認定為垃圾郵件 可能遇到的問題: 人工定義費時費力 中文斷詞問題 關鍵字定義是否明確 亦可以自動學習規則: RIPPER演算法 垃圾郵件過濾簡介:機械學習導向過濾 郵件過濾模型: 貝氏分類器(Bayesian Classifier) 潛藏語意分析(Latent Semantic Analysis, LSA) 隱藏式馬可夫模型(Hidden Markov Model, HMM) 本論文著重於此類型過濾 提出隱藏式馬可夫模型,並與其他模型作比較效果 貝氏分類器 貝氏分類器從貝氏網路簡化而來 rooF: a new binary variable concerning cat making noise on the roof. 貝氏分類器 貝氏分類器 貝氏分類器 貝氏分類器 求取新郵件d屬於某類別Ck的機率: 求    與 求 可分成多變量伯努利事件與多項式事件模型 貝氏分類器:多變量伯努利模型 多變量伯努利模型: 假設郵件d是由連續|V|次的伯努利試驗所產生 郵件d是|V|維的向量,每個維度t,其值Id,t為0或1 給定類別Ck產生郵件d的機率: 給定類別產生詞wt的機率: I(wt,di)表示某一個詞wt是否出現在郵件郵件di 貝氏分類器:多項式模型 多項式模型: 假設郵件d由一連串詞w組成,為多項式分布,詞w來自詞典V 郵件d是|V|維的向量,每個維度t,其值nd,t為詞出現次數 給定類別Ck產生郵件d的機率: 給定類別產生詞wt的機率: 貝氏分類器 求給定郵件d屬於哪一類Ck的機率較大的類別 潛藏語意分析 潛藏語意分析: 根據潛藏在文字中的語意來作郵件過濾 三步驟:建立特徵矩陣、奇異值分解運算(SVD)與產生語意指標(Semantic Anchor)及文件分類 潛藏語意分析:第一步 建立特徵矩陣M 矩陣M,第一行向量為合法郵件向量,第二行是垃圾郵件向量,每一列表示某一個詞wt 第t列第k行,其值 正規化熵值: 使出現相同次數的詞wt有不同的權重 潛藏語意分析:第二步 奇異值分解(SVD) 產生三個矩陣:U、S、V 產生了兩個語意上的映射:合法郵件映射與垃圾郵件映射, 表示合法郵件, 表示垃圾郵件。 潛藏語意分析:第三步 郵件過濾: 新郵件d也轉換成向量 ,與建矩陣方式相同。 郵件d投影到潛藏語意空間S 測量方式 餘弦測量 隱藏式馬可夫模型 隱藏式馬可夫模型假設類別中有屬於該類的生成模型 以詞為特徵:語言模型 訓練三個語言模型 合法郵件模型、垃圾郵件模型、通用郵件模型 使用SRILM toolkit 三種型態:單連、二連模型 隱藏式馬可夫模型 型I: 型II: 型III: 實驗 實驗語料: 實驗 特徵選取: 透過交互資訊(Mutual Information)選出部份詞當新的特徵 交互資訊: 多變量伯努利模型:     :訓練語料中某類別中包含詞的郵件數除以所有類別郵件總數    :某一類別的郵件數除以所有類別的郵件總數    :所有類別中包含詞的郵件數除以所有類別的郵件總數。 多項式模型:     :訓練語料中某類別中詞的詞頻數數除以兩類別總詞數    :某一類別的總詞數除以所有類別總詞數    :所有類別中詞頻數除以有類別總詞數 實驗 實驗一:特徵數量與正確率的關係 正相關 實驗 實驗二:潛藏語意分析維度與正確率的關係 實驗 實驗三:隱藏式馬可夫模型三種型式與正確率的關係 實驗 實驗結果: 實驗 實驗結果: 結論與未來展望 找強建性特徵的方法 建立模型的方法 PLSA TMM ME 語音辨識與文件分類技術結合應用 *Speech Lab. NTNU * CPT: Conditional Probability Table w2 C w1 w3 wn w2 C w1 w3 wn 簡單貝式分類器 複雜貝式分類器 … … 表 1 Ling-Spam郵件語料資料表 ~July 17, 2000 收錄時期 912.77 634.83 平均長度 439,040 1,531,209 總詞數 481 2412 數量 垃圾郵件 合法郵件 類別 表 2 中文訓練郵件語料資料表 ~June 2005 ~March 20

文档评论(0)

aiwendang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档