- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
该文档均来自互联网,如果侵犯了您的个人权益,请联系我们将立即删除!
* * 使用決策樹演算法之電子公文自動分類 報告人: 廖偉敦 內容大綱 研究動機 研究步驟 研究方法 ID3演算法簡略說明 簡化式ID3演算法 ID3演算法簡化前後比較 研究結果 未來展望與應用 研究動機 目前的電子文件( Electronic document )系統所採用的收發方式大部份為採取人工分類的方式,在大量文件湧入的情形下,人工分類的準確性也會隨之降低。本研究將資料探勘的方法應用於電子文件系統上,來幫助分析文件,過濾文件,以達到提高分類的準確性與節省人力資源為目的。 研究步驟 電子文件關鍵詞之建立。 關鍵詞與樣本文件分類對照資料集之建立。 以決策樹(Decision Tree)建立電子文件分類方法。 文件分類系統之建立、測試及分類準確性校正。 關鍵詞 對照建立 建立分類 校正 研究步驟 - 關鍵詞建立方法 把現存屬於同樣分類目標的樣本集合在一起,選擇出符合篩選條件的字詞後,由使用者來選擇適合作為關鍵字的字詞。 所有樣本 子樣本集合 產生字詞 選出關鍵字 選擇分類目標 系統產生字詞 使用者選擇 研究步驟 - 建立對照資料集 將選出的關鍵詞與現存的所有樣本(包含不同分類目標)進行關聯對照資料的建立,將分析出的結果儲存於資料庫中,以用來提供新文件的分類依據。 關鍵詞 關聯結果 關聯分析 所有樣本 研究步驟 - 文件分類方法 以找出的樣本與關鍵字關聯透過ID3演算法來分析出,新的分析目標可以分到那個分類目標。 關聯結果 分類結果 ID3演算法 新分析目標 研究步驟 - 系統準確性校正 完成系統建置之後,提升分析的準確度是相當重要的,因此透過我們建置於內部的回饋機制就可以達到這個要求。 現有資料 分析結果 協助分析 回饋 研究方法 - ID3演算法簡略說明 在程式部分主要用來判斷分類依據的方法為ID3演算法,從發表ID3演算法之後,大部份應用都圍繞於,建立決策樹,使用ID3演算法的主因在於,它能夠幫助產生最小的決策樹,而且較容易理解,所以我們採用ID3演算法來產生決策樹,以方便系統分類。 ID3演算法 (1)假設C是一群物件所成的集合(collection),包含p個屬於類別P的物件,以及n個屬於類別N的物件。任何能夠正確分割C的決策樹,在分割之後必需滿足其代表C之比例。亦即任何一個物件屬於類別P的機率為p/(p+n),而其屬於類別N的機率為n/(p+n)。 (2)一決策樹用以分類一物件為類別P或N之訊息的期望資訊為: 研究方法 - ID3演算法簡介(1) (3)假設一屬性A具有{A1,A2,…,Av}之值被用來做為決策樹之根節點,則將把C分割為{C1,C2,…,Cv},其中Ci代表C中,A屬性等於Ai之物件。令Ci包含pi個類別P的物件,以及ni個類別N的物件,每個子決策樹Ci之期望資訊獲得為I(pi, ni),則A屬性之加權平均之期望資訊獲得為: (4)根據A屬性分割的決策樹之資訊獲得為:gain(A)=I(p,n)-E(A) (5)根據經驗法則,通常選擇具有最多資訊獲得之屬性做為分割。重複上述過程。 研究方法 - ID3演算法簡介(2) 研究方法 - ID3演算法簡介(3) 樣本母體C 子樣本集合C1 子樣本集合C2 子樣本集合Cy 、、、、、、、 I(p,n) 代表的是在樣本母體中的資訊需求量 A1 A2…….An(屬性) 研究方法 - ID3演算法簡介(4) 子樣本集合Cy 分類目標1 分類目標2 分類目標n 、、、、、、、 A代表了Cy中的屬性集合 研究方法 - ID3演算法簡介(5) 單位B 1 0 1 1 0 0 0 0 0 0 D5 單位B 0 1 0 0 1 0 0 0 0 0 D4 單位A 0 0 0 0 0 1 1 1 0 0 D3 單位A 0 0 0 0 0 0 0 0 0 1 D2 單位A 0 0 0 0 0 0 0 1 1 1 D1 承辦單位 K10 K9 K8 K7 K6 K5 K4 K3 K2 K1 關鍵字(Ki)來自樣本母體 研究方法 –簡化式ID3演算法 簡化式ID3演算法主要不同點在於,原始的ID3演算法會經由所有的屬性來替資料作分群分組的動作,而簡化式的ID3演算法只經由目標資料所含有的資訊量來做分群分組的動作。 所有屬性集合 原始ID3使用所有的屬性 簡化式ID3使用部分的屬性 所有屬性集合 部分屬性 研究方法 – 簡化式ID3演算法 單位B 1 0 0 0 D5 單位B 0 1 0 0 D4 單位A 0 0 1 0 D3 單位A 0 0 0 1 D2 單位A 0 0 0 1 D1 承辦單位 K10 K9 K5 K1 關鍵字(Ki)來源:新分析文件 研究方法 - ID3演算法簡化前後比較 決策樹
您可能关注的文档
最近下载
- 东港灰场施工组织设计.doc VIP
- ASTM A312-A312M-24 Standard Specification for Seamless, Welded, and Heavily Cold Worked Austenitic Stainless Steel Pipes 无缝、焊接和冷加工奥氏体不锈钢管标准规范.pdf
- DB53_T 1379-2025 兽药追溯系统数据接口规范.docx
- 中国AI医疗行业白皮书.pdf VIP
- 发酵工程原理与技术应用 教学课件 作者 余龙江 主编 课件 第二章 发酵工业菌种.ppt VIP
- 【工程监理】监理机构设置、岗位职责.docx VIP
- SC200-200型施工升降机使用说明书.pdf VIP
- 操作维护手册(海运)《船舶恶劣天气航行须知》.doc VIP
- 项目六 PLC控制G120变频器实现电动机调速控制.pptx VIP
- 组合物、Y-3胶束注射液及其制备方法.pdf VIP
文档评论(0)