- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
資料探索在醫學資料庫之應用 組長:資四A 王志晟 組員:資四A 盧增錄 資四A 黃巧菱 資四A 王冠博 資四A 陳亭瑋 目錄 1.緒論 2.本研究之基本理論 3.研究設備與方法 4.結果與討論 5.結論 1. 緒論 本研究利用不同演算法將醫學資料庫中的資料拿來分析後,來測試準確性、敏感度、明確性、Kappa值,來評估各演算法對於疾病的解釋及診斷的準確率,建立更精準的診斷系統。 本研究之目的在於分析目前常應用於醫學領域的資料探索演算法的特色以及使用範圍限制做一整體評估與比較。 1. 緒論 本研究所分析的演算法有貝氏網路、決策樹的C4.5以及倒傳遞類神經網路。 本研究所採用的測試資料共有3類: 細針穿刺細胞檢查資料,診斷乳部腫瘤細胞是否為惡性。 中醫舌診影像以診斷是否患有上消化道疾病。 糖尿病健康管理記錄資料用以決定病患之治療方式。 2. 本研究之基本理論 1.KDD(Knowledge Discovery in Database) 2.資料庫系統 3.貝氏網路理論 4.決策樹 5.類神經網路 2.1 KDD KDD步驟:資料選擇、資料清除、充實資料、編碼、資料探索、資訊報告。 3 研究方法 1.資料選取 2.資料量化 3.參數的選擇 4.建立貝氏網路架構 5.建立類神經網路 6.建立決策樹 7.診斷知識之建立 8.各種演算法之評估 3.1 研究方法 4. 結果與討論 1.資料選取 2.資料量化 3.參數選擇 4.貝氏網路 5.倒傳遞類神經網路 6.決策樹 7.各種演算法之比較 4.1 資料選取 1.乳部腫瘤資料: 將所有屬性都放置在同一表格,其中包括病人 ID、診斷結果以及其他描述腫瘤細胞核特性的參數。一共32個欄位。資料方面從原始資料中隨機選取 400 筆資料以作為先前之訓練資料,剩餘 169 筆資料則作為測試資料。以相同的方法,再隨機取四群資料集(Data Set),總共有五組資料集。每組資料集都有 400 筆訓練資料作為訓練診斷知識的輸入樣本,及 169 測試資料測試所建立之診斷知識之診斷準確率。各組資料分佈如表 3-1。 4.2 資料量化 對連續資料要量化時必須先決定組數,組數之數量是以史塔基法則計算(為使計算較為簡便),此法則為一經驗公式,且使用等組距的模式。 史塔基法則(Sturge’s rule): K=1+3.3log n (其中K為組數,n為資料個數) 4.2 資料量化 研究中乳部腫瘤細胞資料分成 11 組,屬性值範圍由 0 到 10。中醫舌診影像資料則分成八組,屬性值由 0 到 7。至於糖尿病資料本身由於是非連續資料型態,除了病史分成 0 到 9 共 10 組屬性值以外,其他每種屬性值只有 0 與 1 二種 。 4.3 參數選擇 參數選擇的條件是採用 Chow 和 Liu 二位學者所提出的共同資訊理論(Mutual Information)。公式如下: 其中Xi,Xj分別代表二個不同的參數,P(Xi) ,P(Xj)則分別代二個參數的機率值。而W(Xi, Xj)代表二個參數相互間的關係,也就是權值。 4.3 參數選擇 由於在計算共同資訊值時必須先獲得各屬性值機率值之分佈情形,因此本研究先行設計一資料表格如圖 4-1,其中儲存各種參數的屬性值機率分佈情形。另外, 本研究採用資料集並非屬於大型資料集,在某些屬性值下發生診斷結果為惡性(或良性)的機率可能為 0,為符合高斯分佈之情形,因此將機率為 0 者設為 0.0001。 4.3 參數選擇 乳部腫瘤細胞 : 在乳部腫瘤細胞中共有五組訓練資料,並分別由各組訓練資料中計算共同資訊值。為考量之後各演算法之運算量,並且由參考文獻中得知周長與診斷結果有所影響。因此在共同資訊值大於周長之參數則將用於後續之研究。而各組所使用之參數以及其共同資訊值依大小順序排序如表 4-1,表 4-2、表 4-3,表 4-4 以及表 4-5 所示。 4.3 參數選擇 中醫舌診影像: 由各組中醫舌診影像資料經計算共同資訊值,並且根據中醫師經驗,上消化道疾病舌中區有關,因此本研究採用共同資訊值大於舌中區各參數之參數。各組採用之參數及對診斷結果之共同資訊值如表 4-6、表 4-7、表 4-8,表 4-9 以及表 4-10 所示。 4.3 參數選擇 糖尿病資料 : 各組糖尿病資料經過共同資訊值之計算後,本類資料所採用之參數與治療方式的共同資訊值皆小於 0.1,如表 4-12。由此可知本研究所使用之參數與治療方式無關,所以本研究對此資料將不做後續之資料探索。 4.4 貝氏網路 建立貝氏網路
您可能关注的文档
- 2A 27V 车充CRE8362 应用手册.pdf
- SPC培训的资料 -文档资料.ppt
- 生物学③必修21《通过神经系统的调节》课件-文档资料.ppt
- 人教版教学课件浙江省建德市新安江高级中学高三生物《生物的变异与进化》课件-精品文档.ppt
- 3300电气图(中文精简版).pdf
- 2019年【北师大版】选修2-2数学:2.5《简单复合函数的求导法则》课件_1.ppt
- 【长江作业】高中英语 第二单元 PeriodⅠ单元预习课课件 新人教版必修2.ppt
- 第九部分胰腺十二指肠85.ppt
- 四年级语文上册第六单元山和海的书信课件3鄂教版.ppt
- 湖北省崇阳县七年级语文下册 斑羚飞渡课件 人教新课标版.ppt
原创力文档


文档评论(0)