潜在语意索引在生医文件分类之应用.pptVIP

下载本文档

3
0
约1.08万字
约 27页
2017-02-28 发布于北京
举报
版权申诉

潜在语意索引在生医文件分类之应用.ppt

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

潛在語意索引在生醫文件分類之應用報告大綱緒論文獻回顧研究架構與方法實驗結果與分析結論與未來展望研究動機 2000年→人類基因圖譜定序後更加速基因體學、蛋白質體學的研究熱潮巨量、多樣性的生物醫學文件不斷的出現在各種電子期刊上美國國家醫學圖書館(National Library of Medicine, NLM), 國家生物技術資訊中心(National Center for Biotechnology Information, NCBI)是生醫專家搜尋生物醫學文獻的最佳管道所有科學研究→由文獻探討開始研究目的 PubMed文獻資料庫自動挑出蛋白質與蛋白質交互影響 (Protein-Protein Interaction, PPI)的文獻標題及摘要實驗重點比較支援向量機(SVM)和貝式分類器(NB)在分類演算法對採掘生醫文獻的效果探討使用潛在語意索引(LSI)特徵表示法及使用資訊獲利量(IG)關鍵字對PPI相關文件分類的影響蛋白質與蛋白質的交互作用所謂蛋白質與蛋白質的交互作用(Protein-Protein Interactions, PPI)係指細胞內的兩條蛋白質之間的交互作用，這種蛋白質與蛋白質間的交互作用，環環相扣形成一個巨大的網狀關係(如圖2.1)，深刻地影響整個細胞生理作用的調節 PPI文獻的相關研究 Marcotte et al.(2001) 從MedLine中選出有PPI相關的260篇文獻從這些文獻中選出80個特異字利用貝氏機率理論 Craven and Kumlien(1999) 將已審查和分類完成的文獻大約分成五類利用類神經和貝氏機率文字探勘文字探勘(Text Mining) 從非(半)結構化文件中，擷取隱晦有用的片段、模型或規則及未被發掘、有潛在價值的資訊或知識技術：資訊檢索、資訊萃取、計算語言學、自然語言處理、資料探勘技術、知識表示應用：資訊搜尋、訊息過濾、知識萃取、知識管理、決策輔助文件分類的二個步驟特徵的選取和文件的描述利用適當的分類器進行自動化分類潛在語意索引潛在語意索引(Latent Semantic Index, LSI) 從文件字詞中發現隱藏語意的方法克服一詞多義(Polysemy)和一義多詞(Synonymy)問題主要理論基礎線性代數中的奇異矩陣分解(Singular Value Decomposition, SVD)法使用關鍵字的組合來描述文件集中潛在的槪念 SVD使用特徵縮減的方法從原始的大量特徵中萃取出小量但顯著的特徵組合以降低資料雜訊 Examples of LSI 假設各分量所代表的關鍵字分別是 (數學, 物理, 化學, 國文, 英文, 國畫, 鋼琴, 舞蹈) 索引1: LSI1(1,1,1,0,0,0,0,0)潛在語意=科學索引2: LSI2(0,0,0,1,1,0,0,0) 潛在語意=語文索引3: LSI3(0,0,0,0,0,1,1,1) 潛在語意=藝術有時潛在語意很難解釋, 例如索引4: LSI4(-1,-1,-1,0,0,1,1,1) LSI相關研究 Hull(1994) 結合類神經網路與潛在語意索引應用在資訊檢索 Dasigi et al.(2001) 結合LSI與類神經網路進行文件分類的研究使用Reuters-22173文件資料集國內部份利用隱在語意索引進行文件分段之研究應用在中文資訊檢索自動化文件分類資訊獲利量資訊獲利量(Information Gain, IG)由 Quinlan 於1979 年提出,使用於 ID3決策樹演算法資訊獲利量＝測試前的資訊量－測試後的資訊量資訊獲利量在文件分類中常被拿來衡量詞彙好不好的指標支持向量機支持向量機(Support Vector Machine, SVM) 1995年由貝爾實驗室的Vapnik 提出以統計學習理論為基礎, 運用於樣式分類的機器學習演算法應用成功的領域手寫識別、語音識別、人臉偵測、文件分類、光學辨識系統、財務時間序列分析及垃圾郵件等在高維度的空間中找出一個最佳化的分隔超平面(Optimal Separating Hyperplane, OSH)來區分資料，使其與區分的兩類別資料間有最大的邊界使用Soft Margins解決資料的雜訊支持向量機(續) 貝式分類器貝式分類器(Na?ve Bayes, NB)，以機率理論為基礎，用於分類預測的機器學習演算法主要是以貝式定理（Bayesian Theorem）為基礎，用以判斷未知類別的資料應該最接近哪一個類別實驗流程圖實驗設計評估方法 ROC曲線實驗結果