- 1、本文档共114页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物医学文本挖掘及其应用 例子:二者关系 进行性多灶性白质脑病(progressive multifocal leukoencephalopathy,PML) 抗体antibodies Monoclonal antibodies,efalizumab(依法珠单克隆抗体) HGNC database of human gene names HUGO Gene Nomenclature Committee/ 网上在线检索的基因名称信息 下载的基因名称信息 NER的原理 关联度 假设有t1和t2两个词共现,最简单的信度指标就是含有这两个词的文章数c(t1t2),但是要标准化,去掉两个词各自出现频次对共现次数的影响。 点间互信息 p为文章数除以文章总数。 关系抽取:共现 GoDisease:/ 输入‘‘leukoencephalopathy, progressive multifocal’’[mh] 返回结果: 所有提及PML的文摘中的基因。 出现次数越多的基因,越可能与PML有关联。如果某基因在PML中不成比例地高于其他疾病,则该基因可能与PML有特殊关系。 关系抽取:确切关系 明确描述的关系:比共现更好的证据。 例如: ‘‘We describe a PML in a 67-year-old woman with a destructive polyarthritis(多关节炎) associated with anti-JO1 antibodies treated with corticosteroids’’ PML与抗-JO1抗体有明确关系。 将这种关系简化为三元体:两个名词+一个动词。 PML is associated with anti-JO1 antibodies 识别动词: 词性标注:part-of-speech (POS) tagger 三元体表述因其简单而功能强大,但是忽略了文章中的重要的细节。比如有些证据是来自于临床病例报告。 关系抽取:PPI protein-protein interactions (PPI):文本挖掘的重头戏 利用三元体表达,构建PPI网络,节点是蛋白质,动词为边。 分析文本挖掘出来的PPI网络时,应当注意阅读和理解支撑信息。 例如,蛋白质间相互作用可以是直接的,也可以是间接的,取决于动词 直接动词有to bind, to stabilize, to phosphorylate 间接的动词有to induce, to trigger, to block。 文献中描述的蛋白质相互作用的不同性质部分地反映了所采用的实验方法和相互作用本身的性质。 常用的捕获文本变异的方法就是把各种表达方式辨认出来,并写下捕获这些变异的规则。 捕获磷酸化的模式,应当依次含有: 一种酶的名字 磷酸化的动词 一种基质的名字 发现关系的工具 FACTA:Medline文本中概念共现情况。 MedGene 和BioGene:利用共现发现基因优先级别。 Endeavour 和G2D 利用文本和其他数据源分析基因优先级别。 PolySearch利用启发式加权技术,给不同的共现不同的权重。 Anni使用文本轮廓测量术语之间的关系。 iHOP:挖掘PPI最流行的工具。 RLIMS-P 利用语言模式发现磷酸化过程中的激酶、基质和磷酸。 E3Miner发现泛素化,包括上下文信息。 http://text0.mib.man.ac.uk/software/facta/main.html GoDisease+iHOP+Cytoscape 发现:Discovery Besides finding relationships, text miners are also interested in discovering relationships Swanson:undiscovered public knowledge 【见例子1】 GenCLIP 文本挖掘的过程 命名体识别 关系抽取 发现知识 掌握原理,会用软件,你就可以探索了! 欢迎你的加入!! MedPost PMID 1847596 #9: Surprisingly, NO3- inhibited the rate of K+ swelling by 82%. Surprisingly_RR ,_, NO3-_NN inhibited_VVD the_DD rate_NN of_II K+_NN swelling_VVGN by_II 82_MC %_SYM ._. 1.检索文献 选70种基因,每一种基因的相关文献以XML格式下载 用Excel的宏命令抽取文摘,另存作为文本分析样本 Papers on Gen
您可能关注的文档
- 如何撰写医学综述_图文.ppt
- 如何做一名合格的实习医师_基础医学_医药卫生_专业资料.ppt
- 山东事业单位医学基础知识精华复习资料.doc
- 炸礁专项施工方案--_表格范本-厦门港xxx航道一期工程.doc
- 神经内科CT和MRI影像.ppt
- 神经内科常见检查_图文.ppt
- 神经内科常见症状体征_图文.ppt
- 神经内科常用药物解析_图文.ppt
- 浙江省三门湾大桥及接线工程施工组织设计_图文.ppt
- 浙江省山区高速公路勘察设计要点.ppt
- 2022年人教版九年级英语第十一单元知识点总结.pdf
- 2022年全国中考生物真题(江苏河南广东四川湖南等)分项汇编专题01 生物与环境(含详解)10014.pdf
- 其多列、牵牛花当喇叭 教学设计 湘艺版音乐一年级上册.doc
- 2022年中式烹调师高级理论知识试题库及答案(共230题).pdf
- 人教版(2024)一年级上册第二单元奉献最美第2课 勤劳的蚕宝宝 教学设计 共三课时(表格式).docx
- 2022年中科院官方题库心理评估.pdf
- 2022年全国中考化学真题(江苏河南广东四川湖南等)分项汇编专题05 构成物质的奥秘(解析版).pdf
- 2022年中央广播电视大学度第二学期开放本科期末考试劳动法学试题.pdf
- 大学考试(教育学)习题库(第1部分).pdf
- 2022年人力资源管理师四级《理论知识》试题及答案考卷52.pdf
文档评论(0)