- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本挖掘入门 吴 磊 文本挖掘 文本挖掘是利用自动化方法对生物医学文献中的大量可用知识进行开发 文本挖掘工作的动机很多 参与者 模式生物数据库管理者 (Model organism database curators ) 需要处理大量的出版物,用以不断完善(填充)每一个他们感兴趣的物种基因的字段 实验室研究人员(Bench scientists) 开发出生物医学文本挖掘应用程序,用于协助解释高通量检测分析的输出和改善序列数据库搜索的工具的开发 各学科的生物学家 开展了各种应用研究,用以应对过去数年间的科学文献双指数增长的问题和在PubMed/ MEDLINE中搜寻基因组相关文献的问题 一个奇怪的现象 那些使用率高的,并且对生物学家的工作作出丰富贡献的系统的创建者不是文本挖掘专家,而是生物学家。 生物医学领域的三种基本方法 基于共现的方法 寻找出现在同一个文本单位(通常是一个句子,但有时也会拓展到一个摘要)中的概念,并设定它们之间的关系 例如,系统发现BRCA1与乳腺癌在同一个句子中出现,会推测乳腺癌与BRCA1基因间存在某种关系 早期的生物医学文本挖掘系统都是基于共现的,但这种系统也是非常容易出错的,因此目前已不多见。 生物医学领域的三种基本方法 基于共现的方法 概念共现被用作评估更复杂的系统时的一个简单基准 关键在于,概念因表达方式的不同而产生的变化性。 例如,BRCA1基因有很多别名——包括IRIS,PSCP,BRCAI,BRCC1,或RNF53(或他们拼写变体,包括BRCA1,BRCA-1,与BRCA 1)——或任何其全称的变体,如breast cancer 1,early onset,breast cancer susceptibility gene 1,或后者的变种breast cancer susceptibility gene-1。 breast cancer还可以被称为breast cancer, carcinoma of the breast, 或 mammary neoplasm。 这些变异问题的解决依赖于更为复杂的系统。 生物医学领域的三种基本方法 两个更常见(也更复杂)的文本挖掘方法: 基于规则或知识的方法 基于规则的系统利用了某种知识,其可能采取的形式: 如何构造语言的一般知识 如何在生物医学文献中陈述生物学相关事实 生物学概念彼此之间可能存在的关系,及它们可能出现在文献中的变异形式 前述这些形式中的任何一个子集或组合 实际系统构建中综合使用两方面的技术: 固定编码方式: 如:或disease与gene相关联——来发现研究者感兴趣的对象类别的显式描述。 复杂的语法和语义分析。以识别一个广泛范围内的相关概念的变异形式 基于统计或机器学习的方法 借助于建立可在各个层级上运算的分类器, 标注词性-选择句法分析树-对完整的句子或文档分类。 生物医学领域的三种基本方法 各自优缺点 基于规则的系统开发周期较长(不总是) 。 基于统计的系统通常需要大量不易获得的已标注训练数据。 实践中,二者可卓有成效的结合起来 许多系统采用了一个预统计处理步骤,其后是基于规则的后续处理。 歧义问题 定义:语言和语义或词类的多重关系的存在。 是任何类型的系统都必须要面对的一个主要问题。 例如:有关基因的名称和符号 fat:形容词or名词? -查询PubMed-返回112 K的命中结果(即使通过逻辑表达式(gene OR genetic OR genetics)来限制其范围,结果仍会超过13 K) fat也可以是许多不同物种的基因名或符号 人类,小鼠,大鼠,果蝇,斑马鱼,鸡,猕猴及两个乳杆菌中,至少有一个基因的名字、官方符号或别名是(fat)。 歧义问题 定义:语言和语义或词类的多重关系的存在。 是任何类型的系统都必须要面对的一个主要问题。 即使所指物种能够确定,歧义问题仍可能存在: 人类基因组中:fat既是2195号Entrez基因记录的官方符号,也是948 号Entrez基因记录的官方别名 2195是一个cadhedrin (ca2+-dependent cell adhesion molecule family):钙离子依赖的细胞粘附素家族的粘附分子 ,与肿瘤抑制和双相性精神障碍有关, 948是凝血酶受体,与动脉粥样硬化、血小板糖蛋白缺乏症、高脂血症及胰岛素耐受性有关。 构建系统的第一步:定义目标并检查数据 良好的软件工程实践将是构建成功的关键 见下图:表明了可构建在一个表示系统中的语言分析层级 构建系统的第一步:定义目标并检查数据 良好的软件工程实践将是构建成功的关键 首要关键步骤是定义该系统所需的行为 考虑这样一个系统,目的是从文本中提取基因/
您可能关注的文档
最近下载
- 小学数学名师工作室年度工作计划 .docx VIP
- 青少年保健专科建设和管理指南.pptx
- LNG购销总协议-中英文对照.pdf
- 全球及中国婴幼儿辅食行业蓝皮书-CIC灼识咨询-2025.pptx
- 2025中国南水北调集团新能源投资有限公司第一批中层及职员岗位社会招聘模拟试卷含答案解析.docx VIP
- 2025中国南水北调集团新能源投资有限公司第一批中层及职员岗位社会招聘模拟试卷含答案详解.docx VIP
- 部编版五年级语文上册语文园地三.ppt VIP
- 食材配送应急预案.docx VIP
- 《GBT 97.4-2002 平垫圈用于螺钉和垫圈组合件》知识培训.pptx VIP
- 现代化工导论 课件(化工)第10章.pptx VIP
文档评论(0)