文本数据的生物信息学模型和在前列腺癌中的应用研究.pdf

文本数据的生物信息学模型和在前列腺癌中的应用研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本数据的生物信息学模型及在前列腺癌中的应用研究 中文摘要 文本数据的生物信息学模型及在前列腺癌中的应用研究 中文摘要 大量的生物文本为生物医学研究提供了丰富的资源。但由于文本数量巨大,无法 通过人工处理来获取信息。文本挖掘能从现有的文献中自动地挖掘感兴趣的信息。借 助于文本挖掘,可以从文献数据库检索需要的生物医学文本;这些非结构化的文本包 含了大量的研究成果和实验数据,文本挖掘可以找出其中蕴含的重要信息和知识;在 所发现的信息的基础上,研究人员可以进一步生成假设、进行推断和预测、指导实验 和更深入的研究。 癌症已经成为影响人类健康的主要恶性疾病之一,对癌症的预防、诊断和治疗是 一个重要的研究热点。以文本形式存在的大量癌症相关的文献和实验数据为生物医学 研究提供了宝贵的资料。许多研究者借助于文本挖掘在处理文本数据方面的优势,将 癌症研究和文本挖掘相结合,使用文本挖掘技术发现新的知识,以促进生物医学的深 入研究。 本文综述了文本挖掘的各项子任务、一般处理流程、常用数据集和工具,介绍了 目前文本挖掘在癌症中的应用研究,具体包括: 1) 介绍了文本挖掘的相关概念、各项子任务以及处理流程; 2) 细述了一些常用的文本挖掘工具和语料,分析比较了这些工具的优缺点和适 用领域; 3) 分析总结了基于文本挖掘的癌症系统生物学研究常规流程; 4) 指出了文本挖掘存在的不足,面临的挑战,并针对性地提出了解决思路以供 研究者参考。 要从这些海量数据中挖掘信息,找出文本中包含的生物词汇是关键。命名实体识 别的目的是从文本中识别出指定类型的实体名字,如基因、蛋白等。命名体识别是进 一步挖掘信息的基础。从计算建模的角度来看,生物命名体识别可以看成是一个序列 分割问题,得到了广泛的研究。然而,由于生物词汇在词汇构造、语法、词形、语义、 上下文等多方面均有特殊性,因此,很多通用的命名体识别系统在识别生物词汇时表 现不佳。 在机器学习的方法中,支持向量机(Support Vector Machine,SVM)在解决小规 模的、非线性的、高维的问题时表现较好。SVM 在关系提取、关系预测和模式识别 等方面有着大量的应用。机器学习的另一种方法条件随机场(Conditional Random I 中文摘要 文本数据的生物信息学模型及在前列癌腺中的应用研究 Field ,CRF )是为了解决最大熵马尔可夫模型中存在的标注偏置问题而引入的,是一 种连续的优化最大熵模型。CRF 擅长于解决序列标记问题。然而,在实际应用中, SVM 和CRF 具有很多不足和限制条件。SVM 最初只适用于二分类问题而CRF 可以 用于多分类问题;虽然CRF 通常需要较多的计算时间和空间,但很适用于解决序列 数据的标记问题,具有较高的稳定性。通过分析发现,SVM 和CRF 具有一定的互补 性,结合二者能相互促进,获得更好的结果。 本文将生物命名体识别视为一个包含多个步骤的任务。首选确定候选的单词是否 为一个生物单词;由于这个过程是一个二分类问题,因此可以使用SVM 来很好地完 成。如果判断的结果是一个生物单词,则再使用CRF 来确定这个单词属于哪种类别。 然后将SVM 和CRF 的结果进行合并,最后,利用一系列的算法进行修正。具体包括: 1) 根据生物单词的特性,使用所提出的2 条规则,找出由于上下文的不同而造 成不一致; 2) 提出了 1 条规则用于保证找出的词汇包含尽可能多的生物单词,并在此基础 上提出了词汇长度最大化算法,以确保得到最完整的生物词汇; 3) 针对SVM 和CRF 结合后可能出现的结果不一致现象,提出了最大双向概率 的方法以分析结果。双向概率包括了向前概率和向后概率两部分。向前概率 给出了在前一个状态的基础上向前输出的各种情况的概率;向后概率给出了 在后一个状态的基础上向后输出的各种情况的概率。本文取二者结合的最大 值所对应的状态作为结果。 本文

文档评论(0)

llllss930 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档