- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种用于挖掘生物大数据的自适应规则分的类器
一种用于挖掘生物大数据的自适应规则分类器
摘要:本文中,我们引入了一种新的基于自适应的规则分类器,用于对生物数据进行多
重分类,这种分类器解决了生物数据分类中的过拟合、噪声对象和数据分类不平衡等问题(研
究问题)。众所周知,规则是用人类可认知的方式来表示数据的有趣方法。这种基于规则的
分类器将随机子空间和其改进方法与决策树的整体相结合,构建了一组分类规则,这种方法
不需要进行全局优化。分类器通过使用随机子空间的方法来避免出现过拟合,通过boosting
算法来避免出现分类噪声对象,并使用全部分类树来解决分类不平衡的问题。分类器使用了
两种流行的分类技术:决策树和k-最近邻算法。决策树用于从训练数据中找出分类规则,
而k-最近邻算法用于分析被错分类的对象,并消除其对立规则边界之间的模糊。分类器考
虑通过对训练数据集的k 次迭代来获得一些分类规则,并标记出下一次的迭代过程以关注那
些被误分类的对象。 (研究方法)本文的主要贡献是提出了一种可以提高对DNA 鉴定和分
类精确性的集成分类器。 (研究目的)以Brugada 综合征的基因组数据 (148 个Exome 数
据集)和 10个来自于UCI (加利福尼亚大学,Irvine 分校)机器学习库的真实基准生命科
学数据集为测试数据,我们比较了这种分类器与当前被广泛接受的机器学习和数据挖掘算法
之间的优劣。(研究工具)结果表明,对不同类型的生物数据分类过程中,此分类器的示范
分类准确性较高。 (结果)总之,本文所提出的分类器为新的DNA 变体分类提供了较高的
预测精度,其中优化了噪声和误分类变体以提高其测试性能。 (结论)
关键词:Brugada 综合征,分类,决策树,基因组数据,基于规则的分类器
1. 简介
生物信息学的新兴领域在开发一些用于分析生物数据的方法和工具时,结合了生物科学
和信息科学中的一些有挑战性的研究内容。其中,主要的困难是要从大量的临床和基因组数
据中提取有关信息,在将其转化为有用的知识的过程 (Taminau,2012)。这个过程涉及三
个主要问题: (a)收集临床和基因组数据, (b)从数据中检索相关信息, (c)从信息中
提取新知识。过去十年中,很多生命科学研究小组在人类基因组计划 (HGP)中产生了大量
的临床和基因组数据,其中的一些数据可通过在线知识库获得 (Artimo et al.,2012;Berman
et al.,2000;Lichman,2013)。计算机智能研究人员通常应用机器学习 (ML)和数据挖掘
(DM)算法来阐述生物数据 (Latkowski&Osowski,2015;Tzanis,Kavakiotis,&Vlahavas,
2011;Yang&Chen,2015)。通常,生物数据是嘈杂的、高维数的(以千计)、小样本的 (几
十个)并且一些基因序列之间有很大的差异 (Alter 等,2011),这导致了过拟合的风险加
大和分类时的低效率等问题。
生物数据挖掘 (BDM)是从生物数据中提取新知识 (以前未知)的过程。它介绍了生
物研究中大量的数据挖掘 (DM)概念、理论和应用。DM 使用ML 算法从大规模数据或数
据库中发现模型和有用的信息 (Farid 等,2013;Han,Kamber,&Pei,2011)。DM 有两
个主要功能: (a)分类 (监督学习)和 (b)聚类 (无监督学习)。在分类中,挖掘分类器
在标记出训练数据后,预测新的/不可见的对象类值 (Farid,Zhang,Rahman,Hossain,&
Strachan,2014;Nápoles,Grau,Bello,&Grau,2014)。在挖掘数据之前,训练对象被分
组成类。另一方面,集群(或分段)根据对象预定特征之间的相似性,将对象分组成群(Milone,
Stegmayer,Kamenetzky,López,&Carrari,2013)。每个集群内的对象之间相似度很高,
但与其他集群中的对象相似度很低 (Al-Mamun 等,2016)。分类和聚类方法对分析生物数
据 (如基因组/ DNA 微阵列数据分类和分析)起着重要作用 (Hanczar&Nadif,2011;2012;
Liew,Yan,&Yang,2005;Lin,Liu,Chen, Chen,2006)。但是当生物数据具有大量
特征和少量对象/变体的特征时,挖掘变得非常困难 (Gheyas&Smith,2010;Hua,Tembe,
&Dougherty,2009)。
本文提出了一种基于自适应规则的 (ARB)分类器,用于分类多种类别的生物或基因
组数据
文档评论(0)