基于卷积网络的生物数据特征构造与特征选择算法研究.pdfVIP

基于卷积网络的生物数据特征构造与特征选择算法研究.pdf

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

基于卷积网络的生物数据特征构造与特征选择算法研究

转录组和甲基化组基因序列是受遗传信息和环境因素影响的基因组数据的

两个主要来源,已被广泛用作疾病诊断和预后的生物标志物。现如今,转录组和

甲基化组分析技术可以检测到人类基因组中数千万甚至上百万条基因的状态,但

受样本数量的限制,“大P小N”的模式使得转录组数据难以应用流行的分类模

型。传统的机器学习方法,主要是依赖于特征选择的能力,而深度学习模型需要

大量的数据,迁移学习的方法大部分被应用于图像数据。针对这一研究现状,本

文提出了一种基于原始基因序列,利用小型卷积神经网络构造特征的特征构造方

法,并结合传统的机器学习方法,解决在仅使用特征粗选方法或者随机挑选特征

的前提下,进一步提高分类精度的问题。

在本研究中,我们定制了一个小型卷积神经网络。通过卷积神经网络和原始

特征构建了少量的新的特征数据。并在构建的特征的基础上进行特征选择和分类

实验。针对各特征层的数据进行了相关性分析,结果表明,卷积层特征的差异表

达更加明显。更重要的是,我们通过实验证实了特征构造方法的有效性,通过使

用相同的原始特征以及相同的特征选择算法(包括T-Rank,W-Rank,McTwo),

实验结果表明,经过卷积神经网络构造的新特征能够取得优于原始特征的效果,

无论是哪一种特征选择方法,构造特征都能提升准确率。此外我们还提出了一种

简易的特征选择方法,结合特征构造能够进一步提升准确率。为了进一步探索特

征选择方法,我们使用McOne、T-Rank、W-Rank、Pearson、Sepearman和随机

特征选择方法来探索使用哪些特征进行特征构建,以获得更理想的结果。实验表

明,利用T-Rank选择特征进行特征构建取得了最理想的效果。令人惊讶的是,

即使特征是随机选择的,它们也能比直接使用原始特征获得更高的准确性。而且,

特征构造的方法,拥有与原始数据相近的稳定性。为了实验更加全面和严谨,针

对不同评价指标和不同的分类器均进行了分类性能的分析,结果表明特征构造方

法具有优于原始特征的分类效果。

Íò·½Êý¾Ý

关键词:

特征构造,特征选择,卷积神经网络,递归特征选择。

Íò·½Êý¾Ý

Abstract

ResearchonFeatureEngineeringandFeatureSelectionAlgorithmof

BiogeneticDatabasedonCNN

Transcriptomeandmethylatedgenesequencesaretwomajorsourcesofgenomic

datainfluencedbygeneticinformationandenvironmentalfactors.Transcriptomeand

methylatedgenesequenceshavebeenwidelyusedasbiomarkersfordiseasediagnosis

andprognosis.Nowadays,transcriptomeandmethylatedanalysistechniquescandetect

thestatusoftensofmillionsorevenhundredsofmillionsofdetectedresiduesinthe

humangenome.However,duetosamplesizelimitations,“largePandsmallN”patterns

文档评论(0)

论文资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档