基因表达数据的特征选择及其分类算法研究-计算机应用技术专业论文.docxVIP

  • 34
  • 0
  • 约6.27万字
  • 约 69页
  • 2019-01-15 发布于上海
  • 举报

基因表达数据的特征选择及其分类算法研究-计算机应用技术专业论文.docx

基因表达数据的特征选择及其分类算法研究-计算机应用技术专业论文

Study on Feature Selection and Classification Algorithm for Gene Expression Data By Shasha Wei A Dissertation Submitted to China Jiliang University In partial fulfillment of the requirement For the degree of Master of Engineering China Jiliang University November, 2014 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得 中国计量学院 或其他教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 学位论文作者签名: 签字日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解 中国计量学院 有关保留、使用学位论文的 规定。特授权 中国计量学院 可以将学位论文的全部或部分内容编入有关数 据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借 阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论 文在解密后适用本授权说明) 学位论文作者签名: 导师签名: 签字日期: 年 月 日 签字日期: 年 月 日 致 谢 在论文完成、研究生生涯即将画上圆满的句号之际,首先,我要感谢我的 导师陆慧娟教授,在论文写作过程中,她帮助我选定方向,查找文献,修改不 足之处,碰到瓶颈的时候,及时给我提供思路,每天兢兢业业,给了我非常大 的鼓励和关怀。在写作遇到困难时,她不辞辛苦,牺牲周六日,在实验室跟我 一起写程序,一起学习和进步。在生活上,她像慈母一般温暖,对我的日常生 活关爱有加,她的谆谆教诲我一直铭记于心。在此,我对陆老师表示由衷的感 谢和深深的敬意! 研究生期间,在学术上,我多次得到王明怡、朱建明、金群、陆羿、高志 刚、夏海霞等老师的帮助,尤其是高志刚老师,他仔细认真,我的每篇论文都 得到了他宝贵的意见和建议。老师们帮我解决了很多学术上和专业上的疑问, 对我的论文起到了指导性的作用,在此,真诚的感谢他们对我悉心的指导和无 私的帮助。 感谢师兄陆江江,师姐安春霖,引领我走进研究生的大门,教会我做实验, 指导我写论文,他们的努力与奋斗是我学习的榜样。 感谢 12 级同学,感谢金伟、苏金阳、陈亮、陈会、左正魏、王艺静、宁永 恒、吴坤、崔晨、张美艳,谢谢这两年半中他们对我的帮助以及给我带来的快 乐。感谢师妹陈晓青,师弟王石磊、刘亚卿、杜邦俊,他们给予我活力,让我 保持积极向上的心态。 最后,特别感谢我的父母,他们支持我的学业,在我迷茫倦怠的时候及时 引导我走出困境,是我最坚实的后盾和永远的港湾,感谢我的父母,感谢他们 的关爱、支持和包容。 魏莎莎 2014 年 11 月 基因表达数据的特征选择及其分类算法研究 摘要:随着基因组学的不断发展,DNA 微阵列技术为生命科学提供新的解 决问题的思路与方法。基因表达数据是一般为矩阵形式,分析的是基因发生的 改变,基因间的互相关系以及基因活动产生的影响等,具有维数高、样本少、 分布不平衡等特点。基因表达数据可以为疾病的诊断和治疗提供可靠的分类结 果。分析基因表达数据时,需要对其进行特征选择,从而降低数据的维数,降 低后期的生物学分析成本。选择出对分类起重要作用的那部分基因可以为疾病 的预防与诊断等提供更准确的依据。本文将针对基因表达数据的特征选择和分 类算法进行研究,主要内容包括: (1) 提出基于互信息最大化的模型无关的特征选择方法。利用互信息最大化 方法对基因进行初步筛选,能去除大量噪声,有效减少冗余基因,为遗传算法 提供比较理想的种群初始化环境,特征选择转变为全局优化问题。选择得出的 特征子集可直接用于其他类型的分类器,分类精度较高。 (2) 提出基于云平台的特征选择方法。结合了云计算与特征选择方法的特点, 利用 5 台 PC 模拟搭建 Hadoop 云计算平台,用 Map 任务计算各自特征集的信息 熵,在 Reduce 步骤中,对上一步得到的互信息进行排序,筛选特征,汇总后运 送到客户机,在客户机端用 ELM 对获得的基因特征进行训练和测试,算法能够 在保证一定分类精度的情况下快速进行特征选择,降低了时间复杂度。 (3) 提出基于鱼群优化算法的改进 RELM 基因表达数据分类方法。用鱼群 优化算法优化 RELM 的输入层权值,对输出权值矩阵采用 Cholesky 分解,改进 后的基因表达数据分类算

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档