基于基因表达聚类分析技术的研究.doc

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
东北大学中荷生物医学与信息工程学院 DCL课题结题论文 基于基因表达聚类分析技术的研究 课题组编号:DCL 09 Top B 课题组成员:金时开 陈良 曾令闻 张骞 吴长龙 赵曜楠 郑娱 指导老师:韩晶 基于基因表达聚类分析技术的研究 摘要 基因是储存生命信息的载体,基因上包含了生物所要生产的蛋白质的信息。通过对基因进行分析,得到其要表达的蛋白质序列,从而可以判断出一个生命体是否正常。但是基因中不仅包含了大量的有用信息,也包含了许多无用的基因,这就需要我们对其进行筛选。本实验通过自编MFC程序对一个小鼠大量的未知基因进行筛选、聚类和分组,得到了对我们有用的基因信息,并对这些基因信息进行了分析,从而判断出小鼠是否得病和引起的病的病源基因。 关键词:小鼠 基因 筛选 聚类 分组 病理分析 Genes are vector of 第一章 绪论 当今时代生物医学领域已经延伸到了DNA分子阶段。大量的实验也已经表明,了解和掌握DNA分子所包含的生物信息将是生物医学以后发展的前沿方向。只有对生物的DNA分子信息进行了全方位的了解才能使我们人类更好的认识自己,同时也可以帮助我们更好更健康的生活。我们根据齐守良老师和李嶺老师所提供的材料《Case_Description》,通过电脑编程对一个小鼠的DNA进行分析从而对它的生理状况进行判断。前人对此课题进行过研究,他们通过自编的C++程序从小鼠不同时间的9596个基因的表达中进行筛选和分组,然后通过公式对筛选得到的基因进行了归类总结。但是对于我们来说,通过这次对小鼠生理状况的研究,可以使我们了解科学研究的过程,同时我们也对其进行了改善。通过研究其程序,我们发现了以下几点缺陷:第一点,由于他们使用的是C++程序,由于其内部结构的不完善,文件保存帮面存在一些问题;第二点,他们只有一个筛选得到的文档表格,但其庞大的数据量并不好分析观察,由于存在人为地归纳误差,无法的到最准确的分析结果;第三点,他们在分组方面也没有做好,其程序并不是很完善;第四点,他们也没有对自己的实验数据进行分析,得到实验结论。我组通过研究探讨,对其进行了以下几方面完善。在工具选择方面,我们使用了MFC进行编程,不仅对界面进行了美化,同时也很好的解决了保存时存在的问题;在筛选方面,我们使用了图像的方式将筛选出来的数据进行了描绘,更加科学直观的对数据进行了归类,有利于下一步对数据进行分析;在分组方面,我们通过程序优化更加快捷的显示出其分组情况;在数据分析方面,我们补充了前人未完成的工作,对分组基因数据进行分析和研究,并且得到了令人满意的实验结果。本文第一章,对我们所得到了9596个未知基因数据的筛选做出了说明,第二章,阐述了如何对筛选基因进行聚类和图像处理;第三章,叙述了我组在基因收索方面使用的方法;第四章;论述了我组通过对实验数据所得到的实验结论,并揭示了基因表达对生物生理状况的重要性。 第二章 预处理 基因表达聚类分析的预处理本文分成三个部分:数据标准化、相对值的计算和数据筛选。为有效地比较表达水平,首先必须先将数据标准化,然后剔除表达水平低于给定阈值的基因,以减少数据量,最后,寻找数据中的模式,为表达谱赋予一定的生物学功能。 在基因表达矩阵中,不同的基因有不同的强度值范围,单个的强度值并没有太大的意义,而相对值则更能说明问题。所以本文主要分析的是绝对基因表达水平相对差异,在预处理部分,对于如何反应绝对基因表达水平相对差异进行了讨论,最终确定了本文所采用的表达式并通过自制程序完成了实现。 在数千条基因中,并非所有的基因都对类别的划分做出同样的贡献,实际上有些基因可能没有贡献。 因此,在聚类运算前,需要排除那些对实验条件几乎不起反应的基因。不管使用哪种方法,进行什么分析,排除实验过程中表达水平不变的基因都是必要的。在数据处理过程中,特定参数(信号)值与非特异性参数(噪声)的比值很大程度上影响了最终的结果,这个比值被称为信噪比。选择富含信息的基因是降低数据的复杂性、提高信噪比的第一步。 2.1 实现过程 2.1.1 数据标准化 对实验鼠的基因绝对表达水平(P1Sig代表健康鼠的基因绝对表达水平,P2Sig代表患病鼠的基因绝对表达水平)数据进行修正。由于多种原因,实验数据表现的结果是基因在健康鼠体内的表达水平整体高于患病鼠,但这是不符合事实的,所以本文将所有P1Sig和P2Sig分别求和得到S1和S2,再给所有P2Sig乘以系数S1/S2。这样,得到的新的P2Sig值整体水平即与P1Sig持平。针对造成 2.1.2 相对值计算 得到处理后的P2Sig之后,需要进一步针对每个基因比

文档评论(0)

kabudou + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档