基于改进relief算法的结肠癌特征基因选择的研究6681.docVIP

下载本文档

10
0
约1.6万字
约 44页
2017-12-07 发布于江西
举报
版权申诉

基于改进relief算法的结肠癌特征基因选择的研究6681.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于改进relief算法的结肠癌特征基因选择的研究6681

基于改进relief算法的结肠癌特征基因选择的研究6681 ., 曲 . ., . ., , . , , ,.%. , : , 第一章引言第一章引言癌症起源于正常组织在致癌物的诱导下,基因组发生的突变,因而改变了基因原来的正常分布。随着大规模基因表达谱技术的发展,人类各种组织的正常的基因表达已经获得,各类病人的基因表达分布图都有了参考的基准,因此如果可以在分子水平上利用基因表达分布图准确地进行癌症的识别,对诊断和治疗癌症具有重要意义。通常由于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量“无关基因’’,从而大大缩小需要搜索的致癌基因范围。事实上,在基因表达谱中,一些基因的表达水平在所有样本中都非常接近。第一节课题研究背景以及意义年美国科学家率先提出了人类基因组计划 ,,旨在阐明人类基因组亿个碱基对的序列,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息,使人类第一次在分子水平上全面地认识自我【】。随着人类基因组计划的实施和顺利完成,产生出了海量的生物数据,有待于人们利用各种方法、从不同角度对其进行分析和解释,以获得对生命现象更加深入的理解和认识。相对于这种生物数据的海量积累,我们的信息和知识却增长缓慢。医学、药物、农业和环保等方面迫切需要从这些原始的数据中得到有用的知识,这种需要就促使了生物信息学这一交叉学科的产生。生物信息学.是交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。生物信息学的出现和发展为人们利用信息科学的理论和方法对这些数据进行分析和理解、挖掘其中隐含的信息和知识提供了一种有效的研究手段。自生物信息学诞生以来,主要经历了以下三个阶段?】: 基因时代的生物信息学:主要是进行序列分析、生物数据库的构建和查询。基因组时代的生物信息学:主要是基因的寻找、序列比对、网络交互界面的研究。后基因组时代的生物信息学:主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析,其研究的内容不仅包括基因的查询和同源性分析,而且进一步到基因和基因组的功能分析,即所谓的功能基因组学研究。伴随着后基因组时代的到来,生物信息学的研究正进入一个全新的发展阶段,其中第一章引言对基因组表达调控和基因功能的分析和研究将成为今后很长一段时间内生物信息学研究的主要目标和核心内容,其研究重点是基因组范围内功能基因的发现与识别,以确定基因在生物体正常生理和病理方面的功能与作用:进而从调控网络的观点出发对基因间、基因与蛋白质间的相互作用关系进行研究,从而在系统科学的层面上对基因组功能进行整体分析和全面了解】。基因芯片技术无疑为基因功能研究提供了一种强有力的工具,高通量特点使其在基因表达分析、疾病诊断和治疗、新药发现等众多领域得到广泛应用。问题引入第二节微阵列实验一次就能同时测出成千上万个基因的表达,这种技术的出现为肿瘤学的研究提供了一种全新的研究方法,并在医学制药和临床应用领域备受关注,因此采用基因表达谱对肿瘤进行分类检测正逐步形成生物信息学的一个重要研究领域。但由于基因表达数据存在维数高、噪音大、样本数量小以及基因表达之间存在很大相关性等特点,为深入而准确地挖掘序列中蕴含的知识带来极大困难。基因表达数据反映的是测量得到的基因转录产物在细胞中的丰度,这些数据可以用于分析哪些基因的表达发生了改变、基因之间有何相关性以及在不同条件下基因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断以及揭示疾病发生机理等方面都有重要的应用。目前,高通量检测基因组丰度的方法主要是微阵列和寡核苷酸芯片,它们的原理是相同的。自从等【】以急性白血病基因表达谱数据为分类样本提出基于权重表决的基因选择算法以来,许多机器学习方法已经广泛应用于肿瘤分类问题的研究,这些方法所做的主要工作就是降维、去噪以及剔除冗余基因, 目的就是提取信息基因或抽取综合属性信息,并采用合适的分类器最大限度地提高肿瘤样本的分类性能。由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数目很少。对于给定的数据,如何从上述观点出发,选择最好的分类因素相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的学习问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有当这种特征较少时,分类的效果才更好些。对于结肠癌数据如何从分类的角度确定相应的基因“标签” 基因表达谱中不可避免地含有噪声见年在发表的文章】, 有的噪声强度甚至较大,对含有噪声的基因