基于统计方法的结肠癌基因信息提取研究.docVIP

基于统计方法的结肠癌基因信息提取研究.doc

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于统计方法的结肠癌基因信息提取研究

基于统计方法的结肠癌基因信息提取研究 内蒙古财经学院 王立勇、张志红、李慧燕 摘要 本文主要采用了修正的信噪比、基于密度的祛噪声方法以及统计检验相结合的方法提取基因图谱信息。通过对治疗结肠癌新途径中基因疗法中的致病基因提取做研究分析,利用统计学的相关知识更加精确有效地提取致病基因。旨在对于提取基因图谱信息方法的改进,找到可以能够对样本分类信息量进行更有效估计的方法采用基于密度的祛噪声方法进行噪声祛除,并使用噪声云图对祛噪前后的效果进行了直观描述,表明可以有效祛除噪声。并利用聚类分析和判别分析统计的方法,最终确定了与结肠癌有关的8个信息基因。 关键词:修正的信噪比;祛噪声;统计检验。 目录 一、 引言 4 (1)研究背景和选题意义 4 (2)国内外研究现状 4 (3)研究思路 6 二、基因图谱信息提取的实证研究 6 2.1问题分析 6 2.2数据的正态性研究 7 2.3基因序列的初步提取 10 2.4统计检验 12 2.5噪声处理 13 2.6肿瘤基因的确定 17 三、结论及分析 18 参考文献 20 引言 (1)研究背景和选题意义 结肠癌是胃肠道常见的恶性肿瘤,仅次于胃癌、食管癌。癌肿部位最常发生于直肠和乙状结肠,约占77.8%,其次为盲肠及升结肠,再次为降结肠、肝曲及脾曲。结肠癌生长较慢,转移较晚。手术切除仍然是目前结肠癌治疗的主要治疗方法,并可辅以化疗,免疫治疗、中药以及其它支持治疗。结肠恶变是常见的恶性恶变之一,以40岁~50岁年龄组发病率最高。据世界流行病学调查,发现结肠恶变在北美、西欧、澳大利亚、新西兰等地的发病率最高,居内脏种瘤前二位,但在亚、非、拉美等地发病率则很低。我国的发病率与死亡率低于胃恶变,食管恶变、肺恶变等常见恶性恶变。   随着人民生活水平的提高,饮食结构的改变,其发病率呈逐年上各趋势。中国和日本人的大肠恶变发病率明显低于美国,但移民到美国的第一代即可见到大肠恶变发病率上升,第二代基本接近美国人的发病率。从流行病学的观点看,结肠恶变的发病和环境、生活习惯、尤其是饮食方式有关。 慢性大肠炎症,如溃疡性结肠炎的肠恶变发生率高于一般人群,炎症的增生性病变的发展过程中,常可形成息肉,进一步发展为肠恶变;克隆氏(Crohn)病时,有结肠、直肠受累者可引起恶变变。血吸虫流行区和非流行区的结肠恶变发病率与死亡率有明显区别,过去认为慢性血吸虫病患者,因肠壁血吸虫卵沉积与毒素刺激,导致大肠粘膜慢性溃疡,炎性息肉等,进而引起恶变变。 这个观点一直在争论, 据浙江省嘉善县血吸虫病日渐控制,新发病例明显减少,晚期病人趋于消失,而结肠恶变的发病率仍很高。 Bhattacharyya 距离基于密度的祛噪声方法以及统计检验相结合的方法提取基因图谱信息。通过对治疗结肠癌新途径中基因疗法中的致病基因提取研究分析,利用统计学的相关知识更加精确有效地提取致病基因。 (3)研究思路 本文通过对治疗结肠癌新途径中基因疗法中的致病基因提取做研究分析,利用统计学的相关知识更加精确有效地提取致病基因。旨在对于提取基因图谱信息方法的改进,找到可以能够对样本分类信息量进行更有效估计的方法。通过信噪比的改进、密度去噪声方法、非参数检验和判别分析相结合的方法,找到8组携带致病信息的基因。通过对比、比较运用更加有效的方式准确提取结肠癌致病基因。 二 基因图谱信息提取的实证研究 符号说明 符号 符号说明 d 信噪比 B 基因Bhattacharyya 距离 CK 吸附计数器 sj 任取一种子 N 总体数量 n 样本容量 σ 标准差 α 显著性水平 2.1问题分析 本文的分析对象是结肠癌数据集,可从相关网站[7]下载得到。该数据集包含了62个样本,其中22个为正常样本(normal),40个为肿瘤样本(tumor),每个样本包含有2 000个基因,这2000个基因是Alon等根据一定的准则从原始数据6 500个基因中挑选出来的具有代表性的基因。由于原始样本集中的每个样本都是以2000个基因测量值来表征的,要在如此众多的属性中选出一组对分类而言最为有效的属性,即样本的分类因素,同时又兼顾计算复杂度,可以采用对每个基因包含的样本分类信息量进行有效估计的方法进行。因此,如何衡量每个属性包含的样本分类信息量,准确估计该属性对样本分类的贡献程度就成为有效选择分类特征的关键。选取样本分类特征的一个基本思想是考察样本类别在每个属性上的可分性,而可分性的计算又可以通过考察该属性在同类别样本上的相似性(类内距离)以及该属性在不同类别样本间的差异性(类间距离)来进行计算。不同的样本总体分布形态会带来不同的样本指标间关系的差异性,因此为了更好的对数据进行研究,从总体上把握数据的分布状况,需要研究总体的分布情况。对数据进行分布形态分析。

文档评论(0)

liudao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档