- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
肿瘤基因图谱信息提取和分类方法研究
摘 要
本文主要讨论了如何提取肿瘤基因图谱信息,主要工作是对结肠癌基因表达谱的特征基因信息进行了提取,并利用四种神经网络模型对其进行分类识别。
对于问题一、二,本文采用了一种致癌基因信息提取与分类方法,该方法主要由四步构成:(1)利用 距离法滤除不相关基因;
(2)采用两两冗余分析,剔除强相关冗余基因;同时,采用主
成分分析方法对所选择的基因样本数据进行降维处理,得
到样本的主成分量;
(3)采用四种神经网络(BP 神经网络及三种径向基神经网络)
对特征提取后的基因数据进行分类学习,从而获得分类
网络模型;
(4)采用获得的分类网络模型对测试肿瘤样本进行分类,并采
用留一交叉检验法和独立检验法评估四种神经网络分类
器性能。
结果表明:本文所采用的特征提取方法能有效提出与肿瘤相关的信息基因,选取的特征基因子集包含9 个基因,且采用概率神经网络(PNN)的分类识别准确率(77.27%)最高。
关键词:肿瘤基因;特征提取;分类识别;
一、问题重述
癌症起源于正常组织在物理或化学致癌物的诱导下,基因组发生的突变,即
基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常
分布(即所包含基因的种类和各类基因以该基因转录的的多少来衡量的
表达水平)。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。
DNA 微阵列(DNA ),也叫基因芯片,是最近数年发展起来的一种能快速、高效检测DNA 片段序列、基因表达水平的新技术。它将数目从几百个到上百万个不等的称之为探针的核苷酸序列固定在小的玻璃或硅片等固体基片或膜上,该固定有探针的基片就称之为DNA 微阵列。根据核苷酸分子在形成双链时遵循碱基互补原则,就可以检测出样本中与探针阵列中互补的核苷酸片段,从而得到样本中关于基因表达的信息,这就是基因表达谱,因此基因表达谱可以用一个矩阵或一个向量来表示,矩阵或向量元素的数值大小即该基因的表达水平。
随着大规模基因表达谱技术的发展,人类各种组织的正常的基因表达已经获
得,各类病人的基因表达分布图都有了参考的基准,因此基因表达数据的分析与
建模已经成为生物信息学研究领域中的重要课题。从DNA 芯片所测量的成千上
万个基因中,找出决定样本类别的一组基因“标签”,即“信息基因”是正确识
别肿瘤类型、给出可靠诊断和简化实验分析的关键所在。
通常由于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量“无
关基因”,从而大大缩小需要搜索的致癌基因范围。事实上,在基因表达谱中,
一些基因的表达水平在所有样本中都非常接近。因此,必须对这些“无关基因”
进行剔除。但信噪比肯定不是衡量基因对样本分类贡献大小的唯一标准,肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果,在确定某种肿瘤的基因标签时,应该设法充分利用其他有价值的信息。有专家认为在基因分类研究中忽略基因低水平表达、差异不大的表达的倾向应该被纠正,与临床问题相关的主要生理学信息应该融合到基因分类研究中。
面对提取基因图谱信息这样前沿性课题,以下几点是解决前沿性课题的有价
值的工作。
(1)由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关
的突变基因数目很少。对于给定的数据,如何从上述观点出发,选择最好的分类
因素?
(2)相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的
学习问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有当
这种特征较少时,分类的效果才更好些。对于给定的结肠癌数据如何从分类的角
度确定相应的基因“标签”?
(3)基因表达谱中不可避免地含有噪声,有的噪声强度甚至较大,对含有
噪声的基因表达谱提取信息时会产生偏差。通过建立噪声模型,分析给定数据中
的噪声能否对确定基因标签产生有利的影响?
(4)在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切,
建立融入了这些有助于诊断肿瘤信息的确定基因“标签”的数学模型。
二、问题分析
本文问题的关键在于如何对基因表达谱数据进行大幅度降维。
对于问题一,就某种特定的肿瘤来说,一般认为与一种肿瘤直接相关的突变基因
文档评论(0)