肿瘤基因图谱信息提取和分类方法研究.docVIP

下载本文档

41
0
约2.33万字
约 33页
2017-01-03 发布于重庆
举报
版权申诉

肿瘤基因图谱信息提取和分类方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

全国第七届研究生数学建模竞赛题目肿瘤基因图谱信息提取和分类方法研究摘要：本文讨论了肿瘤基因图谱信息提取方法，主要工作是提取结肠癌基因表达谱的特征基因信息并利用神经网络进行分类识别。对于问题一、二，本文了一种致癌基因信息提取与分类方法，该方法主要由四步构成：（1）Bhattacharyya距离滤除无关基因；（2）采用两两冗余分析，剔除强相关冗余基因；同时，采用主成分分析方法对所选择的基因样本数据进行降维处理，得到样本的主成分量；（3）对特征提取后的基因数据采用神经网络（BP神经网络及三种径向基神经网络）进行分类学习，分类网络模型（4）采用获得的分类网络模型对测试肿瘤样本进行分类，并采用留一检验法和独立检验法评估四种神经网络分类器性能。结果表明：本文所采用的特征提取方法能有效提出与肿瘤相关的信息基因，且概率神经网络（PNN）的分类识别准确率77.27%）最高。对于问题三，采用小波去噪方法消除基因信息采集过程中的随机误差。为最大限度地消除噪声并保证原始数据信息损失最小，本文分别采用db3、db5、sym8、haar等不同小波基进行去噪，通过对概率神经网络分类的结果比较可知：选择haar小波基对所有数据进行消噪，提取到的特征信息基因更为有效。在独立测试实验中，概率神经网络对22个样本数据的识别准确率为100%。对于问题四，本文采用信息融合的方法，利用加权评分法建立了融入生理学确定信息基因的多信源信息融合模型。通过对PNN-WG模型求解，验证了提出融合模型可将原有概率神经网络的分类准确性从77.27%提高到86.36%，达到了多源信息融合的目的。最后，本文算法的优点进一步研究的方向。二、问题分析本文问题的关键是解决如何从基因表达数据中提取肿瘤分类特征信息以达到对基因表达谱数据进行大幅度降维的目的。对于第一个问题，对于第二个问题，对于第三个问题，对于第四个问题，三、模型假设 1、所给基因数据不含奇异数据； 2、基因的功能与作用是多个基因集体作用的结果； 3、与一种肿瘤直接相关的突变基因数目很少； 4、基因表达谱中含有噪声主要由基因采集过程中随机性产生的误差构成； 5、本文利用的临床生理学信息：大约90%结肠癌在早期有5号染色体长臂APC基因的失活，而只有40%~50%的ras相关基因突变。可看作基于APC基因的分类可信度为0.9，而基于ras相关基因的分类可信度为0.4~0.5。四、符号约定：基因的Bhattacharyya距离；：基因在训练样本集中表达水平间的Pearson 相关系数；：相关系数矩阵；：网络输入向量；：网络目标向量；：中间层单元输入向量；：中间层单元输出向量；：输出层单元输入向量；：输出层单元输出向量；：输入层至中间层的连接权，；：；：中间层各单元的输出阈值，；：输出层各单元的输出阈值，；：信息基因的可信度，；：神经网络输出结果赋予权值，；：加权评分向量；：真实信号：信号中的噪声；：含噪声的信号Bhattacharyya距离衡量基因含有样本分类信息的多少，滤除无关基因；冗余基因剔除。采用两两冗余分析，剔除强相关冗余基因；提取主成分分量。采用主成分分析（PCA）方法对所选择的基因样本数据进行降维处理，得到样本的主成分分量；分类模型训练和最优基因组合筛选。对特征提取后的基因数据形成的个候选基因子集分别采用神经网络（BP神经网络及三种径向基神经网络）进行分类学习，训练网络权值，得到分类网络模型和最优基因组合；测试分类模型。采用获得的分类网络模型对测试肿瘤样本进行分类，并采用留一检验法和独立检验法评估四种神经网络分类器性能。图5-1 致癌基因信息提取与分类方法框架 5.1 数据的预处理 5.1.1均值中心化由于样本中存在大量的来源于一个基因样本的多次重复试验数据，为保证在特征提取和分类时，这些数据之间的相关性不对结果产生较大影响，本文对这些数据进行均值中心化处理，该过程同时可在一定程度上消除数据的系统偏差。处理后，原始数据由2000维降到1909维。 5.1.2 归一化本文使用的特征提取方法和人工神经网络分类识别算法要求首先对输入数进行归一化处理。；（5-1）（5-2）（5-3） 5.2类别无关基因的滤除由于只有少数基因与样本某一特定的表型（生物类别）相关，其余大部分基因是同该表型无关的“类别无关基因”，或者可以理解为“噪声基因”。为有效选取样本的分类特征，本文首先利用基因之间的Bhattacharyya距离作为衡量基因含有样本分类信息多少的度量。 Bhattacharyya距离[1]体现了属性