肿瘤基因标签提取数学模型.docVIP

下载本文档

0
0
约4.79千字
约 9页
2017-09-04 发布于未知
举报
版权申诉

肿瘤基因标签提取数学模型.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

肿瘤基因标签提取数学模型

肿瘤基因标签提取数学模型　【摘要】本文首先运用Relief算法与相关性分析相结合的方法，去除大量无关基因和冗余基因，取出了区分癌变样本的特征基因；接着根据特征基因的表达水平，结合BP神经网络建立了分辨正常样本与癌变样本的分类器，并对样本作了测试；然后，利用该分类器讨论了Golub噪声模型对提取基因标签是有利的；最后，从统计学角度出发，结合提取基因标签，建立了诊断肿瘤疾病的假设检验模型，并提取若干个样本进行了验证. 　【关键词】Relief算法;BP神经网络;Golub噪声模型;假设检验模型　　引言　随着大规模基因表达谱技术的发展，基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题.如果可以在分子水平上利用基因表达分布图准确地进行肿瘤亚型的识别，对诊断和治疗肿瘤具有重要意义.因为每一种肿瘤都有其基因的特征表达谱.从DNA芯片所测量的成千上万个基因中，找出决定样本类别的一组基因“标签”,即“信息基因”是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在，同时也为抗癌药物的研制提供了捷径. 　通常由于基因数目很大，在判断肿瘤基因标签的过程中，需要剔除掉大量“无关基因”，从而大大缩小需要搜索的致癌基因范围.1999年《Science》发表了Golub等针对上述急性白血病亚型识别与信息基因选取问题的研究结果［1］.Golub等以“信噪比”,采用加权投票的方法进行亚型的识别,仅根据72个样本就从7129个基因中选出了50个可能与亚型分类相关的信息基因.Guyon等则利用支持向量机的方法再从中选出了8个可能的信息基因［2］.但信噪比不是衡量基因对样本分类贡献大小的唯一标准，肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果，在确定某种肿瘤的基因标签时，应该设法充分利用其他有价值的信息.考虑到肿瘤的基因标签的选择过程类比机器学习中的特征选择方法非常相似，所以，我们选择用Relief算法作为特征基因的预筛选器，然后对筛选出来的基因进行冗余分析，确定信息基因.基于神经网络对大规模数据进行并行处理的优势，最后用BP神经网络作为样本分类和识别器；考虑到数据噪声，我们引入Golub噪声模型，剔除噪声基因. 　1.模型的建立与求解　模型假设基因表达之间的相关性表现在其表达水平的相关系数大小上，相关系数越大，相关性就越大.有些基因在大多数样本中的表达水平是非常相近的，只有少数的样本会出现特殊的情况，这些的基因认为是噪声基因. 　1.1 信息基因的确定　1.1.1 Relief算法初步筛选　在机器学习领域，Relief算法［5］［10］属于一种特征权重算法，其通用性强，算法复杂性低，非常适用于大规模数据集，可以快速去除大量不相关的特征.从训练集中选一个样本R，然后从和R同类的样本中寻找最近邻样本H，称为Near Hit，从和R不同类的样本中寻找最近邻样本M,称为Near Miss，根据以下规则更新每个特征的权重：如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，则降低该特征的权重.最后特征的权重越大，表示该特征的分类能力越强.具体步骤如下：　Step 1：从训练集中随机选取一个样本T，计算其他样本与之的类内或类间距离，本文采用欧式距离：　Dk=sum;mi=1(xTi-xki)2.（1）　其中xTi为样本T中第i号基因的表达水平，xki为第k个样本第i号基因的表达水平，Dk为第k号样本与基础样本T的距离，k=1,2,3，hellip;n. 论文代写　Step 2：以样本T为基础，从类内按距离从小到大排列Step 1得到的样本，从类间按距离从大到小选择距离大的同样数目的样本，得到同类样本集H和不同类样本集M. 　Step 3：先置所有基因的特征权重为0，再根据公式　wi=wi-diff(i,T,H)m+diff(i,T,M)m（2） 　进行累加减得出各个基因的权重，式中wi表示第i号基因的特征权重，diff(i,T,H)表示第i号基因在样本T和同类样本H中的表达水平之差（绝对值），diff(i,T,M)表示第i号基因在样本T和不同类样本M中的表达水平之差（绝对值），m是总的基因个数. 　1.1.2 冗余分析　基因表示之间存在着很强的相关性［7］，但是一般认为与一种肿瘤直接相关的突变基因数目很少.在Relief算法筛选出来的部分信息基因之间相关性是很强的，因此接下来对上述得到的基因进行冗余分析.具体步骤如下：　Step 1：分别计算基因表达水平两两之间的相关系数，得到一个相关系数矩阵. 　Step 2：规定一个相关系数阈值，提取出相关系数大于该阈值的若干对基因，根据大量实验，我们认为，当