结肠癌基因表达谱中的特征基因提取方法.docVIP

下载本文档

1
0
约3.87千字
约 6页
2018-04-07 发布于北京
举报
版权申诉

结肠癌基因表达谱中的特征基因提取方法.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

结肠癌基因表达谱中的特征基因提取方法　　摘要：信息基因选取问题是肿瘤基因表达谱分析的核心内容。它既是建立有效分类模型的关键，也是发现肿瘤分类与分型的基因标记物以及药物治疗潜在靶点的重要手段。该文通过收缩质心算法、WV分类方法可以提取出比较少的特征基因，并且可以产生很好的分类效果。　　关键词：Bhattacharyya距离；收缩质心算法；WV分类方法　　中图分类号： TP18文献标识码：A文章编号：1009-3044(2011)13-3114-02 　　肿瘤是影响人类健康的主要疾病之一。肿瘤基因表达谱数据挖掘不仅对认识肿瘤的发生发展的机理具有重要意义，而且也会为肿瘤的分子诊断和防治开辟全新的途径，并有助于肿瘤个性化治疗的实现。肿瘤基因表达数据具有样本少、维数高的特点。每一种肿瘤都有其基因的特征表达谱。从众多特征中，找出对分类识别最有效的特征，即可以决定样本类别的一组基因“标签”，也就是“信息基因”，是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在，同时也为抗癌药物的研制提供了捷径。如何从数以千计的基因中抽取最佳的特征基因子集，挖掘和发现其中蕴含的知识，是当前生物信息学研究的重点课题。　　1999年，Alon等用层次聚类等方法对结肠癌样本数据进行了分析研究，选出含有2 000个特征基因的数据集合[1]。在这2 000个特征基因的数据集合基础上，2001年Zhang等人通过递归分割树归纳出2个特征基因集合[2]；李霞等人采用一种集成决策方法，得到3个特征基因集合[3]。实验结果表明，搜索出的这些特征基因集合与肿瘤的发生密切相关，但这些方法都比较复杂，分辩率也不是很高。　　本文采用质心收缩算法和WV分类方法来确定相应的基因“标签”，算法的运算速度快，计算时间复杂度较低，也达到了80%以上的分类准确率，针对有大量数据时效果较为理想。　　1 方法原理　　在用Bhattacharyya距离方法进行基因初选后，运用质心收缩算法[4]进一步剔除大量的“无关基因”，每剔除一部分基因之后，就用WV分类方法[5]去验证，最后取出分类正确率最高的基因组合。　　实验的算法是：　　Step1: Δ=0; 　　Step2:If Δmax(|dik|)，then goto step9; 　　Step3: 　　Step4: 　　Step5:If dikthenremove genei; 　　Step6:WV分类方法检验; 　　Step7:increaseΔ ; 　　Step8:gotoStep2; 　　Step9:end 　　Δ为收缩因子，将Δ逐渐加大，从而使影响样本分类能力较差基因的表达水平均值不断向两总体中所有样本的均值靠近，也就消除了这些基因对于分类的影响，让分类能力较强的基因逐步凸显出来。　　令（1）　　从而得到（2）　　在公式中xik表示第i个基因在k类样本中的平均表达水平；xi表示第i个基因在样本中的平均表达水平；表示 k类样本数， n表示样本总数；s0是一个正的常数；k表示类别（0或者1），0表示正常类型，1表示肿瘤类型。　　以收缩了的质心做为类别的代表样本，利用统计学中单因素分析的思想结合模式识别中最近邻方法来达到分类的目的。将数据样本集分成训练集和测试集，以分类正确率做为选择特征基因准确性的度量。用质心收缩算法在训练集上逐步去除掉对于分类不重要的基因，并考察剩余基因的分类能力，这样不断进行下去，从而得到一个分类误差曲线。从误差曲线上找出误识率最低的一组集合作为特征基因，并采用测试集来检验这组特征基因的分类能力。　　判断求知样本一般是属于肿瘤样本和正常样本两种情况，因此采用WV分类方法，训练样本集中的每个基因对类进行一个权重投票计算：。Sg(c)为信噪比，是训练样本集中的基因g在要考虑的两类别(即类c和不是类c)中平均值的比较，其计算公式为：，(其中?滋1表示基因g在类c中的平均值，?滋2表示基因g不在类别c中的平均值，σ1表示基因g在类c中的标准差，σ2表示基因g不在类别c中的标准差)。eg是每个确认集中单独样本中基因g的单独值，（即基因g在两类中平均值的平均值）。如果Vg大于0就表明基因g的预测倾向属于类c，小于0则表明预测倾向不属于类c。用VC来表示倾向于类C的所有基因的投票加和的绝对值，用V-C表示不倾向于类c的所有基因的投票加和的绝对值，如果VC大于说明样本属于类C，如果VC小于V-C说明样本不属于类C，预测的可信度计算方法为: 。　　2 数据集　　从相关网站[6]下载得到结肠癌数据集。该数据集包含62个样本，其中22个为正常样本(normal)，40个为肿瘤样本(tumor)，每个样本包含有2000个基因，这2000个基因是Alon等根据一