- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
结肠癌基因表达谱中的特征基因提取方法
摘要:信息基因选取问题是肿瘤基因表达谱分析的核心内容。它既是建立有效分类模型的关键,也是发现肿瘤分类与分型的基因标记物以及药物治疗潜在靶点的重要手段。该文通过收缩质心算法、WV分类方法可以提取出比较少的特征基因,并且可以产生很好的分类效果。
关键词:Bhattacharyya距离;收缩质心算法;WV分类方法
中图分类号: TP18文献标识码:A文章编号:1009-3044(2011)13-3114-02
肿瘤是影响人类健康的主要疾病之一。肿瘤基因表达谱数据挖掘不仅对认识肿瘤的发生发展的机理具有重要意义,而且也会为肿瘤的分子诊断和防治开辟全新的途径,并有助于肿瘤个性化治疗的实现。肿瘤基因表达数据具有样本少、维数高的特点。每一种肿瘤都有其基因的特征表达谱。从众多特征中,找出对分类识别最有效的特征,即可以决定样本类别的一组基因“标签”,也就是“信息基因”,是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径。如何从数以千计的基因中抽取最佳的特征基因子集,挖掘和发现其中蕴含的知识,是当前生物信息学研究的重点课题。
1999年,Alon等用层次聚类等方法对结肠癌样本数据进行了分析研究,选出含有2 000个特征基因的数据集合[1]。在这2 000个特征基因的数据集合基础上,2001年Zhang等人通过递归分割树归纳出2个特征基因集合[2];李霞等人采用一种集成决策方法,得到3个特征基因集合[3]。实验结果表明,搜索出的这些特征基因集合与肿瘤的发生密切相关,但这些方法都比较复杂,分辩率也不是很高。
本文采用质心收缩算法和WV分类方法来确定相应的基因“标签”,算法的运算速度快,计算时间复杂度较低,也达到了80%以上的分类准确率,针对有大量数据时效果较为理想。
1 方法原理
在用Bhattacharyya距离方法进行基因初选后,运用质心收缩算法[4]进一步剔除大量的“无关基因”,每剔除一部分基因之后,就用WV分类方法[5]去验证,最后取出分类正确率最高的基因组合。
实验的算法是:
Step1: Δ=0;
Step2:If Δmax(|dik|),then goto step9;
Step3:
Step4:
Step5:If dikthenremove genei;
Step6:WV分类方法检验;
Step7:increaseΔ ;
Step8:gotoStep2;
Step9:end
Δ为收缩因子,将Δ逐渐加大,从而使影响样本分类能力较差基因的表达水平均值不断向两总体中所有样本的均值靠近,也就消除了这些基因对于分类的影响,让分类能力较强的基因逐步凸显出来。
令 (1)
从而得到 (2)
在公式中xik表示第i个基因在k类样本中的平均表达水平;xi表示第i个基因在样本中的平均表达水平;表示 k类样本数, n表示样本总数;s0是一个正的常数;k表示类别(0或者1),0表示正常类型,1表示肿瘤类型。
以收缩了的质心做为类别的代表样本,利用统计学中单因素分析的思想结合模式识别中最近邻方法来达到分类的目的。将数据样本集分成训练集和测试集,以分类正确率做为选择特征基因准确性的度量。用质心收缩算法在训练集上逐步去除掉对于分类不重要的基因,并考察剩余基因的分类能力,这样不断进行下去,从而得到一个分类误差曲线。从误差曲线上找出误识率最低的一组集合作为特征基因,并采用测试集来检验这组特征基因的分类能力。
判断求知样本一般是属于肿瘤样本和正常样本两种情况,因此采用WV分类方法,训练样本集中的每个基因对类进行一个权重投票计算:。Sg(c)为信噪比,是训练样本集中的基因g在要考虑的两类别(即类c和不是类c)中平均值的比较,其计算公式为:,(其中?滋1表示基因g在类c中的平均值,?滋2表示基因g不在类别c中的平均值,σ1表示基因g在类c中的标准差,σ2表示基因g不在类别c中的标准差)。eg是每个确认集中单独样本中基因g的单独值,(即基因g在两类中平均值的平均值)。如果Vg大于0就表明基因g的预测倾向属于类c,小于0则表明预测倾向不属于类c。用VC来表示倾向于类C的所有基因的投票加和的绝对值,用V-C表示不倾向于类c的所有基因的投票加和的绝对值,如果VC大于说明样本属于类C,如果VC小于V-C说明样本不属于类C,预测的可信度计算方法为: 。
2 数据集
从相关网站[6]下载得到结肠癌数据集。该数据集包含62个样本,其中22个为正常样本(normal),40个为肿瘤样本(tumor),每个样本包含有2000个基因,这2000个基因是Alon等根据一
您可能关注的文档
- 模糊查询在有线电视数据库管理系统中的应用.doc
- 江西省南昌市国库集中支付系统设计需求.doc
- 将当前系统环境 克隆到虚拟机.doc
- 将企业培训模式引入大学实践教学的探索与思考.doc
- 将专业课知识融入C++面向对象程序设计教学.doc
- 讲好离散数学的第一次课.doc
- 讲解“C语言”课程几点心得.doc
- 讲者思路清晰 听者情绪饱满.doc
- 降低路由开销的ZigBee路由算法研究.doc
- 交互式电子技术手册解析关键技术研究.doc
- 北师大版(2024)八年级数学上册课件 3.2 平面直角坐标系 第2课时 点的坐标特征.pptx
- 北师大版(2024)八年级数学上册课件 3.2 平面直角坐标系 第3课时 建立适当的平面直角坐标系.pptx
- 北师大版(2024)八年级数学上册课件 4.3 一次函数的图象 第1课时 正比例函数的图象及性质.pptx
- (人教A版数学选择性必修三)讲义第15讲7.1.1条件概率(学生版+解析).docx
- (人教A版数学选择性必修三)讲义第19讲8.1成对数据的统计相关性(8.1.1变量的相关关系+8.1.2样本相关系数)(学生版+解析).docx
- 北师大版(2024)八年级数学上册课件 5.2 二元一次方程组的解法 第2课时 加减消元法.pptx
- (人教A版数学选择性必修一)2025年秋季学期讲义第01讲1.1.1空间向量及其线性运算(学生版+教师版).docx
- 北师大版(2024)八年级数学上册课件 5.2 二元一次方程组的解法 第1课时 代入消元法.pptx
- 北师大版(2024)八年级数学上册课件 5.3 二元一次方程组的应用 第3课时 二元一次方程组的应用(3).pptx
- 北师大版(2024)八年级数学上册课件 5.4 二元一次方程与一次函数 第2课时 用二元一次方程组确定一次函数表达式.pptx
最近下载
- 黑龙江省齐齐哈尔市克东县克东一中、克山一中等五校联考2025年高三5月仿真考试数学试题含解析.doc VIP
- 新编机关事业单位工人汽车驾驶员高技师国家题库练习题题附答案.docx VIP
- 黑龙江省齐齐哈尔市克东县第一中学2025届高三下学期第五次模拟测试数学试题(含答案解析).docx
- 2025年福建省中考语文试卷(含答案).docx
- 新编机关事业单位工人汽车驾驶员高级、技师国家题库练习题455题(附答案)名师资料..doc VIP
- T_BPMA 0010—2021_现制现售净水机卫生管理规范.pdf VIP
- 复合益生菌发酵玉米-豆粕型日粮对哺乳期羔羊瘤胃发酵参数及菌群结构的影响.pdf VIP
- 野百合也有春天,日本女白领情定宁夏送电工.doc VIP
- 浅谈对智能化医院系统建设见解.doc VIP
- FSSC220006.0 附件中文版本.pdf VIP
文档评论(0)