- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因的分类与癌症基因的识别精选
摘 要
本文针对某基因表达信息样本的分类问题,确定癌症与正常样本在基因表达
水平上的特征区别,运用神经网络、数理统计以及判别函数等理论,建立了分类
模型,并通过设计相关算法,最终完整地解决了题目中的问题。
针对问题一,为了描述癌症与正常样本在基因表达水平上的区别,结合本题
的数据特征,我们引进了能处理大规模并行分布非线性系统的B-P 神经网络,通
过B-P 神经网络所具有的联想记忆能力,对于输入网络进行设置,调整系统的
期望输出值在+1~-1 之间,来定量的对未知的样本进行初步的判别,然后为了减
少处理数据样本的运算量,我们采用了主成分分析法中的降维思想来抽取具有代
表性的基因检测指标,即把114 个基因检测指标重新组合成一组新的互相无关的
综合指标。最后,我们从判别函数的角度出发,提出了三个判距,分别是欧式分
类距离、马氏分类距离、Fisher 分类距离,根据空间几何中的样本点与中心点的
距离关系,检测与已知样本分类的准确率。通过对这三种判距与神经网络分类的
比较,综合考虑了一种权衡的算法加权模型,对未知的基因样本进行了分类,样
本的分类结果如下:
A 类:X 41 ,X 43 ,X 44 ,X 46 ,X 48 ,X 49 ,X 50 ,X 51 ,X 52 ,X 53 ,X 54 ,X 55 ,X 56 ,X 58 ,X 59 ,X 60
B 类:X 42 ,X 45 ,X 47 ,X 57
针对问题二,我们首先在问题一的基础上确定了对于癌症与正常样本在基因
表达水平上的区别,根据模型的特征,引进了ROC 曲线,对于分析样本的灵敏
度与特异性具有良好的可视性,通过每一项检测的指标与同相应的临界值相比,
直观简洁地判别癌症与正常样本的基因差别,其验证的结果正确率高达90%。另
外,通过对曲线的观察,我们根据 的计算公式,理论上规定病人的 值越
syni syni
大,病情越严重,因此我们把病人的患病轻重分为三类,即癌症病情的三个级别,
由轻到重分别标记为:Ⅰ、Ⅱ、Ⅲ类,对于前20 个癌症样本分子类的结果如下:
Ⅰ:X 13,X 14 ,X 2 ,X 8 ,X 9 ,X 19 ,X 20 ;
Ⅱ:X ,X ,X ,X ,X ,X ,X ,X ,X ,X ,X ;
1 3 4 5 7 10 11 12 15 16 18
Ⅲ:X .
6
关键词: B-P 神经网络 主成分分析 欧式分类距离 马氏分类距离
Fisher 分类距离 ROC 曲线
1
一、问题的重述
附件中的文件给出了一个114 个基因,60 个人的基因表达水平的样本。其
中前20 个是癌症病人的基因表达水平的样本(其中还可能有子类),其后的是20
个正常人的基因表达信息样本,其余的20 个是待检测的样本(未知它们是否正常) 。
(1)试设法找出描述癌症与正常样本在基因表达水平上的区别建立数学模型,
及识别方法,去预测待检测样本是癌症还是正常样本。
(2)设计图示(可视化)方法,使得在你的数学模型下,尽量清楚地表现癌症与
正常样本在基因表达水平上的区别,以及癌症样本中是否有子类。
二、模型基本的假设
①假设这60 个人的114 个基因表达的数据真实可靠。
②假设这114 个基因指标的数据之间相互独立。
③假设这60 个人的114 个基因指标都是按照相同的顺序进行排列,即数据
的纵向都是同一个相同的观测水平。
④假设把基因表达水平中不属于癌症和正常的样本归为不可判别类。
⑤假设给出的20 个正常人的基因表达信息样本中没有子类.
三、基本符号说明
Xi (i=1,2,3,…,60) 表示60 个人的基因样本
P 表示60 个人基因样本中的114 的测量指标
i
您可能关注的文档
- 基于核心能力突破的课程开发与讲师培养(2天1晚精华版)精选.pdf
- 基于模煳PID电液伺服控制系统的设计和仿真精选.pdf
- 基于新时代背景的城市湖泊型风景区战略转型——以《武汉东湖风景名胜区总体规划(2011-2025)》为例精选.pdf
- 基于模糊PID控制器的控制方法研究精选.pdf
- 基于欧洲满意度调查量表的社区卫生服务满意度评价方法探讨精选.pdf
- 基于波形分析的汽车电控系统故障诊断技术(文献翻译)6666精选.doc
- 基于核Fisher判别分析的高光谱遥感影像分类_杨国鹏精选.pdf
- 基于消费因素的武汉市大型零售商业设施布局分析精选.pdf
- 基于氧化锌的纳米管染料敏化太阳能电池翻译精选.doc
- 基于开源技术的电视台云计算之路精选.pdf
- 2024年度党员干部专题组织生活会个人新四各方面对照检查材料3篇合集.docx
- 2023年民主生活会领导干部个人发言3篇范文.docx
- 第二批主题教育专题组织生活会普通党员个人对照检查材料合集2篇.docx
- 学习以案促改党纪教育专题组织生活会个人对照检查材料两篇.docx
- 党员领导干部2023年民主生活会“六个方面”个人对照检查材料3篇范文.docx
- 党员干部“严守纪律规矩 加强作风建设”组织生活会个人对照检查材料集合篇.docx
- 2024班子防治统计造假专题民主生活会对照检查材料两篇范文.docx
- 2024公司机关党支部教育专题组织生活会个人对照检查材料两篇.docx
- 2023年度专题民主生活会个人对照新6个对照方面检查材料3篇文稿.docx
- 2024第二批主题教育专题组织生活会对照检查材料2篇文本.docx
最近下载
- 2025年安徽水利水电职业技术学院单招职业技能测试题库(各地真题).docx VIP
- 2023年平安人寿保险基本法.docx
- 三年级综合实践教案详细版(新教材).doc VIP
- 环境岩土工程学课件-东南大学-潘华良环境岩土工程学概.pptx VIP
- 人工智能deepseek介绍.pptx VIP
- 2024-2025学年北师大版七年级数学上册同步练:一元一次方程中含参数的问题(6类热点题型)(含答案).pdf VIP
- 新版现西第一册答案.doc
- 六年级下册作文骑鹅旅行记梗概600字精彩4篇.docx
- 2025年合肥通用职业技术学院单招职业技能考试题库及答案1套.docx VIP
- 统编版道法二上 第一单元《我们的节假日》单元整体备课设计.pdf
文档评论(0)