- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE
PAGE 3
基于判别分析法的“地贫”基因模型
摘要
本文利用了系统聚类分析法、判别分析、综合评价等方法找出了地贫患者样本与健康人样本在基因链上的区别,预测待筛查样本是“健康”样本。
针对问题一,由于样本中共有110个不同基因,即110个观测指标,若考虑110个指标对人体的基因影响,不仅计算量过大,一定程度上也不够精准,因此需要对基因进行筛选,从众多的观测变量中综合出携带原始数据信息最多且相互独立的几个因素来解释原有数据变量,使多维变量降维,从而简化数据结构,给分析问题、研究问题带来方便。首先建立系统聚类模型,利用SPSS软件对原始数据进行系统聚类分析,得出前40个样本可大致分为两类。
已知的1-20为健康样本,21-40为地贫患者样本,得到系统聚类分析的拟合率为 80%。再根据前40个样本的每个基因的均值与标准差进行比较分析,剔除影响较小的基因,留下42个观测指标来代替110个指标。并以这42个指标利用SPSS对1-40样本再次进行聚类分析处理,以此检验主成变量选取的精确性。
经过主变量选取后,得到拟合率为87.5%,比初始聚类分析的结果增加了7.5%,同时验证了所选取指标具有一定的正确性。再用判别分析法对41-60待测样本进行检测,得到的结果为:
正常样本:43,45,50,53
地贫患者样本:41,41,33,46,47,48,49,51,52,54,55,56,57,58,59,60
针对问题二,综合问题一所解,运用SPSS软件及EXCEL可视化方法,以图表方式表达地贫患者于健康样本基因表达上的区别,并通聚类分析的个案聚集找出患者样本基因均值和标准差的偏离度,从而确定患病基因中有子类存在,其中 17,20属于同一个子类。
关键词
系统聚类分析 判别分析 fisher判别 基因 SPSS
正文
一、问题重述
附件(基因链.xls)中给出了60个人的基因链样本(每个人的基因链均给出了110个基因)。按人员编号划分:编号1~20是地贫患者的样本,编号21~40是健康人员的样本,编号41~60个是待筛查人员的样本。
(1)试设法找出描述地贫患者样本与健康人样本在基因链上的区别,建立数学模型和筛查方法,去预测待筛查样本是“地贫”还是“健康”。
(2)设计图示(可视化)方法,使所建立的数学模型尽可能清楚地表达“地贫”样本与“健康”样本在基因链上的区别。以及癌症样本中是否有子类。
二、问题概要分析
由题知,该问题中共有60个样本,健康、地贫患者及待测人员样本各占三分之一,每个样本中都有110个基因,要想找出地贫患者样本与健康人样本在基因链上的区别,地贫基因不可能是全部的110个基因,对全部基因进行检测也是不切实际的,因此需要筛选出部分主成因素基因,同时也要对提取出的基因进行检测,验证其是否具有代表性、精确性。因此采用系统聚类分析法,先对40个样本进行所有基因的Q型聚类,结合原始数据求出拟合度。再对筛选后的基因再次Q型聚类、拟合度分析,两者结果进行比较,从而得到验证精确性。
系统聚类的步骤一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的变量(或样品)首先聚合为一类,而把另一些相似程度较小的变量(或样品)聚合为另一类,直到所有的变量(或样品)都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。其相似程度由距离或者相似系数定义。进行类别合并的准则是使得类间差异最大,而类内差异最小。
针对待测样本的检验筛选,目的是从待测样本中分出健康与地贫患者两大类。判别分析的实现需要依赖于已知的观测数据,这些观测数据应该具有明确的数据分类,然后根据这些观测数据,通过判别分析,建立判别函数对数据进行分类,使数据的错判率最低,然后根据建立的判别函数可以实现对未知分类数据的所属类别的判断。题中,我们已得知样本的明确数据分类,且已有观测数据,因此,可以结合SPSS判别分析。
三.模型假设
[1]假设健康人之间,病人与健康人,病人之间互不影响, 相互独立;
[2假设数据真实有效,能反映人身体健康与地中海贫血症关系的真实状况;
[3]假设每个基因的表达程度与地中海贫血症的关联度有区别,即癌症对每个基因的影响不一样;
[4]假设同一种地中海贫血症对不同人的同一种基因表达水平的促进与否相同。
四.符号说明
协方差阵∑的估计值
第i个基因
地贫健康总体判别量
患者总体判别量
马氏距离
患病者42个基因均值
不患病者42个基因均值
M
两个总体均值的中点估计值
Y
费歇样本判别函数量
F
检验统计量
X
费歇样本判别函数未知变量的总和
P
42组基因维数
五.模型建立与求解
5.1
本文首先要解决的是从110个基因中筛选出主要影响地贫的基因组
您可能关注的文档
- 毕业论文设计《赤楠果实和种子形态特征以及温度、果肉、失水率、赤霉素浸种、不同基质和播种深度对种子萌发的影响研究》.doc
- 毕业论文设计《--齿轮齿条转向器设计》.doc
- 毕业论文设计《齿轮齿条转向器的设计》.doc
- 毕业论文设计《冲水手柄注塑模具设计毕业设计说明书》.doc
- 毕业论文设计《冲裁和拉深冲压工艺模具设计》.doc
- 毕业论文设计《宠物托管创业报告论文》.doc
- 毕业论文设计《抽油机地面能耗分析》.doc
- 毕业论文设计《抽油机_文献翻译--齿轮传动离心泵:一种新的高容量提升系统》.doc
- 毕业论文设计《稠油油井防砂工艺技术研究论文》.doc
- 毕业论文设计《出租车--GPS出租车监控管理系统解决方案》.doc
原创力文档


文档评论(0)