基于聚类分析下的高血压疾病研究.docVIP

下载本文档

6
0
约4.91千字
约 9页
2017-08-25 发布于北京
举报
版权申诉

基于聚类分析下的高血压疾病研究.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于聚类分析下的高血压疾病研究　　摘要：高血压病是富裕型疾病之一，它严重危害了人类健康，因此防治高血压的研究越来越引起世界各地学者的重视。基于上海市东部地区近万名成年人的调查结果，首先采用相关分析提取出与高血压疾病最为相关的五个变量（年龄、BMI、家族史、吸烟时间、吸烟数量），然后采取Q型系统聚类分析法来研究这五个主要因素与高血压患病程度的关系，最后通过观察易患高血压人群的各项指标分布情况，从而达到更有效地预防控制疾病的目的。　　关键词：相关分析；聚类分析；高血压　　中图分类号：　　F27 　　文献标识码：A 　　文章编号：1672-3198（2013）20-0097-03 　　1 引言　　肥胖症、糖尿病、高血压病、高血脂病和冠心病被一些西方国家统称为“富裕型疾病”。在我国随着国民经济的快速发展，人民的生活水平已有了根本的改善并将继续不断的提高，其膳食结构和营养状况也发生了很大的变化，由此而引起的富裕性疾病亦日趋提高。　　本文的数据来源于上海市东部地区从1997年开始实施的一个富裕型疾病调查。这项调查有一个重要的特点是它不仅调查了居民的基本情况和患病情况，而且对于一些可能对富裕型疾病产生重要影响的危险因素或称为易患因素也进行了调查，其中包括家族史、吸烟史、饮酒史等。如何利用调查数据来分析这些危险因素对某一人群或某人患富裕性疾病风险的影响，无疑十分重要。它对医学或人身保险（特别是医疗保险）都有很重要的意义。　　本文以富裕病之一高血压为例，对该数据库进行随机抽样地取出一千条记录，首先利用Kendall（tau-b）方法剔除与高血压患病相关性较小的因素，然后以数学运算软件MATLAB 作为计算平台，利用其自带的数据库和统计工具包，采取多元统计分析中的Q型系统聚类分析法对样品进行聚类分析，最后用加权求和来判别每一类的患病程度，从而确定高血压的患病因素与患病程度之间的关系。本文最终结果将1000条数据分为5类，其中高血压易患人群为第一类、第二类和第五类，这类人群的特点是家庭遗传都较多，平均家里有2人以上患有高血压疾病，由此可见家族遗传是患有高血压的重要因素；而在正常（第三类）人群中BMI最低，也就是肥胖程度最低，所以控制体重、合理饮食也是可以预防高血压的有效手段。　　2 模型介绍及主要结果　　2.1 相关性分析　　影响高血压疾病的因素很多，根据调查结果和医学专家建议本文选取年龄、BMI、家族史、吸烟时间、吸烟数量、饮酒时间、饮酒频率、饮酒数量和户外活动这9项指标与高血压患病情况作相关分析，以期望从中筛选出与高血压患病情况更为相关的指标，为下一步聚类分析做准备。　　考虑到上述九个指标中即含有定量变量（年龄、BMI），又含有定性变量（家族史、吸烟时间、吸烟数量、饮酒时间、饮酒频率、饮酒数量和户外活动），本文引进“关联系数”这个概念。它的作用与研究定量变量相互关系的相关系数类似，主要有以下两个特点：（1）它不仅刻画了变量之间的线性关系的强弱，而且着重反映其它的非线性关系的强弱；（2）它主要用于反映定性变量之间的相关性。用于描述定性变量之间相互关系的统计量很多，这里主要用到两个量：p值和Kendall统计值。p值是表明统计检验结果的，由p值可以判断因素是否与疾病有关，根据显著性水平临界值a的选取，p值越接近于零就越与疾病相关；Kendall统计值是用来度量相关因素与所研究的疾病的相关程度的。Kendall统计值为正，意味着因素为风险因子，即因素有促使疾病发生的作用，Kendall统计值为负，意味着因素对疾病有预防作用。Kendall统计值的绝对值越大，说明因素对疾病的影响程度越强。因此通过p值和Kendall统计值的大小我们就可以确定因素是否与疾病相关和相关性的强弱程度。　　（1）相关性检验。　　我们考虑一对随机变量（X，Y）的相关问题，从一个二维连续分布总体取得独立同分布样本（X1，Y1），（X2，Y2），...，（Xn，Yn）。一个通常会碰到的实际问题是：X和Y是否独立，即检验假设H0：X和Y独立。备择假设可以是单边的（X和Y有正相关，或X和Y有负相关），也可以是双边的（X和Y相关）。此处以双边备择假设为例进行讨论，H1：X和Y相关。　　对于上述独立性假设（H0，H1），一个著名的非参数检验方法为Kendall（tau-a）检验。　　由上表结果可知，年龄、BMI、家族史和户外活动的Kendall（tau-a）统计值是正的，所以它们是高血压疾病的危险因子。取显著性水平的临界值α为0.001，则根据p值，保留年龄、BMI、家族史、吸烟时间和吸烟数量五个因子。而从Kendall（tau-b）统计值的计算结果来看，各变量的符号与Kendall（tau-a）统计值一样，即危险因子保持不