基于孤立点分析统计抽样方法.docVIP

下载本文档

6
0
约3.63千字
约 7页
2018-08-29 发布于福建
举报
版权申诉

基于孤立点分析统计抽样方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于孤立点分析统计抽样方法

基于孤立点分析统计抽样方法　　【摘要】目的笔者借助大数据技术筛选和拆分医院庞大的医疗信息数据集，分析医学数据之间的内在逻辑关系，构建基于孤立点分析的统计抽样模型。方法对某地三级综合医院2013～2017年间收治的2499例Ⅱ型糖尿病患者进行基于孤立点分析的统计样本的选取。结果前3个公共因子可以代表92.668%的原始数据，可信度较高；对3个公共因子进行K-means算法的第一次聚类分析中，2499组观测数据均有效。第三簇124（4.96%10%）观测点为孤立点。结论实现了快速确定可疑样本，为进一步制定详细医疗方案，提高医疗效率、降低医疗风险和节约医疗成本提供了可能。　　【关键词】医疗云数据；统计抽?樱还铝⒌惴治? 　　一、孤立点分析方法介绍　　孤立点分析又称孤立点挖掘、异常检测、偏差检测。它是指在数据挖掘过程中存在的不符合数据模型的数据对象，这些数据通常被看作是数据集中的噪声，它们的存在会影响数据挖掘的精确度，有时甚至会产生非常差的挖掘效果。这些与其他数据有显著区别的数据对象集合称为孤立点（outlier）。孤立点可能是无用数据，也可能是与实际对应的有意义的事件。目前大部分数据挖掘方法将孤立点视为噪声或异常而丢弃。　　对于医学数据分析来说，异常的数据、事件、频率等往往具有特殊含义或隐藏重要信息，可从中找到病人疾病的线索，它有可能蕴涵某类疾病有意义的、新颖的、有用的知识。从知识发现的角度看，在某些疾病治疗过程中，那些很少发生的事件往往比经常发生的事件更有趣、也更有研究价值。因此，异常数据的检测和分析是一项重要且有意义的研究工作。正因如此，在医疗过程中产生的异常数据，对辅助医生的诊断和提高医学经验的共享都有极其重要的意义，而且由于它具有很强的专业性，使得这方面的研究具有非常大的挑战。　　孤立点分析方法主要分为两个步骤：第一步，在给定的数据集合中提取所需数据并进行分类，然后进行因子分析。第二步，检测和挖掘数据集合中呈现离散状态的小部分数据，即发现孤立点。　　二、基于孤立点分析的统计抽样方法　　大型医院的医疗数据复杂多变、分析内容繁杂，专业技术性非常强，特别是地方性的综合三级医院，大多数病人来自周边地区，使得地域性疾病特征非常明显，因而医疗信息统计研究往往也明显带有地域性和季节性。如何在复杂多样的医疗数据中选取合适的样本进行检测是医学科研中的重中之中。笔者以某地三级综合医院Ⅱ糖尿病为例，演示基于孤立点分析方法的统计抽样模型的构建原理，并在此基础上进行具体病例分析。　　（一）统计模型构建原理演示　　第一步，确定被统计数据集合的变量属性，并进行因子分析。以某地三级综合医院Ⅱ糖尿病近5年收治病人为背景，调查得到各Ⅱ型糖尿病并发症的发生率及各独立危险因素，通常需要考察Ⅱ糖尿病人的性别；地区；平均年龄；吸烟；饮酒；高血压；肥胖；平均糖尿病病程（年）；体质指数（kg/m2）；空腹血糖（mmol/L）；餐后2h血糖（mmol/L）；糖化血红蛋白（%）；收缩压（mmHg）；舒张压（mmHg）；血清总胆醇（mmol/L）；高密度脂蛋白胆固醇（mmol/L）；低密度脂蛋白胆固醇（mmol/L）；甘油三酯（mmol/L）等数据之间的关系是否正常合理。而在实际医疗中，与Ⅱ型糖尿病并发症相关的指标不限于上述变量，可根据实际病情增加其他变量。变量越多，分析复杂性越高，因此进行因子分析以达到降维目的，避免变量间出现多重共线性问题而影响分析结果。　　第二步，发现孤立点。笔者使用SPSS22.0软件中的K-means聚类分析来寻找孤立点，目的是找出与各Ⅱ型糖尿病并发症综合情况相比差异较大的病例，并利用因子散点图分析引起差异的原因所在。根据实际情况，认定若孤立组中包含的观测点数量占其总观测点数量的10%以下，则此孤立组包含的观测点被视为孤立点。此规则依据的是大部分观测点的聚集会使小部分“异常”观测点显现出来。之后利用三维因子散点图对所有数据进一步分析，可直观展现孤立点产生的原因。　　（二）具体案例分析　　随着我国人口老龄化和居民生活方式的改变，糖尿病患病率逐年上升，目前全国患者超过4000万人，成为仅次于印度的糖尿病第二大国。Ⅱ型糖尿病发病隐匿，进程缓慢迁延，许多患者随着病情的进展常出现全身多个脏器的损害，严重者则因而致残和死亡，不仅给患者造成痛苦.也给家庭和社会带来沉重的负担。目前国内对糖尿病的研究多在流行性水平上，而对于个体差异较大的病例视为异常而丢弃。但就糖尿病病人数据分析来说，异常的数据往往具有特殊含义或隐藏重要信息，可从中找到各期糖尿病人并发症的线索或目前尚未发现的知识。为研究某地区Ⅱ型糖尿病并发症的发生率及各独立危险因素与国内水平的差异，某地三级综合医院拟对该院2013～2017年间收治的2499