医学科研数据挖掘方法--数据预处理.ppt

下载文档 降价啦

12
0
约2.21万字
约 69页
2017-05-19 发布于湖北
举报
版权申诉
保障服务

医学科研数据挖掘方法--数据预处理.ppt

1、本文档共69页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

当观察对象相同而变量不同时，需要采取数据的横向合并： %dtsmrge(data=A B, id=ID , outdata=new, set=11, prnopt=1); NEW =<A or B 当观察对象不同而变量相同时，需要采取数据的纵向合并： %dtsmrge(data=A B, id=ID , outdata=new, set=. ., prnopt=1); NEW＝A+B 根据家系结构挑选家系遗传流行病学资料分析时往往需要根据对父母是否存在及子女的数量的要求来选择符合设定条件的家系，因此，在数据分析前需要从总的数据库中挑选出所需要的家系结构的人数。 %fmyslt(B1.REGIS1,>=2,FM=11,FMYID=FMYID,MEMBID=NID,outdata=REG1SLT); Report for Family Structure %fmyrpt(), dataset:TEMP.REG1.SLT ===> Fa Mo Sibs=0 Sibs=1 Sibs=2 Sibs=3 Sibs=4 Sibs=5 Sibs=6 Sibs=7 Total 1 1 0 0 20 13 14 10 2 4 63 Total 0 0 20 13 14 10 2 4 63 Total observations == 351 Total Unique ID (subjects) == 350 Total missing family information == 0 根据某一表型从家系中挑选极端(或患病)同胞对同胞对研究方法是遗传学研究中普遍使用的方法，而遗传学研究中的表型变量又可分为两大类，一类是连续变量，如血压值；另一类是两分类变量，如是否患高血压。如是两分类变量，一般是要寻找兄弟姐妹中有两人都患病的同胞对，如兄弟姐妹中两人患高血压；如是连续变量，常用的方法是先根据分布将连续变量值分成高、中、低三组，再寻找兄弟姐妹中有两人都高，或两人都低，或一高一低（反差）的同胞对。结果一 Sib Pairs Report: Data=SBPG, Phenotype=SBPGRP # Fmy % Low-Low 15 11.81 High-High 13 10.24 Low-High 5 3.94 All ESP 31 24.41 Total 127 100.00 结果二(新产生的数据集SIBPAIR部分记录打印如下) Obs FMYID elsp ehsp edsp esp nl nh ... ... ... ... 84 0132 . . . . 0 0 85 0133 . 1 . 1 0 2 86 0134 . . . . 1 0 87 0135 . . . . 0 1 88 0136 . . 1 1 1 1 NL表示低的同胞数，NH表示高的同胞数，ELSP表示是否有同低的同胞对，EHSP表示是否同高的同胞对，EDSP表示是否有反差同胞对，ESP表示是否有以上任何一种类别的同胞对。数据预处理—— 磨刀不误砍柴工 Duplicated Observations to Be Deleted Obs HEIGHT WEIGHT SBP DBP SUBJ 56 1.50 50.0 114 66 00270 347 1.65 64.5 111 70 00399 Obs H