对有关联数据缺失填补方法改进.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对有关联数据缺失填补方法改进

对有关联数据缺失填补方法改进   摘 要:本文根据生物样本数据之间有关联性的特点,对一种最基本的缺失数据填补办法进行逐步优化。首先对数据进行预处理,摘取部分R统计软件中自带的iris鸢尾花数据,每一行代表一株花的记录,并人为随机挖空。其次,使用最基本的均值填补对缺失数据进行填补。然后,针对均值填补法的主要缺点,提出改进方法:对样本数据进行系统聚类,再对分类后的各组数据分别进行均值填补。考虑样本数据之间的关联性,对分类之后的填补方法再一次进行优化,采用回归填补法填补缺失数据。比较基本的均值填补、分类后的均值填补、分类后的回归填补,发现三者的误差率逐步递减,证明本文提出的优化方法是可行的。最后,由于仍然存在相当大的误差,考虑到分类方法是基于欧氏距离,没有考虑指标间的相关性,本文提出马氏距离作为改进。   关键词:填补缺失数据 聚类分析 回归填补 马氏距离   中图分类号:TP31 文献标识码:A 文章编号:1674-098X(2017)09(b)-0138-03   基因芯片是分子生物学、微电子学和信息学等学科交叉形成的一种新型生物技术,目前已经广泛应用于分子生物学、生物医学等研究领域,如DNA测序、基因调控网络和癌症检测等[1]。由于实验中存在很多变异来源,基因表达数据矩阵通常含有缺失,比普通缺失数据更为复杂的是,涉及到基因表达谱的相似性度量。对于缺失数据,先将缺失值填充,然后对产生的完全数据用标准方法进行分析。对于完全数据处理,有很多经典的统计方法,所以重难点在于如何填补数据。   本文首先?κ?据进行预处理,摘取部分R统计软件中自带的iris鸢尾花数据,每一行代表一株花的记录,并人为随机挖空。其次,使用最基本的均值填补对缺失数据进行填补。然后,针对均值填补法的主要缺点,提出改进方法:对样本数据进行系统聚类,再对分类后的各组数据分别进行均值填补。考虑样本数据之间的关联性,对分类之后的填补方法再一次进行优化,采用回归填补法填补缺失数据。比较基本的均值填补、分类后的均值填补、分类后的回归填补,发现三者的误差率逐步递减,证明优化方法是可行的。最后,由于仍然存在相当大的误差,分析其原因,是因为前面的改进都是基于最基本的统计方法结合其他交叉学科,例如张磊等人关于的KNN-RVM分类器的研究[2]中采用的KNN法是将统计方法与模式识别相结合,却没有考虑到这些分类方法都是基于欧氏距离,没有考虑指标间的相关性,可能不太适用于有关联的生物样本数据研究,因此本文提出马氏距离作为改进。   1 数据预处理   为了证明方法的优劣,直接用缺失数据是不妥的,因为无法进行验证。所以先找一些有相关性的完整数据进行随机挖空,然后用不同的方法模型对得到的缺失数据进行填补,最后和原始数据进行比较,衡量填补的精确度。笔者摘取了部分R统计软件中自带的iris鸢尾花数据,每一行代表一株花的记录,并人为随机挖空,从上往下空缺部分的原数据分别为1.4,1.7,2.5。   2 原始模型   均值填补是一种简单有效的处理指标值缺失的方法[3],可以将它看作最基本的缺失值填补方法,即在数据中每一行为一个纪录单元,设Yij是单元i的Yj值,则用有记录的Yj取平均值来替代缺失值,从上往下得到的NA值分别为3.9,1.2,3.1。   但是这种方法并没有考虑数据间的关联性,估计的准确度大受影响。尤其在基因数据中,需要消除不相似基因对基因表达谱中缺失值估计的影响,直接均值填补得到的偏差是很大的,我们可以对该方法进行适当改进,例如先对数据进行分类再填补,考虑数据间的相关性的缺失填补方法,将会更适用于生物统计中。   3 模型改进   3.1 分类填补   关于分类,可用聚类分析[4],聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法。但这些统计方法都是基于完全数据,对于本身具有缺失值的数据,不能直接分类,而应先删去不完全记录,然后对完全记录的数据聚类分析。   系统聚类法,即一开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度,一直继续直到所有对象归为一类为止,并类的过程可用一张谱系聚类图描述[5]。   3.1.1 系统聚类   先将含NA的行删去,因为每一个指标的单位不尽相同,所以需要对数据进行变换,变换方法有中心化变换、标准化变换、极差标准化变换、对数变换等,此处我们采用标准化变换,使得变换后每个变量的样本均值为0,标准差为1,且标准化后的数据与变量的量纲无关。   然后用系统聚类法进行聚类分析,在聚类过程中采用Ward法[6],也称为离差平方和法。它基于方差分析思想,如果类分得正确,则同类样品之间的离差平方和应当较小,不同类样品之间的离差平方和应当较大,得到谱系聚类图(见图1)。

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档