基于可变网格划分密度偏差抽样算法.docVIP

下载本文档

3
0
约4.33千字
约 8页
2018-06-23 发布于福建
举报
版权申诉

基于可变网格划分密度偏差抽样算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于可变网格划分密度偏差抽样算法

基于可变网格划分密度偏差抽样算法　　摘要：　　简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法，但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题，但其速度及效果易受网格划分粒度影响。为此提出了基于可变网格划分的密度偏差抽样算法，根据原始数据集每一维的分布特征确定该维相应的划分粒度，进而构建与原始数据集分布特征一致的网格空间。实验结果表明，在可变网格划分的基础上进行密度偏差抽样，样本质量明显提升，而且相对于基于固定网格划分的密度偏差抽样算法，抽样效率亦有所提高。　　关键词：密度偏差抽样；可变网格划分；数据挖掘；大规模数据集；聚类　　中图分类号：TP181；TP301.6 　　文献标志码：A 　　0引言　　聚类分析是数据挖掘领域内的重要研究方向之一，但经典的聚类算法仅能在小规模数据集上高效运行，当处理海量、高维的数据集时，运行速度及效果将受影响。解决该问题最有效的方法是对原始数据集进行抽样，即通过对样本数据集聚类分析来推测原始数据集的相关信息[1]。　　简单随机抽样（Simple Random Sampling，SRS）是数据挖掘领域内最常用的抽样方法，该方法操作简单且效率较高，但当数据分布不均匀时抽样误差较大[2]。针对这一问题，Palmer等[3]于2000年提出了密度偏差抽样（Density Biased Sampling，DBS）算法，该算法首先将原始数据集划分为不同的组，进而通过建立哈希函数将各组映射到哈希表中，根据各组之间的密度偏差确定各组的抽样概率。相对于SRS算法，DBS算法在处理不均匀数据集时可得到能准确反映原始数据集分布特征的样本数据集，但易受哈希冲突的影响[4]。　　近年来针对DBS算法的改进主要围绕数据分组方法展开，如文献[5]中提出的基于树结构的密度偏差抽样算法以及文献[6]中提出的基于网格与树结构的密度偏差抽样算法。以上两种算法虽能有效避免哈希冲突并保证样本质量，但抽样效率较低。2012年，有学者提出了一种基于网格的密度偏差抽样（Grid Density Biased Sampling，G_DBS）算法[7]，该算法利用固定的网格结构对原始数据集进行分组，???在相对较短的时间内获得高质量的样本数据集。但如果网格划分粒度过细，抽样效率将降低；如果网格划分粒度过粗，样本质量将受影响。鉴于此，本文在G_DBS算法的基础上，提出了一种基于可变网格划分的密度偏差抽样（Variable Grid Density Biased Sampling，VG_DBS）算法，首先根据原始数据集的分布特征构建特定的网格空间，进而在其基础上执行密度偏差抽样。实验结果表明，相对于G_DBS算法，VG_DBS算法能进一步提高抽样效率并提升样本质量。　　1密度偏差抽样　　数据挖掘领域内，密度偏差抽样是一种相对较新的抽样策略，其核心思想是根据原始数据集的分布特征生成样本数据集。实际应用中，首先将原始数据集分成不同的组，各组大小（所含数据点的数量）表示该组的密度，然后按以下原则进行抽样：　　1）同一组内各数据点被抽取的概率相等；　　2）样本数据集的分布特征与原始数据集一致；　　3）各组抽样概率的偏差依据各组大小（密度）的偏差；　　4）样本量期望值已知。　　当各组大小（密度）之间没有偏差时，密度偏差抽样与简单随机抽样的抽样结果是一致的，因此，简单随机抽样可视为密度偏差抽样的特例。相对于简单随机抽样，密度偏差抽样的优势主要体现在以下两个方面：　　1）适应性强。密度偏差抽样过程中，可根据需要确定抽样的核心区域。以对大规模数据集的聚类分析为例，为在包含噪声的数据中发现聚类，可仅对高密度区域抽样；为发现所有聚类，需要既对高密度区域抽样又对低密度区域抽样；为发现离群数据，则需对极低密度区域抽样[8]。　　2）约简效果好。由于简单随机抽样是一种等概率抽样方法，因此在高密度区域内会抽取较多的数据点。但在实际应用中，高密度区域内仅需要相对较少的数据点就可以计算出正确结果，对剩余部分继续计算并不会对最终结果有太大影响。密度偏差抽样过程中，不同区域的抽样比例不同，在各区域内单独抽样可产生更为合适的样本。这种抽样方式既保证了样本质量，又在最大限度上缩减了样本实际规模，提高了抽样效率[9]。　　3.2样本质量对比分析　　样本质量包括样本完整性和样本正确性两个方面，样本完整性是指样本数据集中包含的聚类个数是否与原始数据集一致，样本正确性是指在样本数据集上进行聚类分析的结果是否正确。为保证实验结果的客观性，各实验中VG_DBS算法在对原始数据集进行可变网格划分时，每一维初始划分的区间段个数与G_DBS算法在每一维所划分的区