考虑数据分布的K.doc

下载文档 降价啦

0
0
约1.71万字
约 8页
2019-07-05 发布于天津
举报
版权申诉
保障服务

考虑数据分布的K.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

附件2 论文中英文摘要作者姓名：吴俊杰论文题目：考虑数据分布的K-均值聚类研究作者简介：吴俊杰，男，1979年7月出生，2002年9月师从于清华大学陈剑教授，于2008年1月获博士学位。中文摘要商务智能通常被理解为将企业中现有的数据转化为知识，帮助企业做出明智的业务经营决策的工具。数据挖掘是商务智能的核心技术之一。实践表明，数据挖掘已经被广泛应用于客户细分和客户行为分析、目标市场定位、金融价格预测和风险管理、工作流管理、欺诈检测等商业领域，对企业的决策支持、成本管理、组织协同等提供了极大的帮助。随着信息搜索、电子商务和Web 2.0的迅猛发展，数据挖掘将为信息抽取、管理与使用发挥更大的作用。聚类分析是数据挖掘研究的重要子领域。聚类分析为探索未知的数据结构提供帮助，并能成为一系列数据分析的起点。聚类分析已长时间在市场营销、生产监测、信息检索与分类等商业领域发挥重要作用。在聚类分析的众多算法中，K-均值算法因其简单、高效、鲁棒、数据适应性强等优点得到了非常广泛的应用。许多文献已经对K-均值算法的特点进行了深入研究，并针对海量数据、高维数据、流式数据、噪声数据等现实问题提出了许多改进方法。然而，无论从理论、算法还是实践层面，考虑到商务实践中大量数据的不均衡分布特征，仍有很多极具挑战性的问题亟待解决：是否所有适于K-均值聚类的距离函数都具有统一的泛化形式？是否数据的不均衡分布会对K-均值聚类带来不利影响？如何在数据不均衡分布的情况下对K-均值聚类结果进行客观评价？能否利用K-均值算法这样的无监督学习去提高有监督学习——如数据分布极端不平衡的稀有类分析问题——的绩效？有鉴于此，本文围绕商务智能中广泛使用的聚类分析方法——K-均值算法，在考虑数据不均衡分布的统一框架下，做了如下工作：一、K-均值算法距离函数的泛化理论研究我们对所有适于K-均值算法的距离函数进行泛化，提出一个新的概念：K-均值距离（K-means distance）。该距离具有统一的形式，核心要素是其中的一个凸函数；通过使用不同的凸函数，可以得到一族K-均值距离。包括平方欧几里德距离、KL散度、余弦相似度等为人熟知的接近度函数，都是K-均值距离的特例。我们严格证明了，K-均值距离适用于K-均值聚类；而在一定的假设条件下，K-均值距离也是适用于K-均值聚类的唯一距离函数。提出这么一个泛化的距离函数是非常有益的，这主要体现在：1）有助于我们把握适于K-均值聚类的距离函数的共同特点，从而能够从本质上认识K-均值聚类的某些独特性质，如第三部分研究的“均匀效应”；2）有助于我们从一个较高的层面来考察以及改进传统的K-均值算法，如第二部分利用SBIL解决K-均值算法无法在稀疏数据上直接计算KL散度的问题。（相关研究发表于ICDM 2007[11]）二、SBIL算法的设计与应用研究我们基于K-均值距离对传统的K-均值目标函数进行了简化，并基于简化的目标函数设计了一个新颖的增量学习算法：SBIL。SBIL仍然具有K-均值算法高效运算的特点，但无需直接计算数据与簇心的K-均值距离，这对于Info-K-means（基于KL散度的K-均值算法）是至关重要的。一直以来，由于在稀疏数据上计算KL散度会出现分母为零的情况，Info-K-means被认为在文本数据上比Spherical K-means（基于余弦相似度的K-均值算法）的聚类效果差。然而，利用SBIL只需计算各簇心的某个凸函数值这一特点，我们可以巧妙地绕开KL散度的直接计算，为Info-K-means的实践应用奠定了基础。我们在大量的高维文本数据上进行了实验。实验结果表明：1）直接计算KL散度的确给Info-K-means分配数据对象带来了困难，模拟退火（annealing）和更新策略的改变没有实质性地提高Info-K-means的聚类效果；2）对数据的光滑处理可以部分地提高Info-K-means的聚类绩效，但由于数据的稀疏性被改变，而且光滑参数的设置缺乏规律性，因此在实践中很难取得令人满意的效果；3）基于SBIL的Info-K-means显示出了优良的聚类性能，其在大量数据集上的聚类效果不逊于甚至稍强于目前最好的高维数据聚类工具CLUTO实现的Spherical K-means。（相关研究发表于KDD 2008[9]）三、数据分布对K-均值算法的影响研究我们研究了K-均值算法与数据分布的关系。我们发现，在一定条件下（如各类中心比较接近、数据集的可聚类性不是非常好），K-均值算法倾向于生成均匀的簇，即显示所谓的“均匀效应”。我们首先从理论上论证了对于最为常用的距离函数——平方欧几里德距离，K-均值算法倾向于产生均匀的簇。其次，我们基于信息理论，对使用KL散度的K-均值算法——Info-K-m