一种并行分层聚类算法的分析和实现-analysis and implementation of a parallel hierarchical clustering algorithm.docxVIP

下载本文档

6
0
约4.13万字
约 44页
2018-06-03 发布于上海
举报
版权申诉

一种并行分层聚类算法的分析和实现-analysis and implementation of a parallel hierarchical clustering algorithm.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种并行分层聚类算法的分析和实现-analysis and implementation of a parallel hierarchical clustering algorithm

和非结构化数据中的知识发现以及网上数据挖掘等。数据挖掘是一种在大型数据集中寻找有趣或有价值信息的过程，目标是从数据集中发现隐含的、有意义的知识，它综合应用多个学科技术，具有较多的功能，当前的主要功能如下。注意，数据挖掘的各项功能不是独立存在的，它们在数据挖掘中互相关联，共同发挥作用。一个数据挖掘系统可以完成以下任务中的一个或几个:类描述：类描述为一个数据集合提供一个简单的概括，并且把它们与其他的类加以区分。对一个数据集合的概括称为类特征，两个或多个数据集合之间的比较称为类比较或类判别。它不仅能覆盖一般的属性，而且可以覆盖数据分布上的特征。分类:找出描述并区分数据类或概念的模型，以便能用模型来预测类标记未知的对象类别，是指分析训练集数据，根据这些数据的特性为每一类构造一个模型的过程。它可以用分类树或规则集的形式表征。用这些规则集或分类树为将来的数据分类，分类技术被广泛的应用于顾客划分、交易建模、信用分析以及医疗诊断等领域。分类的方法有很多，包括决策树方法、统计学方法、神经网络方法等等例如:银行部门根据以前的数据将客户分成了不同的类别，现在就可以根据类别模型来区分新申请贷款的客户，以便采取相应的贷款方案。聚类：识别出对象类别的内在规则，按照这些规则把对象分成若干类。从数据中识别出簇集来，每一簇就是一些彼此相似的数据对象的集合。相似性可以由用户或专家指定的某种距离函数表示。一个好的聚集方法可以得到高质量的簇，即簇与簇之间相似性很小，每簇内则相似性极高。数据的簇集已经在统计学、机器学习、空间数据库，和数据挖掘中得到广泛的研究，但不同领域内研究的侧重点不同，在数据挖掘的聚集研究中，重点是为大数据库和多维数据仓库寻找高质量、可扩展性好的聚集算法。数据挖掘中的聚集算法包括随机搜索算法CLARANS,它融合了统计学中的两个聚集算法PAM和CLARAF，以及使用特征CF和CF树的BIRCHI算法例如：按申请人的风险特征可聚类形成高度风险、中度风险和低度风险申请者三个分组。关联规则：关联是某种事物发生时其他事物也会发生的一种联系。关联是指在事物数据中发现项日集合之间的关联关系和相关性，一个相关规则表示为A=B。这种相关分析广泛地应用于直销、日录设计，商业决策等领域。近几年来，在这方面进行了大量的研究，有许多有效的算法被提出，包括Apriori,抽样算法，分割算法，多层次挖掘算法，基于不同数据类型的相关规则挖掘算法。以及一些并行算法，如CD,DD,IDD,PDM,DMA,HD,OA等。例如：每天购买啤酒的人也有可能购买香烟，其概率可以通过关联的支持度和置信度来描述。预测：把握对象发展的规律，对未来的发展趋势做出预见。它包括对一些丢失数据可能值的预测，或者对象集合中某些属性值的分布情况的预测。找到那些与感兴趣事物的属性相关的属性集合，并且根据与选择对象相似的数据集合预测数据分布。例如：对未来经济发展的判断。一般地，回归分析、一般化线性模型、相关性分析、遗传学的算法和神经网络的模型对预测都是有用的工具。孤立点分析：对象中少数的、极端的特例的描述，揭示内在的原因。例如：在银行的100万笔交易中有50例的欺诈行为，银行为了稳健经营，就要发现这50例的内在因素，减小以后经营的风险。时间序列分析：时间序列分析是指通过分析比较大的时间序列数据集合，发现某些规律和感兴趣的特征，其中包括查找相似的序列或者子序列、挖掘序列模式和周期性、趋势及偏差分析。例如可以根据一个公司股票的历史数据，商业状况，竞争者的能力和当前的市场，预测这个公司股票发展趋势。聚类分析是数据挖掘的主要功能之一。与分类和预测不同[3,4]，聚类是在无指导的情况下分析数据对象，继而产生对象所属的类标记。在聚类过程中，将对象根据最大化类内相似性、最小化类间相似性的原则进行分组，得到数据集的簇划分结构。聚类[5]是数据挖掘处理中用来在潜在的数据中发现群体和有趣的分布和模式的最重要的任务之一。聚类问题是将一个样本集合中的样本按照某种相似程度的度量划分为若干个子集合，使得每个子集合中的元素按照某种度量来说“相似”，而不同集合中的元素之间按照相同的度量来说“不相似”。比如，考虑零售业数据库的记录，它包含了客户购买商品的情况，一个聚类过程能够根据客户不同的购买模式，把客户分成不同的群体。所以，聚类过程主要关心的问题是，把有组织的数据集分成合理的组群，允许我们发现相似和不同，并且对它们得出有用的结论。聚类的思想在许多领域都有广泛的应用，比如:生命科学、医学、工程技术等等。聚类在不同的文献中有不同的名字，比如:在模式识别中称为无监督学习，在生命学中叫做数值分类学(numericaltaxonomy)，在社会学中称为类型学(typology)，在图理论中叫做划分(partition)。1.2研究动因聚类问题实际上是一个