基于聚类的多数据库分类算法的研究与实现.docVIP

下载本文档

4
0
约3.1千字
约 5页
2018-04-07 发布于北京
举报
版权申诉

基于聚类的多数据库分类算法的研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于聚类的多数据库分类算法的研究与实现　　摘要：针对多数据库挖掘的预处理，提出了运用聚类的思想来对数据库进行分类。同时，提出了改进的BestClassification算法。通过实验证明这种分类方法具有较好的有效性和正确性。　　关键词：多数据库挖掘；聚类；分类　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)28-0007-01 　　Research and Implementation Classification Algorithm of Multiple Databases Based On Clustering 　　LV Gang 　　(Computer Science and Technology of Hefei University,Hefei 230022,China) 　　Abstract: For multi-database mining pretreatment, proposed the idea of clustering to use the database to classify. At the same time, to improve the BestClassification algorithm. This classification method is better the effectiveness and accuracy proved by experiments. 　　Key words: Multi-database; mining Cluster; Classification 　　1 引言　　随着计算机通信网络的普及，分布的、联合的、相似的多数据库系统促进了实际应用中许多多数据库系统的发展。[1]为了作出好的决策，大型企业组织机构需要对分布于其子机构的多数据库进行数据挖掘。同时Web信息已经迅速成为信息洪流，一些个人和组织在作出决定时，都非常重视Internet上低成本的信息。公司的数据一般是国内的数据，然而从Internet上收集来的数据通常是国外的数据。如何从多数据库中有效地鉴别出有用的知识，不得不面对多数据源知识获取的问题。　　2 多数据库挖掘　　多数据库挖掘一般分为三个步骤：首先对多个数据库进行分类；然后挖掘每个数据库；最后把同类数据库挖掘到的知识进行合成。当我们对多数据库进行挖掘时，因为数据库来源较多，而我们要从这些数据库中挖掘出有用的信息或知识，必须采用“干净”的数据库（消除掉不同类数据库挖掘引起的歧义），所以多数据挖掘的第一个步骤就是分类多数据库。　　目前关于多数据挖掘中数据库分类领域的研究中，讨论了多种挖掘多数据库的方法。这些方法能有效地缩减大数据集的尺寸，去掉数据冗余和噪声，最终减少了特定应用中搜索的花费。但正因为这些方法是针对特定应用的，而在没有给定任何信息的情况下，不是很有效。　　3 聚类　　聚类（Clustering）是一个将数据集划分为若干组（Class）或类（Cluster）的过程，并使得同一个组内的数据对象具有较高的相似度；而不同组中的数据对象是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的。通常就是利用（各对象间）距离来进行表示的。将一组（set）物理的或抽象的对象，根据它们之间的相似程度，分为若干组（group）；其中相似的对象构成一组，这一过程就称为聚类过程（clustering）。　　算法BestClassification从m个数据库的可能分类中搜索出最佳分类。[2,3]经过实验，算法在对distance函数图形的研究有误及λ的有着不确定性上。[4]下面先给出改进后的算法：　　算法BestClassification 　　begin 　　Input: Di(1=i=m): databases; λmin i (1=i=(m2 ?Cm)/2+1): the decreased array of all sim; 　　Output: Class: set of classes consisting of α-relevant databases; 　　let α1←1; i←1; 　　call procedure GreedyClass for α1; 　　let x1←distanceGoodnessf(class,α1); 　　let α2←λmin[i]; 　　call the procedure GreedyClass for α2; 　　if Classα2 is a complete classification then 　　begin 　　let x2←distanceGoodnessf(cl