一种新的基于Web日志的数据聚类算法研究.docVIP

下载本文档

3
0
约5.99千字
约 10页
2018-03-16 发布于北京
举报
版权申诉

一种新的基于Web日志的数据聚类算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种新的基于Web日志的数据聚类算法研究　　摘要：针对当前FCM算法在处理Web日志数据聚类中存在对孤立点比较敏感，要求输入聚类原型参数的先验数据以及容易陷入局部极值等缺陷，在引入竞争凝聚算法机制的基础上，该文提出了一种新的Web日志数据聚类算法CAWFCM，该算法通过对隶属度加权来减小孤立点数据的影响，引入竞争机制策略来解决模糊均值聚类算法不能自动确定聚类类别数的问题。仿真实验表明，CAWFCM算法对Web日志数据的挖掘效果良好，其性能优于FCM算法。　　关键词：数据挖掘；聚类；FCM；Web挖掘　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2011)21-5159-04 　　Research of Data Clustering Algorithms Based on Web Log 　　ZHANG Xiao 　　(Chengdu Branch, Sichuan Telecom Industry Service Co., LTD, Chendu 611730, China) 　　Abstract: In the current FCM algorithm in dealing with Web log data clustering the existence of outlier comparison sensitive, asked to enter clustering prototype parameters and easy to get into a priori data defects such as local extremum in introducing competition condensing algorithm, the basis of the mechanism, this paper puts forward a new Web log data clustering algorithm, the proposed algorithm based on CAWFCM membership weighting to reduce the influence of outlier data, introduce a competitive mechanism strategies to solve fuzzy c-mean algorithm does not automatically determine the number of clustering category. Simulation experiments show that CAWFCM algorithms on the Web log data mining effect is good, and its performance than the FCM algorithm. 　　Key words: data mining; clustering; FCM; Web mining 　　作为丰富信息资源的提供者，Web已逐渐深入到人们学习、工作和生活的方方面面。随着Web结构的日益复杂，信息的日趋庞杂，用户要想在大多没有考虑其偏好和浏览兴趣的网站上获得有用信息变得越来越困难。Web服务器日志是一个结构化较好的记录集，保存了用户访问Web各页面的情况，利用Web日志挖掘技术可以发现用户访问网站的浏览模式及网站页面之间的关系，继而进行用户聚类和页面聚类。聚类是数据挖掘的重要分支之一，引入模糊理论的模糊聚类分析为现实数据提供了模糊处理能力，在许多领域被广泛应用,其中模糊均值聚类算法是目前广泛使用的模糊聚类算法，但它也存在着一些缺点。针对当前FCM算法在处理Web日志数据聚类中存在的各种问题，本文提出了一种新的Web日志数据聚类算法CAWFCM。　　1 相关研究　　伴随着模糊集理论的发展和深化，用模糊的手段处理聚类分析问题成为该领域研究的主流。最早系统地表述和研究模糊聚类问题的是著名学者Ruspini[1],他率先定义了模糊划分的概念。利用这一概念人们提出了多种模糊聚类分析方法，比较典型的有:基于相似性关系和模糊关系的方法(Tamra[2],Backer[3])、基于模糊等价关系的传递闭包方法、基于模糊图论的最大树方法、以及基于数据集的凸分解、动态规划和难以辨识关系等方法。然而上述方法均不能适用于大数据量的情况，难以满足实时性要求较高的场合，因此在实际中应用并不广泛。　　实际中受到普遍欢迎的是基于目标函数的模糊聚类方法，即把聚类归结成一个带约束的非线性规划问题，通过优化求解获得数据集的模糊划分和聚类。该方法设计简单、解决问题的范围广，还可以转化为优化问题而借助经典数