《Web聚类Hamming算法与K均值算法的研究与实现》-毕业论文(设计).doc

《Web聚类Hamming算法与K均值算法的研究与实现》-毕业论文(设计).doc

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
福州大学阳光学院本科生毕业设计(论文) 本科生毕业设计(论文) 题 目: Web聚类Hamming算法与K均值算法的 研究与实现 姓 名: 学 号: 学 院: 数学与计算机科学学院 专 业: 年 级: 指导教师: (签名) 20 年 6 月 16 日 Web聚类Hamming算法与K均值算法的研究与实现 摘要 聚类分析也称群分析、点群分析,它是研究分类的一种多元统计方法。我们所研究的样品或指标之间存在程度不同的相似性。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品或指标聚合为一类,把另外一些彼此之间相似程度较大的样品或指标又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品或指标聚合完毕,这就是聚类的基本思想。随着科学技术的不断发展,网络成为了人们生活中必不可少的重要组成部分。因此,关于网页数据的种种研究都有着其重要的现实意义。特别是网页聚类,它关系着人们网上获取信息效率的高低,同时也是网页信息组织的主要依据。本文通过对Web日志数据的挖掘研究,应用两种聚类的算法,Hamming算法和K均值算法,将用户所访问的网页进行聚类。在这两种算法中,首先以Web站点URL为行,UserID为列建立URL-UserID关联矩阵.两种不同算法构造的矩阵中的元素值不同,文中会详细说明,然后对行向量进行相似性分析,可以得到相似的Web群体类,从而完成对Web网页的聚类。 关键词:网页聚类, 数据挖掘, Web日志, K均值算法, Hamming算法 Web Polymerization: The Reaserch and Realization of Hamming Algorithms and Kmeans Algorithms Abstract Cluster analysis is also called cluster analysis, cluster analysis point, it is a classification study of multivariate statistical methods. The samples or indicators we studies exist different degrees of similarity. In accordance with the number of samples over observation indicators, we can find some specific samples to measure or indicator the degree of similarity between the statistics which are treated the basis for the type of division. Some sample or indicators which have the high similar functions divided into the same polymerization, another similarity samples also do the same thing. Lower polymerization is classified into a small unit, while the closing polymerization is put into a large unit, until polymerization of all the samples or indicators are finished --that is the basic idea of clustering. With scientific and technological development, network has become the essential component of peopl

您可能关注的文档

文档评论(0)

花好月圆 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档