Web信息聚类分析和算法研究.docVIP

下载本文档

3
0
约2.7千字
约 6页
2018-10-26 发布于福建
举报
版权申诉

Web信息聚类分析和算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web信息聚类分析和算法研究

Web信息聚类分析和算法研究　　摘要 Web信息聚类分析是这些年来新兴的方向，尽管是新的概念，但是使用传统的聚类算法就可以取得很好的效果。文章对web信息聚类分析与算法进行了探讨，研究认为，web信息聚类首先要经过预处理，将复杂多样的web信息转化为简洁统一的形式，便于算法处理。在算法的选择上使用经典的K-means或凝聚层次聚类能够达到很高的精度，若能将算法进一步优化，其聚类结果会更加准确。　　关键词数据挖掘；聚类分析；web信息；大数据　　中图分类号：TP311 文献标识码：A 文章编号：1671-7597（2014）06-0053-01 　　伴随着信息技术水平的高速发展，因特网蕴含的信息量越来越大，互联网已经成为信息传播的主流平台。与此同时，由数据量过大引起的问题开始凸现出来，人们淹没在数以亿计的web页面中而难以快速制定合适的决策。即使是通过搜索引擎有的放矢的搜索，得到的往往也是无序的结果，难以令人满意。如何在海量的web数据中产生层次结构，让信息分门别类地展示在用户面前，从而令用户提取自己需要的信息成为一个亟待解决的热门问题。　　1 数据挖掘技术与聚类分析概述　　1）数据挖掘概述。简而言之，数据挖掘是用于将海量的原始数据转化为简洁直观的信息的一种技术。它结合了传统数据分析方法和大数据处理算法的优点，可以进行聚类分析、分类预测、关联规则分析等工作。一般步骤包括预处理、数据挖掘、后处理。能够用于处理各种高维和海量的数据。高维海量正是web信息所具有的两个特点，故而数据挖掘技术对于web信息处理具有良好效果。　　2）聚类分析概述。聚类分析是数据挖掘中的方法之一，它可以将数据自动划分为有联系的组或者簇，而且使得同一组中对象间的相似度最大化，不同组中对象间的相似度极小化，换言之，一个簇就是由彼此相似的一组对象所构成的集合，不同簇中的对象通常不相似或相似度很低。　　聚类又可被称作非监督分类，它与监督分类的区别在于监督分类的类标号已知，通过已知类标号的训练集建立模型并预测新数据对象的类标号，而聚类则不需要事先知道训练集的类标号，在聚类过程中会自动导出类标号。　　2 聚类分析算法　　常用的聚类算法包括基于原型的、划分的K-means算法、基于图和原型的凝聚层次聚类算法、基于密度的DBSCAN算法。　　1）K-means。K-means聚类算法以距离值的平均值对聚类成员进行分配。如果一个对象属于一个类，则该数据一定比较靠近类的中心，距离可以通过使用欧几里得距离进行度量。算法的基本步骤是：首先选取K个初始质心，K由用户自行指定，代表的是最终得到的簇的个数。每个点根据距离大小分配到离自己最近的质心所在的簇中。然后根据每个簇内点的分布情况重新计算质心，指派每个簇新的质心。重复上述两个步骤直到质心不再改变为止。　　K-means聚类算法原理简单，对于很多数据类型都具有良好效果。但是它无法处理非球形簇和密度不均匀的簇　　2）凝聚层次聚类。凝聚的层次聚类采取的是自底向上的方法，首先将每个对象单独作为一个簇，然后每一步都按照某种标准合并最近的两个簇，直到所有的对象都在一个簇中，或者达到某个终结条件。比起K-means算法，层次聚类算法最大的优势就是不需要事先指定簇的个数，簇的个数是根据对象的分布情况动态生成的，这样使得簇的个数更加灵活，最终的结果也具有说服力。　　层次聚类尽管更加灵活，但是时间复杂度和空间复杂度都很高，故而不太适合处理数据量太大的数据集。　　3）DBSCAN。DBSCAN是一种有效的基于密度的聚类算法，假定聚类对象是点，根据点集密度的大小，我们可以将点分为三类：稠密区域内的点是核心点；稠密区域边上的点是边界点；稀疏区域内的点是噪声点。在这三种点的定义的基础上我们可以对算法作如下描述：任意两个核心点的距离若在给定的范围之内，则二者属于同一个簇；任意与核心点距离足够近的边界点和该核心点属于同一个簇；噪声点不属于任何簇，在聚类过程中被丢弃。　　DBSCAN比K-means的抗噪能力强，它可以处理任意形状和大小的簇（包括K-means不能处理的球形簇）。但是对于密度不均匀的簇DBSCAN效果也不能令人满意。　　3 Web信息聚类过程　　1）数据预处理。互联网上的web页面格式各种各样，无法直接用于聚类，首先必须对它们进行预处理，构建特征向量。预处理的过程一般包括分词、特征降维、相似度计算等。分词是为了构建特征集，但是容易导致维度过高，影响聚类效果。此时需要进行特征降维，选取原始特征集的子集进行聚类，这样不仅能够提高算法运行速度，还可以提高聚类精度。经过预处理之后，web页面信息量得到简化，同时改善了页面表示效果，提高了页面间的区分度，更有利于聚类。　　2）聚类