Web挖掘技术.docVIP

下载本文档

3
0
约3.23万字
约 33页
2015-08-08 发布于河南
举报
版权申诉

Web挖掘技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web挖掘技术.doc

Web挖掘技术 /tvetve/archive/2008/03/06/2155064.aspx 田文颖一、数据挖掘数据挖掘是运用计算机及信息技术,从大量的、不完全的数据集中获取隐含在其中的有用知识的高级过程。Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用。Web 数据挖掘是一项综合技术,通过从Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从Web 文档结构和试用的集合中发现隐含的模式。数据挖掘涉及的学科领域和方法很多，有多种分类法。（1）根据挖掘对象分：关系数据库、面向对象数据库、空间数据库、时序数据库、DNA 数据库、多媒体数据库、异质数据库、遗产数据库以及Web数据库等；（2）根据挖掘方法分：机器学习方法、统计方法、神经网络方法和数据库方法等； a. 机器学习方法可细分为：归纳学习方法（决策树、规则归纳等）、基于范例学习、遗传算法等。 b.统计方法可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）等。 c. 神经网络方法可细分为：前向神经网络（BP 算法等）、自组织神经网络（自组织特征映射、竞争学习等）等。（3）根据开采任务分：可分为关联规则、分类、聚类、时间序列预测模型发现和时序模式发现等。 a.关联规则：典型的关联规则发现算法是Apriori算法，该算法也称广度优先算法，是A.Agrawal和R.Srikandt于1994年提出的，它是目前除AIS 算法、面向SQL的SETM 算法外几乎所有频繁项集发现算法的核心，其基本思想是：如果一个项集不是频繁集，则其父集也不是频繁集，由此大大地减少了需要验证的项集的数目，在实际运行中它明显优于AIS 算法。 Apriori算法是关联规则挖掘中最具有影响的一种算法.所谓关联规则就是从事务数据库、关系数据库和其他数据存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性.关联规则可以分为两步: 1)找出所有频繁项集.这部分主要由后面介绍的Apriori算法来解决. 2)由频繁项集产生相关联规则:这些规则必须满足最小支持度和最小置信度. b.分类规则：数据挖掘的一个重要任务是对海量数据进行分类。数据分类是基于一组数据的某些属性的值进行的。数据分类的方法很多，包括决策树方法、统计学方法、神经网络方法、最近邻居方法等等。其中，基于决策树的分类方法与其它的分类方法比较起来，具有速度较快、较容易转换成简单的并且易于被理解的分类规则、较易转换成数据库查询语言、友善、可得到更高的准确度等优点。 c.数据聚类：其基本思想是：对数据进行分析的过程中，在考虑数据间的“距离”的同时，更侧重考虑某些数据间具有类的共同内涵。数据聚类是对一组数据进行分组，这种分组基于如下的原理：最大的组内相似性与最小的组间相似性。 d. 时序模式：可用如下的例子描述时序模式：一个顾客先租看影片“Star Wars”，然后租“Empire Strikes Back”，再租“Return of the Judi”，注意到这些租借事物的发生不一定是连着的。像这样一次事件的发生会导致某些事物的相继发生的事件模式，称为时序模式。 e.相似模式：时态或空间—时态的大量数据存在于计算机中，这些数据库例子包括：股票价格指数的金融数据库、医疗数据库、多媒体数据库等等。在时态或空间—时态数据库中搜索相似模式的目的是发现和预测风险、因果关系及关联于特定模式的趋势。二、Web挖掘 Web 站点上的数据有其自身的特点，主要的可以归纳为以下几点: 1 、数据量巨大，动态性极强；2、异构数据库环境；3 、半结构化的数据结构。 Web 数据挖掘可以分为Web 内容挖掘,Web结构挖掘,Web 使用挖掘三类。Web 内容挖掘是从文档内容或其描述中抽取有用信息的过程,Web 内容挖掘有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。采用第一种策略的有针对Web 的查询语言WebLOG,利用启发式规则来寻找个人主页信息的AHOY 等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理, 得到更为精确和有用的信息。属于该类的有WebSQL ,及对搜索引擎的返回结果进行聚类的技术等。根据挖掘处理的数据可以将Web 内容挖掘分为文本挖掘和多媒体挖掘两个部分。Web 结构挖掘是从Web 组织结构和链接关系中推导知识。挖掘页面的结构和Web 结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。Web 结构挖掘可以分为Web 文档内部结构挖掘和文档间的超链接结构挖掘。这