WEB数据挖掘分解.doc

下载文档 降价啦

0
0
约 10页
2016-12-05 发布于湖北
举报
版权申诉
保障服务

WEB数据挖掘分解.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一、（1）依据挖掘对象：关系数据库、面向对象数据库、空间数据库、时序数据库、DNA数据库、多媒体数据库、异质数据库、遗产数据库以及Web数据库等；（2）依据挖掘方法：机器学习方法、统计方法、神经网络方法和数据库方法等； b.统计方法可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非參数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）等。 c.?神经网络方法可细分为：前向神经网络（BP?算法等）、自组织神经网络（自组织特征映射、竞争学习等）等。（3）依据开採任务：可分为关联规则、分类、聚类、时间序列预測模型发现和时序模式发现等。 Apriori算法，该算法也称广度优先算法，是A.Agrawal和R.Srikandt于1994年提出的，它是眼下除AIS?算法、面向SQL的SETM?算法外差点儿全部频繁项集发现算法的核心，其基本思想是：假设一个项集不是频繁集，则其父集也不是频繁集，由此大大地降低了须要验证的项集的数目，在实际执行中它明显优于AIS?算法。 Apriori算法是关联规则挖掘中最具有影响的一种算法.所谓关联规则就是从事务数据库、关系数据库和其它数据存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性.关联规则能够分为两步: 1)找出全部频繁项集.这部分主要由后面介绍的Apriori算法来解决. 2)由频繁项集产生相关联规则:这些规则必须满足最小支持度和最小置信度. b.分类规则：数据挖掘的一个重要任务是对海量数据进行分类。数据分类是基于一组数据的某些属性的值进行的。数据分类的方法非常多，包含决策树方法、统计学方法、神经网络方法、近期邻居方法等等。当中，基于决策树的分类方法与其他的分类方法比較起来，具有速度较快、较easy转换成简单的而且易于被理解的分类规则、较易转换成数据库查询语言、友善、可得到更高的精确度等长处。 c.数据聚类：其基本思想是：对数据进行分析的过程中，在考虑数据间的“距离”的同一时候，更側重考虑某些数据间具有类的共同内涵。数据聚类是对一组数据进行分组，这样的分组基于例如以下的原理：最大的组内类似性与最小的组间类似性。 d.?时序模式：可用例如以下的样例描写叙述时序模式：一个顾客先租看影片“Star Wars”，然后租“Empire Strikes Back”，再租“Return of the Judi”，注意到这些租借事物的发生不一定是连着的。像这样一次事件的发生会导致某些事物的相继发生的事件模式，称为时序模式。 e.类似模式：时态或空间—时态的大量数据存在于计算机中，这些数据库样例包含：股票价格指数的金融数据库、医疗数据库、多媒体数据库等等。在时态或空间—时态数据库中搜索类似模式的目的是发现和预測风险、因果关系及关联于特定模式的趋势。 ? ? 二、Web挖掘 Web网站上的数据有其自身的特点，基本的能够归纳为下面几点: 1?、数据量巨大，动态性极强；2、?异构数据库环境；3?、半结构化的数据结构。 Web数据挖掘能够分为Web内容挖掘,Web结构挖掘,Web使用挖掘三类。 Web内容挖掘是从文档内容或其描写叙述中抽取实用信息的过程,Web内容挖掘有两种策略:直接挖掘文档的内容和在其它工具搜索的基础上进行改进。採用第一种策略的有针对Web?的查询语言WebLOG,利用启示式规则来寻找个人主页信息的AHOY?等。採用另外一种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,?得到更为精确和实用的信息。属于该类的有WebSQL ,及对搜索引擎的返回结果进行聚类的技术等。依据挖掘处理的数据能够将Web?内容挖掘分为文本挖掘和多媒体挖掘两个部分。 Web结构挖掘是从Web?组织结构和链接关系中推导知识。挖掘页面的结构和Web?结构,能够用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同一时候还能够用来指导页面採集工作,提高採集效率。Web结构挖掘能够分为Web文档内部结构挖掘和文档间的超链接结构挖掘。这方面的代表有Page Rank和CLEVER,此外,在多层次Web数据仓库( MLDB )?中也利用了页面的链接结构。 Web使用挖掘是从server端记录的用户訪问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据能够帮助理解用户隐藏在数据中的行为模式,做出预測性分析,从而改进网站的结构或为用户提供个性化的服务。 Web挖掘相关技术：数据挖掘方法通常能够分为两类:?一类是建立在统计模型的基础上,?採用的技术有决策树、分类、聚类、关联规则等;?还有一类是建立一种以机器学习为主的人工智能模型,採用的方法有神经网络、自然法则计算方法等。 1、Web?文本挖掘 ? 2?、Web?多媒体挖掘