web_原创精品文档.pdfVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们

事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。

知识发现是用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后隐藏的知

识,称为数据库中的知识发现。

数据挖掘功能或任务?第一类是描述性挖掘任务:刻划数据库中数据的一般特性;第二类是预测性挖

掘任务:在当前数据上进行推断,以进行预测。

数据挖掘的方法1监督学习2无监督学习3关联规则挖掘4序列模式挖掘

监督学习–分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量

及其对应的类,用基于归纳的学习算法得出分类。

监督学习分为2个阶段:

1模型构造阶段A假定每个元组/样本都属于某个预定义的类,这些类由分类标号属性所定义B用来构造模

型的元组/样本集被称为训练集(trainingset)C模型一般表示为:分类规则,决策树或者数学公式

2模型使用阶段:估计模型的准确性A用一些已知分类标号的测试集和由模型进行分类的结果进行比较B

两个结果相同所占的比率称为准确率C测试集和训练集必须不相关

无监督学习--聚类(Clustering)是将物理或抽象的对象集合分成多个组的过程,聚类生成的组称为簇

(Cluster),即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似

度,而属于不同簇的两个对象间具有较高的相异度。

主要的数据挖掘聚类方法1划分的方法2层次的方法3基于密度的方法4基于网格的方法5基于模型的

方法等

关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁

模式、关联、相关性、或因果结构。

时序数据及序列模式挖掘时序数据库1由随时间变化的序列值或事件组成的数据库2数据在等时间间

隔内记录3时间序列的特征组成:趋势,循环,季节性,非规则

网络数据的特征1数据量大,并且仍然在不断增长.主题与内容2存在各种类型的数据3异构的信息

内容相同,形式不同4绝大部分信息是相连接的网站内部:信息组织方式网站之间隐含传递多种

信息5噪音的存在,网页包含多个模块,对于特定任务只有一部分信息有用,本身没有信息质量的控制

6提供服务7动态性网络.信息不断变化8虚拟社会.不仅是数据信息和服务,而且包含人、组织和系统之

间的交互

Web挖掘的分类1Web结构挖掘2Web内容挖掘3Web使用挖掘

频繁项集项的集合称为项集(Itemset),包含k个项的项集称之为k-项集。如果项集满足最小支持度,则

它称之为频繁项集(FrequentItemset)。

关联规则在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最

小可信度(min_conf).同时满足最小支持度(min_sup)和最小可信度(min_conf)的规则称之为关联规则,

即S(AB)min_sup且C(AB)min_conf

成立时,规则称之为关联规则,也可以称为强关联规则.

规则的支持度(support)规则AB在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是

概率P(AB),其中|D|表示事务数据库D的个数,表示A、B两个项集同时发生的事务个数。

规则的可信度(confidence)规则AB具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A

|A|

项集的百分比,这是条件概率P(B|A),其中表示数据库中包含项集A的事务个数。

Apriori性质性质:频繁项集的所有非空子集都必须也是频繁的。A如果项集B不满足最小支持度阈值

min-sup,则B不是频繁的,即P(B)min-supB如果项A添加到B,则结果项集(即BA)不可能比B更频繁

出现。因此,BA也不是频繁的,

P(BA)min-sup。

关联规则挖掘的缺点:A单一的支持度.即所有的规则必须满足同样的支持度

B非真性.某些数据的出现次数可能非常少,因为无法计算出它们的规则

解决稀有物品问题RareItemProblem:降低最低支持度.但这会造成combinatorialexplosion.多最小支持度

模型:Eachitemcanhaveaminim

文档评论(0)

180****7695 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档