web_原创精品文档.pdfVIP

下载本文档

0
0
约1.77万字
约 15页
2024-12-16 发布于江西
举报
版权申诉

web_原创精品文档.pdf

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们

事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。

知识发现是用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知

识，称为数据库中的知识发现。

数据挖掘功能或任务?第一类是描述性挖掘任务：刻划数据库中数据的一般特性；第二类是预测性挖

掘任务：在当前数据上进行推断，以进行预测。

数据挖掘的方法1监督学习2无监督学习3关联规则挖掘4序列模式挖掘

监督学习–分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量

及其对应的类，用基于归纳的学习算法得出分类。

监督学习分为2个阶段:

1模型构造阶段A假定每个元组/样本都属于某个预定义的类，这些类由分类标号属性所定义B用来构造模

型的元组/样本集被称为训练集（trainingset）C模型一般表示为：分类规则,决策树或者数学公式

2模型使用阶段:估计模型的准确性A用一些已知分类标号的测试集和由模型进行分类的结果进行比较B

两个结果相同所占的比率称为准确率C测试集和训练集必须不相关

无监督学习--聚类（Clustering）是将物理或抽象的对象集合分成多个组的过程，聚类生成的组称为簇

（Cluster），即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似

度，而属于不同簇的两个对象间具有较高的相异度。

主要的数据挖掘聚类方法1划分的方法2层次的方法3基于密度的方法4基于网格的方法5基于模型的

方法等

关联规则挖掘：在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁

模式、关联、相关性、或因果结构。

时序数据及序列模式挖掘时序数据库1由随时间变化的序列值或事件组成的数据库2数据在等时间间

隔内记录3时间序列的特征组成:趋势,循环,季节性,非规则

网络数据的特征1数据量大，并且仍然在不断增长.主题与内容2存在各种类型的数据3异构的信息

内容相同，形式不同4绝大部分信息是相连接的网站内部：信息组织方式网站之间隐含传递多种

信息5噪音的存在，网页包含多个模块，对于特定任务只有一部分信息有用，本身没有信息质量的控制

6提供服务7动态性网络.信息不断变化8虚拟社会.不仅是数据信息和服务，而且包含人、组织和系统之

间的交互

Web挖掘的分类1Web结构挖掘2Web内容挖掘3Web使用挖掘

频繁项集项的集合称为项集（Itemset），包含k个项的项集称之为k-项集。如果项集满足最小支持度，则

它称之为频繁项集（FrequentItemset）。

关联规则在事务数据库中找出有用的关联规则，需要由用户确定两个阈值：最小支持度（min_sup）和最

小可信度（min_conf）.同时满足最小支持度（min_sup）和最小可信度（min_conf）的规则称之为关联规则，

即S(AB)min_sup且C(AB)min_conf

成立时，规则称之为关联规则，也可以称为强关联规则.

规则的支持度(support)规则AB在数据库D中具有支持度S，表示S是D中事务同时包含AB的百分比，它是

概率P(AB)，其中|D|表示事务数据库D的个数，表示A、B两个项集同时发生的事务个数。

规则的可信度(confidence)规则AB具有可信度C，表示C是包含A项集的同时也包含B项集，相对于包含A

|A|

项集的百分比，这是条件概率P(B|A)，其中表示数据库中包含项集A的事务个数。

Apriori性质性质：频繁项集的所有非空子集都必须也是频繁的。A如果项集B不满足最小支持度阈值

min-sup，则B不是频繁的，即P（B）min-supB如果项A添加到B，则结果项集（即BA）不可能比B更频繁

出现。因此，BA也不是频繁的，

P（BA）min-sup。

关联规则挖掘的缺点：A单一的支持度.即所有的规则必须满足同样的支持度

B非真性.某些数据的出现次数可能非常少,因为无法计算出它们的规则

解决稀有物品问题RareItemProblem:降低最低支持度.但这会造成combinatorialexplosion.多最小支持度

模型:Eachitemcanhaveaminim

您可能关注的文档

文档评论（0）

180****7695 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

web_原创精品文档.pdfVIP