- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
代表着决策集的树形结构-Read
数据挖掘技术简介赵传慧 收集整理 5、偏差型知识(Deviation) 数据挖掘也可以发现其他类型的知识,如偏差型知识(Deviation),它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要 孤立点数据分析、欺骗检测等 四、在何种数据上进行数据挖掘 原则上讲,DM可以在任何类型的信息存储上进行。包括 关系数据库 数据仓库 高级数据库 展开文件 WWW 四、在何种数据上进行数据挖掘 关系数据库:是表的集合,每个表都赋予一个唯一的名字。关系数据库是数据挖掘最流行的、最丰富的数据源。数据挖掘用于关系数据库时,可以搜索趋势或数据模式,也可以检测偏差 四、在何种数据上进行数据挖掘 数据仓库:是从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据仓库通过数据清理、变换、集成、装入和刷新来构造。通常用多维数据库结构建模。 典型数据仓库结构 四、在何种数据上进行数据挖掘 四、在何种数据上进行数据挖掘 事物数据库:由一个文件组成,其中每个记录代表一个事务。购物篮数据分析 大部分关系数据库系统不支持嵌套关系结构 四、在何种数据上进行数据挖掘 高级数据库,包括 面向对象的数据库 对象-关系数据库 空间数据库 时间数据库和时间序列数据库 文本数据库和多媒体数据库 异种数据库和遗产数据库 WWW 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务有两类:描述和预测 描述性挖掘任务刻画数据库中数据的一般特性; 预测性数据挖掘任务在当前数据上进行推断、预测 1、概念描述 2、关联分析 3、自动预测趋势和行为 4、聚类 5、偏差检测 五、数据挖掘的功能 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。 生成一个类的特征性描述只涉及该类对象中所有对象的共性。 生成区别性描述的方法很多,如决策树方法、遗传算法等 概念/类描述 Concept/class description 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。 关联分析 (Association analysis) 2 关联分析(Association analysis) 关联规则(association rule):是形如 ,即“ ” 的规则,其中 的属性值对。描述关联规则属性的四个参数: 可信度(confidence):物品集X出现的前提下,Y出现的概率, 支持度(support):物品集X、Y同时出现的概率, 期望可信度(expected confidence):物品集Y出现的概率 作用度(lift):可信度对期望可信度的比值。 作用度描述物品集X的出现对物品集Y的出现有多大作用的影响。因为Y在所有事务中出现的概率是期望可信度;而Y在有X出现的事务中出现的概率是可信度,通过可信度对期望可信度的比值反映了在加入“X出现”的这个条件后,Y的出现概率发生了多大变化 四个参数中,最常用的是可信度和支持度。 关联规则有一定的商业价值。请看例子: 例1、超级商场中购买面包和黄油 该关联规则的可信度就回答这样一个问题:如果一个顾客购买了面包,那么也购买黄油的可能性有多大? 如购买面包的顾客中有70%的人购买了黄油,则可信度为 如果某天共有1000个顾客到商场购买物品,其中有100个顾客同时购买了面包和黄油,则关联规则的支持度为 如果某天共有1000个顾客到商场购买物品,其中有200个顾客购买了黄油,则关联规则的期望可信度为 例2、给定AllElectronics数据库,可能发现的关联规则是: 其中是变量,代表顾
您可能关注的文档
- 中型关节者生àm量及影响因素я析-上海交通大学医学院.PDF
- 中小企业景况调查25年を超えて-中小企业庁.PDF
- 中山高二级2016–2017学第二学期期末统一考试试题与答案.DOC
- 中考作文复习建议-龙海教师进修学校.PPT
- 中邮附加团体住院安心医疗保险条款阅读指引-中邮人寿.PDF
- 中山大学南方学院护理系2015年11月-健康与护理系.PDF
- 中银三星中银祥佑终身重大疾病保险-中银三星人寿.PDF
- 中欧互动与近代早期的全球思想史.PDF
- 临床医学-商洛职业技术学院.DOC
- 临床医学专业三年制专科系统解剖学教学大纲前言.PDF
- 2021春季形势与政策课考试题目有答案.pdf
- 2025年绵阳市安州区中医院中医病历书写基本规范培训考试试卷.docx
- 2025年双何幼儿园教职工风险防范安全知识测试题.docx
- 2024秋新人教PEP英语三年级上册课件 Unit 4 PartB(3) Start to read.pptx
- 上海杰邦塑料五金制品有限公司行业竞争力评级分析报告(2023版).pdf
- 2021春季幼儿园园长工作计划大全范文.pdf
- 2025年绵阳市安州区中医院医疗核心制度考试试题.docx
- 济南新立新机器制造有限公司行业竞争力评级分析报告(2023版).pdf
- 企业员工出差车辆管理流程指南.docx
- 《方案的构思方法》教案设计.doc
文档评论(0)