- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
专题四:数据挖掘技术_[全文].doc
数据挖掘技术
专题四:
数据挖掘技术的由来
数据挖掘的定义
数据挖掘应用
数据挖掘的基本技术
数据挖掘的基本算法
基于Excel的数据挖掘软件工具
数据挖掘技术的由来
网络之后的下一个技术热点
我们现在已经生活在一个网络化的时代,网络技术大大提高了人的生存质量和人的素质,使人成为社会人、全球人。
网络之后的下一个技术热点是什么?
数据挖掘技术的由来
网络之后的下一个技术热点
《纽约时报》由60年代的10~20版扩张至现在的100~200版,最高曾达1572版;
《北京青年报》也已是16~40版;
《市场营销报》已达100版。
在现实社会中,人均日阅读时间通常为30~45分钟,只能浏览一份24版的报纸。
数据挖掘技术的由来
网络之后的下一个技术热点
大量信息在给人们带来方便的同时也带来了一大堆问题:
第一:是信息过量,难以消化;
第二:是信息真假难以辨识;
第三:是信息安全难以保证;
第四:是信息形式不一致,难以统一处理。
数据挖掘技术的由来
网络之后的下一个技术热点
“要学会抛弃信息”
“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”
数据开采和知识发现(DMKD)技术应运而生
数据挖掘技术的由来
数据爆炸但知识贫乏
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。
目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。
数据挖掘技术的由来
支持数据挖掘技术的基础
海量数据搜集
强大的多处理器计算机
数据挖掘算法
数据挖掘技术的由来
从商业数据到商业信息的进化
提供预测性的信息
Pilot,Lockheed,IBM,SGI,其他初创公司
高级算法,多处理器计算机,海量数据库
“下个月波士顿的销售会怎么样?为什么?”
数据挖掘(正在流行)
在各种层次上提供回溯的、动态的数据信息
Pilot,Comshare,Arbor,Cognos,Microstrategy
联机分析处理(OLAP),多维数据库,数据仓库
“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”
数据仓库;决策支持(90年代)
在记录级提供历史性的、动态数据信息
Oracle,Sybase,Informix,IBM,Microsoft
关系数据库(RDBMS),结构化查询语言(SQL),ODBC, Oracle,Sybase,Informix,IBM,Microsoft
“在新英格兰的分部去年三月的销售额是多少?”
数据访问
(80年代)
提供历史性的、静态的数据信息
IBM,CDC
计算机,磁带和磁盘
“过去五年中我的总收入是多少?”
数据搜集
(60年代)
产品特点
产品厂家
支持技术
商业问题
进化阶段
数据挖掘技术的由来
数据挖掘逐渐演变的过程
机器学习
专家系统
机器学习
数据挖掘的定义
技术上的定义及含义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘的定义
技术上的定义及含义
数据源必须是真实的、大量的、含噪声的;
发现的是用户感兴趣的知识;
发现的知识要可接受、可理解、可运用;
并不要求发现放之四海皆准的知识,仅支持特定的发现问题
数据挖掘的定义
商业角度的定义
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
数据挖掘的定义
数据挖掘与传统分析方法的区别
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识1/a.
数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.
数据挖掘的定义
数据挖掘和数据仓库
数据仓库是为决策支持而不是为事务处理所设计的数据库,它是将不同来源的事务处理数据库中对决策有用的数据提取出来而建立。
数据仓库的发展是数据挖掘的动力之一。但数据挖掘既可以在数据仓库中进行,也可以在传统的事务型数据库中进行。
数据挖掘的定义
数据挖掘和数据仓库
数据源
数据仓库
各分公司
数据集市
分析
数据集
您可能关注的文档
- -教师招聘,考试试题,教育学心理学模拟考试.doc
- 一)萧伯纳简介.doc
- 一、OLAP及其多维数据分析 .doc
- 一、战时共产主义政策 .ppt
- 一、教材内容:原地双手头上向前掷实心球.doc
- 一、民企经理人概述 .doc
- 一个基于工作流技术的办公自动化系统的设计与实现.doc
- 一个基于椭圆曲线的自认证代理密钥分配协议.pdf
- 一个求解不可微凸优化的新算法.pdf
- 一个求解离散网络平衡设计问题的新算法.pdf
- 北师大版(2024)八年级数学上册课件 3.2 平面直角坐标系 第2课时 点的坐标特征.pptx
- 北师大版(2024)八年级数学上册课件 3.2 平面直角坐标系 第3课时 建立适当的平面直角坐标系.pptx
- 北师大版(2024)八年级数学上册课件 4.3 一次函数的图象 第1课时 正比例函数的图象及性质.pptx
- (人教A版数学选择性必修三)讲义第15讲7.1.1条件概率(学生版+解析).docx
- (人教A版数学选择性必修三)讲义第19讲8.1成对数据的统计相关性(8.1.1变量的相关关系+8.1.2样本相关系数)(学生版+解析).docx
- 北师大版(2024)八年级数学上册课件 5.2 二元一次方程组的解法 第2课时 加减消元法.pptx
- (人教A版数学选择性必修一)2025年秋季学期讲义第01讲1.1.1空间向量及其线性运算(学生版+教师版).docx
- 北师大版(2024)八年级数学上册课件 5.2 二元一次方程组的解法 第1课时 代入消元法.pptx
- 北师大版(2024)八年级数学上册课件 5.3 二元一次方程组的应用 第3课时 二元一次方程组的应用(3).pptx
- 北师大版(2024)八年级数学上册课件 5.4 二元一次方程与一次函数 第2课时 用二元一次方程组确定一次函数表达式.pptx
最近下载
- 黑龙江省齐齐哈尔市克东县克东一中、克山一中等五校联考2025年高三5月仿真考试数学试题含解析.doc VIP
- 新编机关事业单位工人汽车驾驶员高技师国家题库练习题题附答案.docx VIP
- 黑龙江省齐齐哈尔市克东县第一中学2025届高三下学期第五次模拟测试数学试题(含答案解析).docx
- 2025年福建省中考语文试卷(含答案).docx
- 新编机关事业单位工人汽车驾驶员高级、技师国家题库练习题455题(附答案)名师资料..doc VIP
- T_BPMA 0010—2021_现制现售净水机卫生管理规范.pdf VIP
- 复合益生菌发酵玉米-豆粕型日粮对哺乳期羔羊瘤胃发酵参数及菌群结构的影响.pdf VIP
- 野百合也有春天,日本女白领情定宁夏送电工.doc VIP
- 浅谈对智能化医院系统建设见解.doc VIP
- FSSC220006.0 附件中文版本.pdf VIP
文档评论(0)