第1章数据挖掘课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Data Mining: Concepts and Techniques 何谓数据挖掘? 数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。 数据准备是从各种数据源中选取和集成用于数据挖掘的数据; 规律寻找是用某种方法将数据中的规律找出来; 规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的规律表示出来。 数据挖掘在自身发展的过程中,吸收了数理统计、数据库和人工智能中的大量技术。 数据挖掘项目实例 ? 信用卡公司分析信用卡历史数据,判断哪些人有风险,哪些没有 ? 超市分析交易数据,安排货架上货物摆布,以提高销售 ? 调查局分析行为模式,判断哪些人对受保护的信息具有潜在威胁 ? 药房分析医师的处方,判断哪些医师愿意购买他们的产品 ? 保险公司分析以前的客户记录,决定哪些客户是潜在花费昂贵的 ? 汽车公司分析不同地方人的购买模型,针对性地发送给客户喜欢的汽车的手册 ? 人才中心分析不同客户的工作历史,发送客户潜在的感兴趣的工作信息 ? 访问没有归类的竞争对手数据库,推断出潜在的归类信息 ? 教育学院分析学生历史信息,决定哪些人愿意参加培训,发送手册给他们 ?核武器工厂分析历史核查信息记录,决定没有采用哪项预防措施将导致核灾难 ? 广告公司分析人们购买模式,估计他们的收入和孩子数目,作为潜在的市场信息 ? 调查局分析不同团体的旅游模式,决定不同团体之间的关联 ? 医师分析病人历史和当前用药情况,不仅诊断用药而且预测潜在的问题 ? 税务局分析不同团体的交所得税的记录,发现异常模型和趋势 ? 调查局分析罪犯记录,推断哪些人可能会犯恐怖罪和大的谋杀罪 Chapter 1. Introduction ?什么激发了数据挖掘,为什么它是重要的? ?什么是数据挖掘? ?在何种数据上进行数据挖掘? ?数据挖掘功能——可以挖掘什么类型的模式 ?所有模式都是有趣的吗? ?数据挖掘系统的分类 ?数据挖掘的主要问题 动机: “需要是发明之母” 数据泛滥问题 自动数据收集工具和成熟的数据库技术使得大量数据 存储于数据库,数据仓库和其他信息库。 我们数据丰富但信息贫乏 解决办法:数据仓库和数据挖掘 数据仓库和联机分析处理 大型数据库中的有趣知识(规则、模式) 数据库技术的演化 1960s: 从原始的文件处理演化到复杂的、功能强大的数据库系统 数据收集,数据库创建,信息管理系统(IMS)和数据库管理系统 1970s: 从层次和网状数据库系统发展到开发关系数据库系统 关系数据模型,关系数据库管理系统工具 1980s:广泛接受关系技术,研究和开发新的、功能强大的数据库系统。使用了先进的数据模型,面向对象模型,扩充关系模型,对象-关系模型和演绎模型。 关系数据库管理系统(RDBMS), 高级数据模型(面向对象、演绎 等等)和面向应用的DBMS(空间的、科学的、工程的) 1990s: 数据仓库是一种数据库结构。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。 数据挖掘和数据仓库,多媒体数据库和web数据库 2000s(新一代综合信息系统) Stream data management and mining Data mining and its applications Web technology (XML, data integration) and global information systems 数据挖掘的出现 数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。 数据挖掘出现于20世纪80年代末,最早是在数据库领域发展起来的,称为数据库中的知识发现(KDD,Knowledge Discovery in Database)。数据挖掘是KDD过程中的一个环节,它的历史虽然较短,但从20世纪90年代以来,发展速度很快,目前还没有一个完整的定义。 数据库中发现知识一词首次出现于1989年在美国底特律召开的第十一届国际联合人工智能学术会议上,到1995年在加拿大蒙特利尔召开的首届KDDData Mining国际学术会议,再到以后每年都要召开一次的KDDData Mining国际学术会议,经过十多年的努力,数据挖掘技术的研究已经取得了丰硕的成果,不少软件公司已研制出数据挖掘软件产品,并在北美、欧洲等国家得到应用。 数据挖掘的当前热点 数据挖掘技术的三大支柱为:数据库技术;人工智能技术及概率与数理统计。 当前数据挖掘的研究热

文档评论(0)

339910001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档