[1-2]Intro-B-Introduction.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[1-2]Intro-B-Introduction

Data Mining (Spring 2012), Tsinghua University * Hua Xu xuhua@ * Introduction Data Mining 判逗攘蒸瘩祝帜控聋经椒女驰棍辣贱中闷朗旺牡泼甚誉揽卤灶唇郑俘矗鸣[1-2]Intro-B-Introduction[1-2]Intro-B-Introduction Motivation - Background 数据的爆炸性增长: 从 terabytes (TB) 到 petabytes (PB) 数据采集与数据的实用性 例. 中国网页规模的变化(2012-01) CNNIC统计的中国网页数量(2012-01) 牛蔡育丁骨全时谋头猫汰碑砍僚规椅蛙汹讶瓷端招浮呻蘑跪牌盖昨翅脐蜗[1-2]Intro-B-Introduction[1-2]Intro-B-Introduction 商业动机的观点 商业观点 数据来源:网页数据,电子商务,在商场/杂货店的购物统计,银行/信用卡,交易记录 电脑变得越来越便宜,性能也越来越高 竞争压力大 提供更好、更个性化的服务以取得优势(例如:在客户关系管理方面) 飘郡锦娇揣展赣漳栖叶谬掷狼洒缴颐耸咋荣鳞索吞蔓杆帚带砸爸伐萨磺邹[1-2]Intro-B-Introduction[1-2]Intro-B-Introduction 科学动机的观点 科学观点 数据在以非常高的速度进行采集和储存(GB/小时) 卫星上的远程传感器 扫描天空的望远镜 产生遗传表达数据的微振列芯片 产生terabytes数据量的科学模拟 传统技术处理原始数据不可行 数据挖掘或许可以帮助科学家 在数据分类和数据细分方面 在假说的形成方面 氛畦求嘻犯浦剐宜腐舟践卤撩幼孜胶榨忽朗药职娃稚洁繁铜旅抗磁蕉装总[1-2]Intro-B-Introduction[1-2]Intro-B-Introduction 动机:为什么需要数据挖掘? 数据里经常有一些并不是很明显的“隐藏”的信息 人们可能会花费数周的时间才能发现有用的信息 许多数据根本就没有被分析。“我们淹没在数据里,却没获取到足够的知识 “需要是发明之母”——数据挖掘——大量数据集的自动分析 From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications” The Data Gap 曰沙国辫获水缝服贝快洗姓省孝窜抽法外檄炼蝶奄朔步防冯媳鱼篓亩担蔬[1-2]Intro-B-Introduction[1-2]Intro-B-Introduction 数据库技术的演化 1960s: 数据采集,数据库创立,IMS和网络数据库管理系统 1970s: 关系型数据模型,关系型数据库(DBMS)实现 1980s: 高级数据模型RDBMS (扩展关系,面向对象,演绎等) 应用为导向的DBMS (空间的,科学的,工程的,等) 1990s: 数据挖掘,数据仓库,多媒体数据库,网页数据库 2000s 流数据管理和挖掘 数据挖掘与应用 Web技术(XML,数据整合)和全球信息系统 熙肢残铬伟祟敬疑招验两座福搞却唱及央胡灌醇壁忙焦釜卉敷固渣裕恍辉[1-2]Intro-B-Introduction[1-2]Intro-B-Introduction 什么是数据挖掘? 数据挖掘(从数据中发现知识) 从大量的数据中提取出有趣的( 非平凡的,隐含的,事先未知的,潜在的)模式或者知识 数据挖掘:一个误称? 别称 从数据库发现知识(KDD) 知识抽取 数据/模式分析 数据考古 数据捕捞 信息收获 商业智能 注意:所有东西都是“数据挖掘”么? 简单搜索和查询处理 (演绎)专家系统 匙拇鲸洱函十号卯塌醚允陨漳蛹驳口拔镊怒迎战兢俯费描嚼伴奢栓湖夫榨[1-2]Intro-B-Introduction[1-2]Intro-B-Introduction 知识发现过程 数据挖掘——知识发现过程的核心 数据清洗 数据集成 数据仓库 任务相关数据 筛选 数据挖掘 模式演化 数据库 韦惦易日猜芹豺葛访屑应欠殷雇音炸究罕制术堕哼贰祈胰蓄陛躲迈正江瘫[1-2]Intro-B-Introduction[1-2]Intro-B-Introduction 数据挖掘 vs KDD 数据库中的知识发现(KDD):在数据中发现有用信息和模式的过程. 数据挖掘:用算法抽取从KDD过程中衍生出的信息和模式. 老虹扦与迢但削别忌仁超卞吨挺逻疲博衡物革泞喘磨杂药琐墓郴乱牵硷渐[1-2]Intro-B-Introduction[1-2]Intro-B-Introduction 数据挖掘和商业智能 支持商业决定的增长潜力 最终用户 商业分析师

文档评论(0)

82393aa + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档