- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘概念与技术第1章数据挖掘引言
数据挖掘:概念与技术 数据挖掘:概念与技术 Jiawei Han and Micheline Kamber著 Monrgan Kaufmann Publishers Inc. 范明 孟小峰等译 机械工业出版社 教材-作者 /homes/hanj/ 伊利诺伊大学,厄巴纳-尚佩恩(University of Illinois at Urbana-Champaign) Data mining: Principles and algorithms 课程信息 数据挖掘的(前7章的内容), 第1章 引言 第2章 数据预处理 第3章 数据仓库与OLAP技术概述 第4章 数据立方体计算与数据泛化 第5章 挖掘频繁模式、关联和相关 第6章 分类和预测 第7章 聚类分析 如果有时间(第11章 数据挖掘的应用和发展趋势) 导论课程(从数据库角度出发) 相关涉及:数据库系统、统计学与机器学习的概念和技术 第1章 引论 动机:为什么要数据挖掘? 什么是数据挖掘? 数据挖掘:在什么数据上进行? 数据挖掘功能 所有的模式都是有趣的吗? 数据挖掘系统分类 数据挖掘的主要问题 数据处理技术的演进 1960s: 数据收集, 数据库创建, IMS层次和网状 DBMS 1970s: 关系数据库模型, 关系 DBMS 实现 1980s: RDBMS, 先进的数据模型 (扩充关系的, OO, 演绎的, 等.) 和面向应用 的 DBMS (空间的, 科学的, 工程的, 等.) 1990s—2000s: 数据挖掘和数据仓库, 多媒体数据库, 和 Web 数据库 数据处理技术的演进 数据挖掘界简史 数据挖掘产生的动机 数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库, 数据仓库, 和其它信息存储中 我们正被数据淹没,但却缺乏知识 数据丰富,但信息贫乏(目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。) 解决办法: 数据仓库与数据挖掘 数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则, 规律性, 模式, 限制等) 支持数据挖掘技术的技术基础 海量数据搜集 强大的多处理器计算机 数据挖掘算法 数据挖掘系统的特征 数据的特征 知识的特征 算法的特征 什么是数据挖掘? 数据挖掘 (从数据中挖掘知识): 从大型数据库中提取有趣的 (非平凡的, 蕴涵的, 先前未知的 并且是潜在有用的) 信息或模式 数据挖掘: 用词不当? 其它叫法和“inside stories”内幕新闻 : 数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD), 知识提取(knowledge extraction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology), 数据捕捞(data dredging), 信息收获(information harvesting), 商务智能(business intelligence), 等. 什么不是数据挖掘? (演绎) 查询处理. 专家系统 或小型 机器学习(ML)/统计程序 处理大量数据/ 有效的可伸缩的技术 数据挖掘概念 数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构; 数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。 数据挖掘与传统数据分析的区别 巨大的的数据 算法必须具有伸缩性来处理巨大的数据 高维度的数据 高复杂度的数据 数据流与传感器采集的数据 时间序列数据, 数据序列 结构数据,图形, 社交网络 异构数据库 空间数据, 时空数据, 多媒体, 文本 与 Web 数据 软件程序, 科学模拟 新的复杂的应用 数据挖掘过程 数据挖掘过程的步骤 学习应用领域: 相关的先验知识和应用的目标 创建目标数据集: 数据选择 数据清理和预处理: (可能占全部工作的 60%!) 数据归约与变换: 发现有用的特征, 维/变量归约, 不变量的表示. 选择数据挖掘函数 汇总, 分类, 回归, 关联, 聚类. 选择挖掘算法 数据挖掘: 搜索有趣的模式 模式评估和知识表示 可视化, 变换, 删除冗余模式, 等. 发现知识的使用 数据挖掘各阶段的工作量 Data Mining牵涉大量的规划与准备,专家声称高达80%的过程花在准备数据阶段。 确定业务对象 数据预处理 数据挖掘模式发现 模式评估与解释 典型的数据挖掘系统
原创力文档


文档评论(0)