数据仓库与数据挖掘教学大纲.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据仓库与数据挖掘》教学大纲 一、 课程概况 课程名称:数据仓库与数据挖掘 英文名称:Data warehousing and data mining 课程性质:选修 课程学时:32 课程学分:2 授课对象:信息类的大学本科高年级学生开课时间:三年级下学期 讲课方式:课堂+实验主讲老师: 二、 教学目的 本课程把数据视为基础资源,根据软件工程的思想,总结了数据利用的历程, 讲述了数据仓库的基础知识和工具,研究了数据挖掘的任务及其挑战,给出了经典的数据挖掘算法,介绍了数据挖掘的产品,剖析了税务数据挖掘的案例,探索了大数据的管理和应用问题。 三、 教学任务 完成《数据仓库与数据挖掘》教材内容,及教学计划中的互动实践内容,另有学生自主选题的大作业、选作的论文报告。32 学时:课堂 24、实验 2、课外 2、研讨 4 学时。 四、 教学内容的结构 课程由 9 个教学单元组成,对应于《数据仓库与数据挖掘》的内容。 第 1 章数据仓库和数据挖掘概述 概述 1 数据中心 4 关系型数据中心 非关系型数据中心 混合型数据中心(大数据平台) 混合型数据中心参考架构第 2 章 数据 数据的概念 数据的内容 实时数据与历史数据 时态数据与事务数据 图形数据与图像数据 主题数据与全部数据 空间数据 序列数据和数据流 元数据与数据字典 数据属性及数据集 数据特征的统计描述 22 集中趋势 22 离散程度 23 数据的分布形状 25 数据的可视化 26 数据相似与相异性的度量 29 数据质量 32 数据预处理 32 被污染的数据 33 数据清理 35 数据集成 36 数据变换 37 数据规约 38 第 3 章 数据仓库与数据 ETL 基础 39 从数据库到数据仓库 39 数据仓库的结构 39 两层体系结构 41 三层体系结构 41 组成元素 42 数据仓库的数据模型 43 概念模型 43 逻辑模型 43 物理模型 46 ETL46 数据抽取 47 数据转换 48 数据加载 49 OLAP49 3.5.1 维 49 OLAP 与 OLTP49 OLAP 的基本操作 50 OLAP 的数据模型 51 ROLAP52 MOLAP52 HOLAP53 第四章 数据仓库和 ETL 工具 54 IBM DB2 V10 自适应压缩 54 多温度存储 55 时间旅行查询 56 DB2 兼容性功能 60 工作负载管理 61 PureXML62 当前已落实 63 DB2 PureScale Feature63 分区特性 65 并行技术 67 SQW68 Cubing Services68 列式存储及压缩技术(BLU)70 InfoSphere Datastage71 基于 Information Server 的架构 72 企业级实施和管理 75 高扩展的体系架构 79 具备线性扩充能力 81 ETL 元数据管理 82 InfoSphere QualityStage82 第 5 章 数据挖掘基础 84 数据挖掘的起源 84 数据挖掘的定义 85 数据挖掘的任务 86 分类 回归分析 相关分析 聚类分析 关联规则 异常检测 数据挖掘标准流程 商业理解 数据理解 数据准备 建立模型 模型评估 结果部署 数据挖掘的十大挑战性问题 数据挖掘统一理论的探索 高维数据和高速数据流的研究与应用 时序数据的挖掘与降噪 从复杂数据中找寻复杂知识 网络环境中的数据挖掘 分布式数据挖掘 生物医学和环境科学数据挖掘 数据挖掘过程自动化与可视化 信息安全与隐私保护 动态、不平衡及成本敏感数据的挖掘第 6 章 数据挖掘算法 算法概述 分类算法及评估指标 聚类算法及其评价指标 6.2 C4.5 CART 算法 K-Means 算法 SVM 算法 121 Apriori 算法 EM 算法 PageRank 6.9Adaboost 算法6.10KNN 算法6.11Naive Bayes 第 7 章 数据挖掘工具与产品 数据挖掘工具概述 商业数据挖掘工具 IBM SPSS Modeler 开源通用的数据挖掘工具 WEKA 第 8 章 数据挖掘案例 概述 纳税评估示例 税收预测建模示例 税务行业纳税人客户细分探索 基于 Hadoop 平台的数据挖掘思考题第 9 章 大数据管理 什么是大数据 Hadoop 介绍 NoSQL 介绍 InfoSphere BigInsights 3.0 介绍 五、 教学活动以及教学方法上的基本要求 课堂教学、实验、课外作业、自选题目的大作业、论文和报告结合,另有课 外讨论环节。 通过课堂教学讲解基本原理和方法;通过互动实践课巩固课堂教学内容,并在助教辅导下完成基础实验,由助教验收;课外作业由学生独立完成,并提交系统进行评分。 自选题目的大作业可以分组进行,要在期中提交选题报告,期末

文档评论(0)

tianya189 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档