电子科大数据挖掘作业1-6.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精选文档,供参考! 精选文档,供参考! 数据挖掘课后习题 数据挖掘作业 1—— 6 第一章 绪论 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种 。 1、关系数据库 2、数据仓库 3、事务数据库 4、高级数据库系统和数据库应用如空间数据库、 时序数据库、 文本数据 库和多媒体数据库等 ,还可以是 Web 数据信息 。 实际生活的例子: 电信行业中利用数据挖掘技术进行客户行为分析, 包含客户通话记录、 通话时间、 所开通的服务等, 据此进行客户群体划分以及客户流失性分析。 天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分 析, 帮助天文学家发现其他未知星体。 市场业中应用数据挖掘技术进行市场定位、 消费者分析、 辅助制定市场 营销策略等。 给出一个例子, 说明数据挖掘对商务的成功是至关重要的。 该商务需要什么 样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现 吗? 以一个百货公司为例, 它可以应用数据挖掘来帮助其进行目标市场营销。 运用数据挖掘功能例如关联规则挖掘, 百货公司可以根据销售记录挖掘出强 关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能 去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用于数 据或信息检索 , 没有发现关联规则的方法。同样地,简单的统计分析没有能 力处理像百货公司销售记录这样的大规模数据。 第二章数据仓库和OLAP技术 简述数据立方体的概念、多维数据模型上的 OLAP操作。 数据立方体 数据立方体是二维表格的多维扩展,如同几何学中立方体是正 方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和 分析数据集,通常是一次同时考虑三个维度。数据立方体提供数据 的多维视图,并允许预计算和快速访问汇总数据。 多维数据模型上的OLAP操作 上卷 (roll-up): 汇总数据 通过一个维的概念分层向上攀升或者通过维规约 下卷(drill-down): 上卷的逆操作 由不太详细的数据到更详细的数据, 可以通过沿维的概念分 层向下或引入新的维来实现 切片和切块 (slice and dice) 投影和选择操作 转轴 (pivot) 立方体的重定位, 可视化,或将一个 3 维立方体转化为一个 2 维平面序列 OLAP多维分析如何辅助决策?举例说明。 OLAP 是在多维数据结构上进行数据分析的, 一般在多维数据上切片、 切块成简单数据来进行分析,或是上卷、下卷来分析。OLAF要查询大量 的日常商业信息,以及大量的商业活动变化情况,如每周购买量的变化 值,经理通过查询变化值来做决策。 例如经理看到利润小于预计值是,就会去深入到各地区去查看产品 利润情况,这样他会发现一些比较异常的数据。经过进一步的分析和追 踪查询可以发现问题并解决 举例说明OLAP的多维数据分析的切片操作。 切片就是在某两个维上取一定区间的维成员或全部维成员。 如用三维数组表示为(地区,时间,产品,销售额) ,如果在地区维 度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产 品的切片)。 第三章 数据预处理 1) 假定用于分析的数据包含属性 age ,数据元组中 age 的值如下 ( 按递增序 ) : 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35 ,36,40,45,46,52,70 。 使用按箱平均值平滑对以上数据进行平滑,箱的深度为 3 。解释你的 步骤。评论对于给定的数据,该技术的效果 。 已知数据元组中 age 的值如下 ( 按递增序 ) : 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35, 35,35,35,36,40,45,46,52,70 , 且箱的深度为 3 , 划分为(等频)箱: 箱 1 : 13,15,16 箱 2 : 16,19,20 箱 3 : 20,21,22 箱 4 : 22,25,25 箱 5 : 25,25,30 箱 6 : 33,33,33 箱 7 : 35,35,35 箱 8 : 35,36,40 箱 9 : 45,46,52 箱 10 : 70 用箱均值光滑: 箱 1 : 15,15,15 箱 2 : 18,18,18 箱 3 : 21,21,21 箱 4 : 24,24,24 箱 5 : 27,27,37 箱 6 : 33,33,33 箱 7 : 35,35,35 箱 8 : 37,37,37 箱 9 : 48,48,48 箱 10 : 70 对于数据平滑,还有哪些其它方法 ? 回归:可以用一个函数 (如回归函数 ) 拟合数据来光滑数据; 聚类: 可以通过聚类检测离群点, 将类似的值组织

文档评论(0)

laugh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档