数据分析与挖掘习题.docx

下载文档 降价啦

43
0
约8.84千字
约 46页
2021-01-16 发布于山东
举报
版权申诉
保障服务

数据分析与挖掘习题.docx

1、本文档共46页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

查看更多

数据分析与挖掘习题第一章作业 1.1 什么是数据挖掘 ?在你的回答中 , 强调以下问题 : 它是又一个骗局吗 ? 数据挖掘 , 在人工智能领域 , 习惯上又称为数据库中知识发现 (Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘可以与用户或知识库交互。并非所有的信息发现任务都被视为数据挖掘。例如 , 使用数据库管理系统查找个别的记录 , 或通过因特网的搜索引擎查找特定的 Web页面 , 则是信息检索 (information retrieval) 领域的任务。虽然这些任务是重要的 , 可能涉及使用复杂的算法和数据结构 , 但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构 , 从而有效地组织和检索信息。尽管如此 , 数据挖掘技术也已用来增强信息检索系统的能力。它是一种从数据库 , 统计学和机器学习发展的技术的简单转换吗 ? 硬要去区分 Data Mining 和 Statistics 的差异其实是没有太大意义的。一般将之定义为 Data Mining 技术的 CART、CHAID或模糊计算等等理论方法 , 也都是由统计学者根据统计理论所发展衍生 , 换另一个角度看 ,Data Mining 有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么 Data Mining 的出现会引发各领域的广泛注意呢 ?主要原因在相较于传统统计分析而言 ,Data Mining 有下列几项特性 : 1. 处理大量实际数据更强势 , 且无须太专业的统计背景去使用 Data Mining 的工具数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件 ,Data Mining 的工具更符合企业需求 ; 纯就理论的基础点来看 ,Data Mining 和统计分析有应用上的差别 , 毕竟 Data Mining 目的是方便企业终端用户使用而非给统计学家检测用的。解释数据库技术发展如何导致数据挖掘近年来 , 数据挖掘引起了信息产业界的极大关注 , 其主要原因是存在大量数据 , 可以广泛使用 , 并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用 , 包括商务管理 , 生产控制 , 市场分析 , 工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想 :(1) 来自统计学的抽样、估计和假设检验 ,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想 , 这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地 , 需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能 ( 并行 ) 计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据 , 并且当数据不能集中到一起处理时更是至关重要。当把数据挖掘看作知识发现过程时 , 描述数据挖掘所涉及的步骤。知识发现过程以下三个阶段组成 :(1) 数据准备 ,(2) 数据挖掘 ,(3) 结果表达和解释。 1.2 给出一个例子 , 其中数据挖掘对于一种商务的成功至关重要的。这种商务需要什么数据挖掘功能 ?他们能够由数据查询处理或简单的统计分析来实现吗 ? 由于统计学基础的建立在计算机的发明和发展之前 , 所以常用的统计学工具包含很多可以手工实现的方法。因此 , 对于很多统计学家来说 ,1000 个数据就已经是很大的了。但这个“大”对于英国大的信用卡公司每年 350,000,000 笔业务或 A TT每天 200,000,000 个长途呼叫来说相差太远了。很明显 , 面对这么多的数据 , 则需要设计不同于那些“原则上可以用手工实现”的方法。这意味这计算机 ( 正是计算机使得大数据可能实现 ) 对于数据的分析和处理是关键的。分析者直接处理数据将变得不可行。相反 , 计算机在分析者和数据之间起到了必要的过滤的作用。这也是数据挖掘特别注重准则的另一原因。尽管有必要 , 把分析者和数据分离开很明显导致了一些关联任务。这里就有一个真正的危险 : 非预期的模式可能会误导分析者。在现代统计中计算机是一个重要的工具 , 并不是因为数据的规模。而是对数据的精确分析方法如 bootstrap 方法、随机测试 , 迭代估计方法以及比较适合的复杂的模型正是有了计算机才是可能的。计算机已经使得传统统计模型的视野大大的扩展了 , 还促进了新工具的飞速发展。下面来关注一下歪曲数据的非预期的模式出现的可能性。这和数据质量相关。所有数据分析的结论依赖于数

您可能关注的文档

最近下载

文档评论（0）

182****0747 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 对外合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧！本网站所有资料为用户分享上传，若发现您的权利被侵害，请联系24小时智能客服，如遇紧急情况请联系侵权客服QQ：2885784724（客服上班时间为9:00-18:30）；若您有其他疑问或建议，可点击此处联系我们，上传者QQ群:751299218

公安局备案号：51011502000106 | 工信部备案号：蜀ICP备08101938号-1 | ICP经营许可证/EDI许可证：川B2-20180569 | 公司营业执照 | 出版物经营许可证：成新出发高新字第046号
© 2010-2024 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992