快速数据挖掘平台RapidMiner 02.pdfVIP

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
快速数据挖掘平台RapidMiner 02

数据准备:导入、预处理、导出 RapidMiner 开源数据挖掘工具 第2课 DATAGURU专业数据分析社区 RapidMiner 开源数据挖掘工具讲师郭振未QQ 背景和概要说明  Jerry是一家小型互联网设计和广告公司的营销经理。他的老板让他开发一个包含互联 网用户相关信息的数据集。公司将使用这些数据来确定哪些人在使用互联网,以及公 司可以如何向这一用户群体推广他们的服务。  为了完成任务,Jerry创建了一个在线调查,并将指向调查的链接放在了多个受欢迎的 网站上。在两周内,Jerry收集到了开始分析所需的足够数据,但他发现这些数据需要 逆规范化。他还注意到数据集中有些观察项是缺失的值或看起来包含无效的值。Jerry 认识到在开始分析之前,需要对数据进行一些额外的工作。 DATAGURU专业数据分析社区 RapidMiner 开源数据挖掘工具讲师郭振未QQ 学习目标  在学习完本节课并完成其中的作业练习后,您应能够:  解释数据清理的概念和目的  列出在处理缺少的数据方面可能采取的解决方案  解释数据约简的作用,并执行基本的数据约简方法  确定并处理不一致的数据  讨论属性约简的重要性和流程 DATAGURU专业数据分析社区 RapidMiner 开源数据挖掘工具讲师郭振未QQ 应用CRISP数据挖掘模型  让我们回想一下第1课中介绍的,CRISP数据挖掘方法要求在构建任何实际数据挖掘模 型之前,都要经过三个阶段。在上述“背景和概要说明”部分,Jerry有一些任务需要 完成,其中每项任务都属于CRISP前三个阶段中的其中一个阶段。首先,Jerry必须确 保明确地的了解组织。公司开展此项目的目的是什么?为什么他要调查互联网用户? 哪些数据项是要收集的重要数据项,哪些数据项是最好要收集的,哪些数据项与项目 无关甚至会扰乱项目?收集数据后,哪些人可以访问数据集,以及通过什么机制访问 ?公司将如何确保隐私得到保护?早在Jerry开始创建上述第二段中提到的调查之前, 所有这些问题(或许还有其他问题)即应得到解答。 DATAGURU专业数据分析社区 RapidMiner 开源数据挖掘工具讲师郭振未QQ 应用CRISP数据挖掘模型  这些问题得到解答后,Jerry即可开始创建调查。这时将进入了解数据阶段。将使用什 么数据库系统?使用什么调查软件?他将使用可公开获得的工具(例如 SurveyMonkeyTM )、商用软件,还是内部开发的软件?如果使用可公开获得的工具 ,他将如何访问并提取数据进行挖掘?他是否可以信任这个第三方工具会保护他的数 据?如果信任,为什么?将如何设计基本数据库?将实施哪些机制来确保数据的一致 性和完整性?这些都是了解数据方面的问题。确保一致性的一个简单示例是如果要作 为数据的一部分收集人们所在的城市。如果在线调查只提供用于输入内容的开放文本 框,则调查对象可以输入任何内容作为他们所在的城市。他们可能会输入新建York、 NY、N.Y.、Nwe York或任何其他可能的组合,包括拼错的情况。通过迫使用户从下拉 菜单中选择他们所在的城市,可以避免这种问题。但考虑到大多数国家/地区的城市数 量,该列表可能会长到令人无法接受!因此,选择如何处理这种潜在的数据不一致问 题并不一定是件很明显或很轻松的事情,并且这只是要收集的许多数据项中的其中一 项。虽然“所在州/省”或“所在国家/地区”使用下拉菜单可能是合理的,但“所在城 市”可能必须得手动输入到文本框中,并在稍后应用某种数据纠正流程。 DATAGUR

文档评论(0)

精品文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档