- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据预处理 数据中的不一致性 数据挖掘能够有效地处理数据中的不一致性。即使源数据是干净的、整合的和经过验证的,它们仍有可能包含现实世界的不真实的数据。 有效认识和解决数据质量相关问题的唯一办法,就是企业对内部处理流程进行监视、分析和报告。 美国硬盘生产商Maxtor公司的首期信息长官斯考特.海卡尔说 “商务智能最大的困难在于需要确保用于总结性分析和仪表板中的最底层的数据永远干净、一致并相关。我们需要数据仓库具备自我治疗能力,能够自动地感应、侦查、通告和维修任何不正确、缺失或未经核对的数据因素。但这至少需要一到两年才会发生。” 噪声 这种噪声可能是由用户的错误输入或是顾客填写问卷时的笔误造成的。如果这些错误不是发生的太频繁,数据挖掘工具还是能够忽略它们,并且找出数据中存在的整体模式。 脏数据形成的原因 滥用缩写词 数据输入错误 不同的惯用语(如:ASAP对“at first chance”) 重复记录 丢失值 拼写变化 不同的计量单位 过时的编码 数据清洗 (客户数据) Maggie.kline@future_ Margaret Smith-Kline phd FUTURE Electronics 5/23/03 101 6th ave manhattan ny 10012 001124367 Salutation: Ms. First name: Margaret Last name: Smith-Kline Postname: Ph. D. Match standards: Maggie, Peg, Peggy Gender: Strong Female Company name: Future Electronics Address 1: 101 Avenue of the Americas City: New York State: NY ZIP+4: 10013-1933 Email: maggie.kline@future_ SSN: 001-12-4367 Date May 23, 2003 输入记录 输出记录 Ms Margaret Smith-Kline Ph.D. Future Electronics 101 Avenue of the Americas New York NY 10013-1933 maggie.kline@future_ May 23, 2003 姓名: Ms. Margaret Smith-Kline Ph.D. 公司名: Future Electronics Co. LLC 社会保障号: 001-12-4367 购买日期: 5/23/2003 地址: 101 Avenue of the Americas New York, NY 10013-1933 纬度: 40.722970 经度: -74.005035 Fed code: 36061 电话: (222) 922-9922 Email: maggie.kline@future_ 输入记录 合并的记录 Maggie Smith Future Electronics Co. LLC 101 6th Ave. Manhattan, NY 10012 maggie.kline@future_ 001-12-4367 Ms. Peg Kline Future Elect. Co. 101 6th Ave. New York NY 10013 001-12-4367 (222) 922-9922 5/23/03 匹配和合并 数据清理处理内容 格式标准化 异常数据清除 错误纠正 重复数据的清除 属性间的相互依赖性 数据挖掘将会同时从不同角度来看待数据。这就防止了把某些自身看起来好像不相关的属性丢弃的情况。 数据挖掘将会发现属性间的相互依赖性,这些相互依赖性往往需要提取数据中的所有相关信息,甚至是隐藏在多个属性的组合中。 结果解释 对结果的解释完全依赖于数据挖掘步骤的可视化输出。 对结果的解释需要挖掘专家和领域专家的紧密合作。他们一起将技术的结果解释为商业的意义,并且评价从这些结果中得出结论的正确性。 当结果从技术上来说是正确的,但对商业上来说并不意味着任何有价值的东西的时候,有必要进行迭代。 商业应用 一个例子就是预测所有客户中的可创造高利润的群体,必须决定如何去接近这些客户,同时还要决定如何判断他们是否像模型预测的那样能带来利润。 领域专家依靠对挖掘结果解释中的信息,来支持商业应用的决定。在小公司中,领域专家可能就是决策者,但通常来说,决策者往往是一些顾问。 如果领域专家对决策是否为挖掘结果所支持不是很确定,或者他和实际决策者中有任何的误解,都需要回复到结果解释阶段。 商业反馈 商业环境中的结果被反馈到商业智能环境中,并和数据挖掘
您可能关注的文档
- 福建师范大学文学院中国古代文学课件 明代诗词概述.ppt
- 福建师范大学文学院中国古代文学课件 明代文学概况.ppt
- 福建师范大学文学院中国古代文学课件 明代中后期诗文.ppt
- 福建师范大学文学院中国古代文学课件 明前期诗文.ppt
- 福建师范大学文学院中国古代文学课件 南洪北孔.ppt
- 福建师范大学文学院中国古代文学课件 秦汉文章.ppt
- 福建师范大学文学院中国古代文学课件 清代诗词文.ppt
- 福建师范大学文学院中国古代文学课件 清代文学概述.ppt
- 福建师范大学文学院中国古代文学课件 清代戏曲.ppt
- 福建师范大学文学院中国古代文学课件 神话.ppt
- 2025年辽宁师范高等专科学校高职单招职业技能测验历年参考题库频考版含答案解析.docx
- 2025年辽宁工程职业学院高职单招高职单招英语2016-2024历年频考点试题含答案解析.docx
- 2025至2030年通用帐务处理系统软件项目投资价值分析报告.docx
- 2025年辽宁师范高等专科学校高职单招职业适应性测试近5年常考版参考题库含答案解析.docx
- 2025年思想政治方面个人总结7篇 .pdf
- 2025至2030年鞋业UV照射机项目投资价值分析报告.docx
- 2025至2030年雨伞袋牌项目投资价值分析报告.docx
- 2025至2030年陶瓷柱项目投资价值分析报告.docx
- 2025至2030年中国浴厕隔间配件数据监测研究报告.docx
- 2025至2030年隔热耐火砖项目投资价值分析报告.docx
文档评论(0)