- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主要内容 第一部分 Data Mining简介 巨量的纪录(cases)(108-1012 bytes)。 高维的资料(variables)(10-104 attributes)。 搜集到的资料仅有一小部分用来分析(5% to 10%) 资料收集过程中,本身并不具延伸性的探讨特性,而往往忽略其未来潜在重要性。 资料的维度增加了传统分析技术的困难度 。 Data Mining对各行业所产生之利益。 何谓Data Mining? 何谓Data Mining? 1995年,在美国计算机年会上首次提出了数据挖掘的概念。从95年提出这个概念以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个公认的、完整的定义,人们提出了多种数据挖掘的定义,例如: 1、SAS研究所的定义(1997年):数据挖掘是在大量相关数据基础之上进行数据探索和建立相关模型的先进方法。 2、Bhavani给出的定义(1999年):数据挖掘是使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程。 3、Handetal的定义(2000年):数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程。 何谓Data Mining? 简单的说,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 狭义定义:数据挖掘是数据库中知识发现的同义词; 广义定义:认为数据挖掘是数据库中知识发现的一个基本步骤,是指采用自动化或半自动化的技术手段,对存放在数据库、数据仓库、电子表格或其他信息库的大量数据进行分析,并发现数据中隐藏的潜在模式的过程。 何谓Data Mining? 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。 从数据搜索技术开始,Data Mining是当今计算机行业发展最快的产业,并且许多不同领域的专家,如统计学家,金融学家等,对Data Mining也产生了极大的兴趣。计算机技术,统计分析方法、各类算法及行业知识的结合极大地推动Data Mining技术的发展。 事实上,数据挖掘并不只是一种技术或是一套软件,而是一种结合数种专业技术的应用。有学者认为数据挖掘是KDD的一个环节。 现今计算机运算能力的跃进,以及资料储存技术的进步,数据仓库的广泛建置,加上企业行销策略转为针对单一消费者个人行销,更突显Data Mining对于企业的迫切性。 目前,已有不少有关Data Mining的软件工具,有些销售的还相当火爆,但是,对于这种Data Mining的产品应该有一个正确的认识,就是它不是一个无所不能的魔法。它不是在那边监视你的资料的状况,然后告诉你说你的数据库里发生了某种特别的现象。也不是说有了Data Mining的工具,就连不了解业务、不了解资料所代表的意义、或是不了解统计原理的人也可以做Data Mining。Data Mining所挖掘出来的信息,也不是你可以不经确认,就可以照单全收应用到业务上的。事实上,Data Mining工具是用来帮助业务分析策画人员从资料中发掘出各种假设(Hypothesis),但是它并不帮你查证(Verify)这些假设,也不帮你判断这些假设对你的价值。 Data Mining综合的技术领域 Data Mining与统计分析的区别 ⑴、统计分析以数学为基础,所采用的分析方法之前先要证明,数据挖掘作为几门学科的综合,已经从机器学习那里继承了实验的态度,更多注重经验。 ⑵、统计分析是确定性的分析,它的核心是建立“模型”,而数据挖掘是很偶然的发现,其本质是实验。 很多统计分析提出的是确定性的分析,确定性分析着眼于如何建立一个好的模型。在很多情形下,模型的选择并不都是显而易见的,选择一个合适的模型是不可能的,最合适的计算方法也是不可行的。而数据挖掘是很偶然的发现非预期但很有价值的信息,这说明数据挖掘过程本质上是实验性的,数据挖掘的主要目的是发现,它不关心统计学领域中的在回答一个特定的问题之前,如何很好的搜集数据,数据挖掘假想数据已经被搜集好,关注的只是如何发现其中的秘密。 ⑶、统计分析主要关注的是分析定量数据,数据挖掘处理的数据是多来源的,分析的要素可能是图象、文本、语言信号、或者完全是科学研究资料。 分析报告给你后见之明(hindsight);
您可能关注的文档
最近下载
- 中储粮油脂有限公司2025年下半年招聘笔试模拟试题及答案解析.docx VIP
- 长庆低渗透油藏描述难点、主要做法及典型案例.pptx VIP
- 安徽省2024_2025学年高二化学上学期第一次月考试题.doc VIP
- 2025北京房山区区直部门和乡镇(街道)全日制临聘人员招聘37人笔试备考试题及答案解析.docx VIP
- 学校建筑结构设计计算书.doc VIP
- 《应用文写作》高职完整全套教学课件.pdf
- 【施工】劳动力计划安排.docx VIP
- 2025北京房山区区直部门和乡镇(街道)全日制临聘人员招聘补充考试备考题库及答案解析.docx VIP
- 2025年河北保定市莲池区招聘社区工作者80人备考练习试题及答案解析.docx VIP
- 2022-2023年药物制剂期末复习-药物制剂设备与车间工艺设计(药物制剂)考试全真模考卷9(附答案.docx VIP
文档评论(0)