- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Data Mining: Concepts and Techniques 数据挖掘技术的产生与发展 随着信息技术的高速发展,数据库应用的规模、范围和深度不断扩大,网络环境成为主流等。人们已经习惯面队这样一个事实,超量数据充斥着我们的计算机、网络和生活。事实上这些数据中只有一小部分被利用,产生了“数据丰富而知识贫乏(Data Rich Knowledge Poor)”现象。 在强大的需求的驱动下,我们开始思考如何从大容量数据集中获取有用信息和知识的方法,希望能够提供更高层次的数据处理功能。新需求推动新技术的诞生。数据挖掘技术应用而生。 运用基于计算机的方法,从而在数据中获得有用的知识的整个过程,就叫做数据挖掘。 数据、信息和知识 数据挖掘产生的技术背景 数据挖掘是在相关学科充分发展的基础上被提出和发展的。 主要的相关技术: 数据库等信息技术的发展 统计学深入应用 人工智能技术的研究和应用 数据挖掘是一个多学科交叉技术 数据库系统的发展 60年代:简单文件处理系统向数据库系统变革 。 70年代:层次、网络和关系型数据库普及。 80年代:RDBS及其相关工具、数据索引及数据组织技术被广泛采用;中期开始,分布式数据库广泛讨论,关系数据库技术和新型技术的结合。 90年代:数据库领域中的新内容、新应用、新技术层出不穷,形成了庞大的数据库家族;人们期望分析预测、决策支持等高级应用, Data mining 和 data warehousing等出现。 本世纪开始: Data mining 得到理论以及技术深化。 统计学的深入应用 强大有效的数理统计方法和工具,已成为信息咨询业的基础。 统计分析技术是基于严格的数学理论和高超的应用技巧的。 数据挖掘技术是数理统计分析应用的延伸和发展。 和数据库技术的结合性研究。 人工智能技术的研究和应用 人工智能是计算机科学研究中争议最多而又仍始终保持强大生命的研究领域。 专家系统曾经是人工智能研究工作者的骄傲,但是诸多难题限制了专家系统的应用: 知识获取成为专家系统研究中公认的瓶颈问题。 知识表示成为一大难题。 对常识和百科知识出奇地贫乏。 数据挖掘继承了专家系统的高度实用性特点,并且以数据为基本出发点,客观地挖掘知识。 机器学习得到了充分的研究和发展:理论和算法。 数据挖掘研究在继承已有的人工智能相关领域,特别是机器学习的研究成果的基础上,成为新的研究分支。 数据挖掘本质上是一种新的信息处理技术: 数据挖掘技术将对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。 通过对数据的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导高级商务活动。 从决策、分析和预测等目的看,原始数据只是未被开采的矿山,需要挖掘和提炼才能获得有用的规律性知识。 数据挖掘的技术含义 数据库中的知识发现(KDD: Knowledge Discovery in Databases)是比数据挖掘出现更早的一个名词。 KDD与Data Mining的关系,有不同的看法: KDD看成数据挖掘的一个特例:这是早期比较流行的观点,这种描述强调了数据挖掘在源数据形式上的多样性。 数据挖掘是KDD的一个关键步骤:这种观点得到大多数学者认同,有它的合理性。 KDD与Data Mining含义相同:事实上,在现今的许多场合,如技术综述等,这两个术语仍然不加区分地使用着。也有其他的说法: KDD在人工智能界更流行,Data Mining在数据库界使用更多。 研究领域被称作KDD,工程领域则称之为数据挖掘。 数据挖掘定义 数据挖掘定义有广义和狭义之分。 从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。 从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。 数据挖掘研究的理论基础 数据挖掘方法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。 研究者可能是来自于数据库、人工智能、数理统计、计算机科学以及其他方面的学者和工程技术人员,他们会从不同的视点进行探讨性研究。 有下面一些重要的理论视点值得关注: 模式发现(Pattern Discovery)架构 规则发现(Rule Discovery)架构 基于概率和统计理论 微观经济学观点(Microeconomic View) 基于数据压缩(Data Compression)理论 基于归纳数据库(Inductive Database)理论 可视化数据挖掘(Visual Data Mining)等等 结构化数据:主要是关系数据库 半结构化和非结构化
您可能关注的文档
最近下载
- 《仪器分析—分光光度计》学科知识考试题库(附答案).docx VIP
- 年产770吨精细化学品改扩建项目(达得利公司)环境影响报告.pdf
- JCT 899-2016 混凝土路缘石.docx VIP
- JB T 3695-2008 电动葫芦桥式起重机 标准.pdf VIP
- 桥梁桩基施工专项方案(新编制) .pdf VIP
- 马拉松赛事赛事组织管理与赛事赛事经济效益评价报告.docx
- (GBT7588 1—2020)电梯制造与安装安全规范.pdf VIP
- 电子焊接培训课件.ppt
- 纪念中国人民抗日战争暨世界反法西斯战争胜利80周年主题党课PPT(优质ppt).pptx VIP
- 管幕顶进施工方法及装置.pdf VIP
文档评论(0)