- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章:数据挖掘基本理论
数据挖掘的产生:
随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,
人们面临着快速扩张的数据海洋, 如何有效利用这一丰富数据海洋的宝藏为人
类服务业已成为广大信息技术工作者的所重点关注的焦点之一。 与日趋成熟的数
据管理技术与软件工具相比, 人们所依赖的数据分析工具功能, 却无法有效地为
决策者提供其决策支持所需要的相关知识, 从而形成了一种独特的现象 “丰富的
数据,贫乏的知识” 。
为有效解决这一问题,自二十世纪 90 年代开始,数据挖掘技术逐步发展起
来,数据挖掘技术的迅速发展, 得益于目前全世界所拥有的巨大数据资源以及对
将这些数据资源转换为信息和知识资源的巨大需求, 对信息和知识的需求来自各
行各业,从商业管理、生产控制、市场分析到工程设计、科学探索等。数据挖掘
可以视为是数据管理与分析技术的自然进化产物。 自六十年代开始, 数据库及信
息技术就逐步从基本的文件处理系统发展为更复杂功能更强大的数据库系统; 七
十年代的数据库系统的研究与发展, 最终导致了关系数据库系统、 数据建模工具、
索引与数据组织技术的迅速发展, 这时用户获得了更方便灵活的数据存取语言和
界面;此外在线事务处理手段的出现也极大地推动了关系数据库技术的应用普及,
尤其是在大数据量存储、检索和管理的实际应用领域。
自八十年代中期开始, 关系数据库技术被普遍采用, 新一轮研究与开发新型
与强大的数据库系统悄然兴起,并提出了许多先进的数据模型:扩展关系模型、
面向对象模型、演绎模型等;以及应用数据库系统 :空间数据库、时序数据库、
多媒体数据库等; 日前异构数据库系统和基于互联网的全球信息系统也已开始出
现并在信息工业中开始扮演重要角色。
被收集并存储在众多数据库中且正在快速增长的庞大数据, 已远远超过人类
的处理和分析理解能力 (在不借助功能强大的工具情况下) , 这样存储在数
据库中的数据就成为“数据坟墓” ,即这些数据极少被访问,结果许多重要的
决策不是基于这些基础数据而是依赖决策者的直觉而制定的, 其中的原因很简单,
这些决策的制定者没有合适的工具帮助其从数据中抽取出所需的信息知识。 而数
据挖掘工具可以帮助从大量数据中发现所存在的特定模式规律, 从而可以为商业
活动、科学探索和医学研究等诸多领域提供所必需的信息知识。 数据与信息知识
之间的巨大差距迫切需要系统地开发数据挖掘工具,来帮助实现将“数据坟墓”
中的数据转化为知识财富。
数据挖掘的概念:
数据挖掘,在人工智能领域, 习惯上又称为数据库中知识发现 (Knowledge
Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的
一个基本步骤。 知识发现过程以下三个阶段组成: (1)数据准备, (2 )数据挖掘,
(3)结果表达和解释。数据挖掘可以与用户或知识库交互。
并非所有的信息发现任务都被视为数据挖掘。 例如,使用数据库管理系统查
找个别的记录,或通过因特网的搜索引擎查找特定的 Web 页面,则是信
文档评论(0)