- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘浅谈
摘要:该文分析了数据挖掘产生的背景,阐述了数据挖掘和数据仓库的区别于联系,并从从业方向进行了分析。
关键词:数据挖掘;数据仓库
中图分类号:TP315文献标识码:A文章编号:1009-3044(2009)25-7084-02
The Data Mining Discusses Shallowly
WANG Ya-fen1,2
(1.Wuhan University of Science and Technology, Wuhan 430070, China; 2.JingChu Technical Institute Computer Engineering College, Jingmen 448200, China)
Abstracts: This article mainly discusses the background of The Data Mining,and describes the diffrences and relations ofData Mining and Data Warehousing, and from was employed the direction to carry on the analysis.
Key words: data mining; data warehousing
1 数据挖掘产生的背景
数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。如借助POS(销售点)数据收集技术[条码扫描器、射频识别(RFID)和智能卡技术],零售商可以在其商店的收银台收集顾客购物的最新数据。零售商想利用这些信息,“挖掘”出一些重要的商务问题的答案,如“谁是最有价值的顾客?”“什么产品可以交叉销售或提升销售?”又如,分子生物学研究者希望利用当前收集的大量基因组数据,更好地理解基因的结构和功能。过去,传统方法只允许科学家在一个实验中每次研究少量基因。微阵列技术的最新突破已经能让科学家在多种情况下,比较数以千计的基因的特性。这种比较有助于确定每个基因的作用,或许可以查出导致特定疾病的基因。然而,由于数据的噪声和高维性,需要新的数据分析方法。除分析基因序列数据外,还需要分析其他问题,如蛋白质结构预测、多序列校准、生物化学路径建模和种系发生学。这些需求都为数据挖掘研究提出了挑战。
2 什么是数据挖掘
通过上面的例子,我们可以将数据挖掘,用图1来简单解释。
输入数据可以以各种形式存储(平展文件、电子数据表或关系表),并且可以驻留在集中的数据存储库中,或分布在多个站点上。数据预处理(preprocessing)的目的是将未加工的输入数据转换成适合分析的形式。数据预处理涉及的步骤包括融合来自多个数据源的数据,清洗数据以消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式可能有许多种,数据预处理可能是整个知识发现过程中最费力、最耗时的步骤。
通过这些分析,我们可以得出数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或发现知识。
这时,你可能会想到使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面等,然而,这些都不能称之为数据挖掘,而是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。它们的主要区别在于数据挖掘是在非有序数据中找出意外的关系或者知识,而数据库查询和搜索引擎查找是有目的地在有序数据中查找信息。
同时,也千万不要将若将Data Warehousing(数据仓库)和数据挖掘(Data Mining)相混淆。数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指事务处理系统OLTP(On-Line Transactional Processing)所得来的数据。将这些整合过的数据置放于数据仓库中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓库最大的挑战。因为将作业中的数据转换成有用的策略性信息是整个数据仓库的重点。综上所述,数据仓库应该具有这些数据: 整合性数据(integrated data)、详细和汇总性的数据(detailed an
文档评论(0)