- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1章 绪 论 ;1.1 数据挖掘的概念和定义 ;1.1.1 从商业角度看数据挖掘技术
数据挖掘是一种新的商业信息处理技术。数据挖掘技术把人们对数据的应用从低层次的联机查询操作提高到决策支持、分析预测等更高级的应用上。通过对特定数据进行微观、中观乃至宏观的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括
知识等,这些知识性的信息可以用来指导高级商务活动,如顾客分析、定向营销、工作流管理、 商店分布和欺诈监测等。; 原始数据只是未被开采的矿山,需要挖掘和提炼才能获得对商业目的有用的规律性知识。这正是数据挖掘这个名字的由来。因此,从商业角度看,数据挖掘就是按企业的业务目标,对大量的企业数据进行深层次分析,以揭示隐藏的、未知的规律并将其模型化, 从而支持商业决策活动的技术。从商业应用角度刻画数据挖掘, 可以使人们更全面地了解数据挖掘的真正含义。
; 1) 将KDD看成数据挖掘的例子之一
这一观点在数据挖掘发展的早期比较流行,并且可以在许多文献中看到这种说法。其主要观点是数据库中的知识发现仅是数据挖掘的一个方面,因为数据挖掘系统可以在关系数据库 (Relational Database)、 事务数据库(Transactional Database)、 数据仓库(Data
Warehouses)、 空间数据库(Spatial Database)、 文本数据(Text Data)以及诸如Web等多种数据组织形式中挖掘知识。 从这个意义上来说, 数据挖掘就是从数据库、 数据仓库以及其他数据存储方式中挖掘有用知识的过程。 ; 2) 数据挖掘是KDD不可缺少的一部分
为了统一认识, Fayyd、 PiatetskyShapiro和Smyth在1996年出版的权威论文集《知识发现与数据进展》中给出了KDD和数据挖掘的最新定义: KDD是从数据中辨别有效的、 新颖的、 潜在有用的、 最终可理解的模式的过程; 数据挖掘是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。; 这种观点得到了大多数学者的认同。它将KDD看做是一个广义的范畴,包括数据清理、数据集成、数据选择、数据转换、数据挖掘、模式生成及评估等一系列步骤。这样,我们可以把KDD看做是由一些???本功能构件组成的系统化协同工作系统,而数据挖掘则是这个系统中的一个关键的部分。源数据经过清理和转换等步骤成为适合挖掘的数据集,数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适的知识模式用于进一步的分析决策工作。将数据挖掘作为KDD的一个重要步骤看待,可以使我们更容易聚焦研究重点,有效解决问题。目前,人们对于数据挖掘算法的研究基本属于这样的范畴。 ; 3) KDD与Data Mining的含义相同
有些人认为, KDD与Data Mining只是对同一个概念的不同叫法。事实上,现今的许多文献(如技术综述等)中,这两个术语仍然不加区分地使用着。有人说,KDD在人工智能界更流行,而Data Mining在数据库界使用更多。也有人说,一般在研究领域称之为KDD,在工程领域则称之为数据挖掘。; 实际上,数据挖掘的概念有广义和狭义之分。广义的定义是,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。狭义的定义是,数据挖掘是从特定形式的数据集中提炼知识的过程。
综上所述, 数据挖掘概念可以从不同的技术层面上来理解, 但是其核心仍然是从数据中挖掘知识。所以,有人说叫知识挖掘更合适。本书也在不同的章节使用数据挖掘的广义或狭义概念,读者要注意根据上下文加以区分。 当然,在可能混淆的地方,我们将明确说明。 ;1.2 数据挖掘的历史及发展 ; 一方面, 数据挖掘的概念已经被广泛接受; 另一方面, 数据挖掘的广泛应用还有待时日, 需要深入的理论研究和丰富的工程实践做积累。 经过十几年的研究和实践, 数据挖掘技术已经吸收了许多学科的最新成果而形成独具特色的研究。 毋庸置疑, 数据挖掘的研究和应用具有很大的挑战性。
; 随着KDD在学术界和商业界的影响越来越大, 数据挖掘的研究向着更深入和实用技术两个方向发展。 从事数据挖掘研究的人员主要集中在大学、 研究机构, 也有部分在企业和公司。 所涉及的研究领域很多, 主要集中在学习算法的研究、 数据挖掘的实际应用以及数据挖掘理论等方面。 大多数基础研究项目是由政府资助进行的, 而司的研究则更注重和实际商业问题的结合。 ; 数据挖掘的概念从20世纪80年代被提出后, 其经济价值也逐步显现出来, 而且被众多商业厂家所推崇, 形成初步的市场。 另一方面, 目前的数据挖掘系统研
您可能关注的文档
最近下载
- 电工技能鉴定实操题库(高级工).pdf
- GB/T38058-2024民用多旋翼无人机系统试验方法.pptx VIP
- 公园绿化养护管理制度 .pdf VIP
- 2025甘肃甘南州专业化管理的村党组织书记招聘45人笔试备考试题有答案详解.docx VIP
- 2023-2024学年重庆市凤鸣山中学数学七年级第一学期期末经典试题含解析.doc VIP
- 最新公务员面试试题经典题及答案.docx VIP
- 长恨歌意象研讨分析.pdf VIP
- 2025甘肃张掖市专业化管理村党组织书记招聘32人备考试题及答案解析.docx VIP
- 江西省临川第一中学2024-2025学年高一上学期开学考试数学试题(解析版).docx VIP
- QSR质量手册(超详模板).doc VIP
文档评论(0)