数据挖掘研究与应用进展.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘研究与应用进展

数据挖掘研究与应用进展   【摘要】数据挖掘是对数据中暗示的、未知的可能有用的信息进行全面的取出,已经发展成为了一种专业活动,这一技术自十年前提出以来,引起了许多专家学者的广泛关注,并且在实际的研究过程中把数据挖掘用到了各个领域,并且取得了良好的社会效益,以此可以看出数据挖掘技术在现实中有着广泛的应用前景和开发前景。本文就探讨了现在对数据挖掘的研究及其应用进展。   【关键词】数据挖掘 方法 应用进展   中图分类号:A715文献标识码: A   数据挖掘可以通过侧重点不同而用不同的方法定义。最早的定义包括:对数据中暗示的、未知的可能有用的信息进行全面的取出。由于数据挖掘已经发展成为了一种专业活动,所以把它由于早期的统计模型技术和更广层面的知识发现区分开始很必要的。它的基本目标就是从大量的看似无用而用杂乱的数据中提取出隐藏的有用的知识和信息。在数据挖掘中用到统计模型,参数分析和统计,数学在数据挖掘中有着广泛应用。   一、数据挖掘的定义及构成   数据挖掘:用机器学习算法在大量的、有噪声的、混乱的数据集合中寻找数据元素间的模糊的模式关系,可以带来使某些形式更方便的活动。   数据挖掘系统的构成主要有以下方面:(1)数据库、数据仓库和其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。(2)数据库或数据仓库服务器:根据用户的数据挖掘请求.数据库或数据仓库服务器负责提取相关数据。(3)知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。(4)数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。(5)模式评估模块:通常,此成分使用兴趣度度量,并与数据挖掘模块交互。以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阀值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。(6)图形用户界面:本模块在用户和挖掘系统之间通信,允许用户和系统交互,制定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。   数据挖掘涉及多个学科方向,主要包括:数据库、统计学和人工智能等。数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几方面进行分类。按数据库类型分类:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。按数据挖掘对象分类:文本数据挖掘、多媒体数据挖掘、web数据挖掘。按数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差检测、预测等。按数据挖掘方法和技术分类:归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类。   二、数据挖掘的方法   1、决策树。这一方法需要建立分类向导模型,并使模型看起来像树状。把问题分成若干子问题,按规则分配到树的不同结点,然后对树进行分析。决策树常用于分类和预测。   2、神经网络技术。被称为有学习能力的商业智能系统。它具有和人类大脑相似的功能,经过对神经网络系统进行一段时间的训练以后,该系统可以在没有人干预的情况下进行模拟识别,以解决特定领域中的问题。很多公司都将销售信息保存在大型的数据仓库中,然后应用神经网络软件分析并找出最好的销售模式。   3、遗传算法。模拟进行化,适者生存的过程,逐渐产生出优化的问题解决方案。它通过选择,交叉和变异等进化概念,产生出解决问题的新方法和策略。选择是指挑选出好的解决方案,交叉是将各个好的方案中的部分进行组合连接,而变异则是随机的改变解决方案的某些部分,这样当提供了一系列可能的解决方案。   4、智能代理。是将计算机和网络中许多重复的工作独立出来,自动的适应人们的爱好和习惯,按照人们的要求完成工作、融合了许多现代的软件技术。它的典型应用是在Web上为清费商品进行筛选或监测拍卖,在竞价时提醒用户。另外一种有名的采用代理技术的电子商务应用是合作筛选,即将用户采购同其他消费者的购买习惯相比较进行推荐,它被Amazon所采用。   三、数据发掘技术的应用   数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛的使用价值。现在已经应用数据挖掘技术的领域都是信息量大、环境复杂、需要知识帮助进行管理和决策的领域。下面介绍一些目前比较活跃的应用方向:   1、在银行业的应用。银行的存在是不可忽视的,银行的交易数据和数据存储量都是很大的,要包括许多方面,例如客户的信息等等。当下银行管理信用卡问题的方法就是运用了数据挖掘的思想。银行曾经一度因信用卡的欺诈行为,或者持卡人的不诚信,造成了银行每年较大的损失。但是,随着数据挖掘

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档