浅谈数据挖掘 毕业论文.docx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机与信息学院 本科毕业论文(设计)文献综述 浅谈数据挖掘 0前言 随着网络的迅猛发展,依托于网络的网络购物做为一种新型的消费方式脱颖而出,在全国乃至全球范围内都在迅猛的发展。网络购物行业也越来越得到更多人的关注,与此同时,各种研究方法、数据分析方法也被运用到了关于网络购物的研究当中。数据挖掘技术作为一种新的数据分析方法逐步应用到网络购物的分析中,获取数据、抽取规律、预测趋势、建立模式,这对促进网络购物行业的健康、有序发展是十分有益的。本研究使用数据挖掘的方法,借助SAS工具,以阿里巴巴大数据竞赛的真实数据为基础,对天猫用户购物行为进行了研究分析。 1什么是数据挖掘 数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 在较浅的层次上,它利用现有数据库管理系统的查询、检索及数据挖掘功能,与多维分析、统计分析方法相结合,进行联机运算分析处理,从而得出可供决策参考的统计分析数据的一个有商业意义的结果,这个结果可以出售给需要的卖家,这就是所谓的大数据分析。 在深层次上,则从数据库中发现前所未有的、隐含的知识。例如:在大街上川流不息的车流量,在普通人眼里,当你通过一个十字路口时,可能会看到除了塞车就是车祸,亦或者没有事的安全通行,没有其他的信息可能会有,如果是一个数据挖掘人员就会发现其中的数据信息,一小时会有横向会有多少车流量,竖向会有多少车流量,这样可以得到一组数据,通过数据挖掘分析后得到更有的结果,十字路口的红绿灯就可以根据车流量设置时间长短。而从另一个角度,如果在十字路口进行路线测绘的话,就可以得到类似地图的数据,手机中的导航软件就是通过这样实现的,所以我们生活中数据挖掘无处不在,只是在我们不认识数据挖掘时,不会去发现。 2数据挖掘的任务 数据挖掘的两个高层目标是建立模型和预测。前者指用一些变量或数据库的若干已知字段通过相应的数据挖掘分析软件,以及某些情况下需要实地考察,再结合团队间的分析,结合数据挖掘的相应模块导出一个比较合理性、可行性、具有预测性的模型,而后者是建立在前面的分析好后,通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预测。从这种意义上说,预测的目的就是对未来未知变量的预测,这种预测需要时间来验证,所以他需要更加具体化的分析出一些较为能大众接受的信息,分析出相应的规律,总结出相关的报告,来确认验证这一预测。 3数据挖掘的特点 数据挖掘技术具有以下特点: (1)数据挖掘基本分为3步骤:数据准备、规律寻找和规律表示。 (2)数据的主要分析方法有:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 (3)需要处理的数据规模十分庞大,达到GB、TB数量级,甚至更大,所以数据挖掘常被较为“大数据挖掘”。 (4)在许多些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。 (5)数据挖掘往往需要把一些无规律,大数量级的,含有偏离点的(因特殊因素而导致的不正常的数值),在有效的时间内转换成有规律,无瑕疵的,主要预测动向的模型。 (6)在某种角度上,数据挖掘也是可以与用户知识库交互,从用户的数据中寻找规律,并且规律是可视化的。 4 数据挖掘的过程 数据挖掘的步骤会随不同领域的应用可能有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,所以首先需要明确业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构同样是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会得到理想的结果的。 (1)数据的准备与选择。搜索所有与研究对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(例:在中国统计局官网上就可以搜索到往年的与国家经济有关的数据资料)官方的数据也较为真实可靠,具有挖掘价值。 (2)数据的预处理。主要是分析并提高数据的质量,排除一些因某些特殊因素而引起的特殊值,会影响整个数据组的最后预测效果。 (3)模型的建立。通过数据挖掘软件(例如:SAS)将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。(4)数据的预测。建立模型之后,在模型上会有一些本来用于分析的数据,也会有未来的一些经过分析后预测的数据,通过这些数据,我们就可以知道

您可能关注的文档

文档评论(0)

绿风 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档