数据挖掘报告.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
可编辑范本 可编辑范本 数据挖掘报告 一、数据挖掘综述 随着信息时代的来临, 网络技术的发展和普及, 各个行业都有爆炸性的数据增长, 这些海量的数据中隐藏着我们需要的信息和财富。国际数据公司( IDC )报告称, 2011 年全球被复制和创建的数据总量就已经大得惊人, 在短短几年时间内增长了近 9 倍,而且预计这些数据每两年就将至少增加一倍。 并且,政府机构也对外宣称了要加快数据研究进度这一重大 计划, 各行业也在积极讨论数据挖掘研究带来的吸引力。 面对如此庞大的数据, 以及这些数据背后的价值和新的机遇,挖掘和研究这些数据就会给我们带来挑战和切实的利益。 早在 1989 年 8 月美国底特律召开的第 11 届国际功能会议上就出现了 KDD 这个术语, 1995 年学术界和工业界共同成立了 ACM 数据挖掘与知识发现专委, 后者发展成为数 据挖掘领域的顶级国际会议。 数据挖掘是一门交叉学科, 涉及到各个行业和各个领域, 同时, 随着各行业对大量数据的处理深度和分析上的需求的增加, 数据挖掘研究已经成为了学术界 研究的热门学科,同时也受到各领域的重视。 经过多年的发展, 数据挖掘研究领域成果颇丰, 已经有了一套自己的基础理论。 从大体趋势来说,国内和国外的研究方法和方向有差异, 尤其是在某些方面还是存在着一定的差距。 总的来说,国外的研究更偏重交叉学科和理论基础的研究,而国内则偏重于实际的应用上, 用数据来解决实际的问题。 同时, 国内的学者在研究上也处于世界前沿水平, 在国际舞台上 也有十分突出的成绩,近年来也频频有国内团队登上国际领奖台。 在 20 世纪 90 年代中后期,用关联规则来进行挖掘、分类、预测等被逐渐用于时间序列 数据挖掘和空间数据挖掘, 以发现与时间和空间相关的有价值的模式, 这些手段使得数据挖掘研究领域已经有了一些比较成熟的技术。 如今的定位系统、手持移动设备等设备的普及 和应用积累了大量的移动对象数据, 对这些数据领域的研究使我们受益匪浅。 近年来, 数据挖掘研究已经渗透到生物信息、医疗卫生、智能交通、金融证券、社交网络、多媒体数据挖 掘、轨迹数据、 文本数据等各大领域。 这些领域与数据挖掘研究接轨后又会出现一些新的机遇和挑战。 数据挖掘是从大量数据中抽取隐含的事先未知的具有潜在有用信息或知识的非平凡过 程。一般来说可以把数据挖掘过程分为 6 个阶段,如图所示。 问题的意义 问题的意义 数据收集 数据预处理 构造模型 评估与优化 结果应用 数据挖掘过程 问题的定义:进行用户调查熟悉应用领域的数据背景知识确定研究目标和需求明确所要完成的数据库挖 掘任务的性质。 数据收集:根据数据挖掘任务的要求确定与任务相关的数据集合。 数据预处理:对上一阶段得到的数据进行加工以生成用于数据挖掘的数据集。这一 阶段的工作包括两个内容: 一方面需要将数据组织成一种标准形式, 使其能被数据挖掘工具和其他基于计算机的工具处理; 另一方面需要准备数据集, 使其能得到最佳的数据挖掘效果。涉及到数据标准化、 数据平整、 丢失数据的处理、 时间相关数据的处理以及异常数据的分析 和处理。 构造模型针对任务的所属类别设计或选择有效的数据挖掘算法并进行数据挖掘 从中得到应用感兴趣的 模式。 评估与优化对发现的模式进行解释评估与优化必要时需要返回到前面处理中的某些步骤以反复提取。 结果应用将所发现的知识进行整理并使之应用到实际的系统中。从中可见数据挖掘 过程是一个多阶段的、 反复的、 复杂的处理过程。 过程的各个阶段都需要包括领域专家数据分析员及数据挖掘专业人员等共同参与。 各步骤之间包含了多次循环与反复在某个步骤的检验与应用中如果发现不合适则应对前面的步骤进行修改直到取得较满意的结果。 需要指出的是, 数据挖掘的两个基本目标往往是预测和描述: 预测涉及到使用数据集中 的一些变量用来预测其它我们所关心变量的未知或未来的值; 描述关注的则是找出描述可由 人类解释的数据模式。 由此对应: (1)预测性数据挖掘生成已知数据集所描述的系统模型; (2) 描述性数据挖掘在可用数据集的基础上生成新的非同寻常的信息。 通常情况下我们把数据挖掘方法分为两大方面, 一是人工智能领域中的机器学习型, 这 种类型通过训练和学习大量的样品获得需要的模式或者参数 ;二是统计类型, 有判别分析、相关性分析和概率分析等技术。 可视化技术 可视化技术指采用计算机图形学和图像处理技术, 把抽象的东西转换成图像并且在屏幕上显示出来的一种让人一目了然的方法, 从而进行交互处理的技术。 它将几何数据绘制成目标图像,将图像按照要求进行输出显示在屏幕上。 模糊技术 通过利用原有的数据挖掘技术的同时, 结合模糊理论, 从大数据中发现更为广泛的内容, 并将其挖掘出来以方便用户理解。

文档评论(0)

文档查询,农业合作 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体土默特左旗农特农机经销部
IP属地广西
统一社会信用代码/组织机构代码
92150121MA0R6LAH4P

1亿VIP精品文档

相关文档