数据挖掘中分类预测工具方法及应用研究.pdfVIP

数据挖掘中分类预测工具方法及应用研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯 第 l8卷第 2期 西 安 财 经 学 院学 报 V01.18 No.2 2005年 4月 JoumalofXi’anInstituteofFinnacenadEconomics Apr.2005 数据挖掘中分类预测工具方法及应用研究 孙 清 (西安财经学院 计算机科学与技术系,陕西 西安 710061) 摘 要:如何在大量的数据中获取有用信息,并且通过对数据进行有效的分析来进一步实现对未来情况的预 测,是当今许多领域迫切需要的技术。本文通过对数据挖掘领域中经典的分类及预测软件 See5/C5的解析, 介绍了它的核心算法、实现机制以及应用特点。通过简单的应用例子展示出了分类及预测的实现过程,在信 息处理的具体应用中可以结合应用的规模和特点选择相应的判定树处理功能,以求获得最佳的预测效果。 关键词 :数据挖掘 ;分类预测 ;See5/C5;判定树 中图分类号 :TP393 文献标识码iA 文章编号 :1672—2817(2005)02—0094—04 一 、 引言 二、See5/C5的分类预测机制研究 随着计算机技术的飞速发展 ,各行各业都积累 See5/C5工具软件是 RulequestResearch公司 了大量的可以用计算机进行处理的数据。在这些丰 开发的一种分类及预测实现工具。它在 Windows 富的数据库或者信息集合 中隐含着很多可用于做出 系列操作系统环境下称 See5,在基于 Unix操作系 智能化商业决策的参考信息。数据挖掘技术对现有 统的环境下称 C5。该工具软件是在 .5[2J算法的 数据的处理提供了更加深层次的应用手段。使我们 基础之上加 以扩展而形成的。象 CA.5算法一样 , 不仅仅停留在对数据简单处理而得到表面层次的信 该软件即可以生成判定树也可以生成规则集。不过 息,更能使我们通过对数据做复杂处理后得到数据 它比AC .5算法生成规则集的速度快 ,并且 占用少 所反映的深层次的信息。分类及预测是数据挖掘领 得多的内存容量。对于带有连续变量的大型数据集 域中对数据分析并预测的两对数据做复杂处理后得 来说See5/C5的优势就更加 明显。下面首先结合 到数据所反映的深层次的信息。分类及预测是数据 AC .5说明其基本原理。 挖掘领域中对数据分析并预测的两种形式 ,可通过 该分类预测方法是从数据库中的现有数据中推 训练样例集提取模型来描述重要的数据类或者用来 测出人们所需的某种关键信息的方法。所谓关键信 预测未来数据 的趋势L1J。 目前分类及预测方法 已 息就是标称属性(也称分类属性)的值。分类是指用 经应用到越来越多的行业。如 ,医学领域 的应 来预测具有离散值的标称属性;预测是指用来预测 用 3,商业管理领域 的应用 【,在金融证券领域 的 具有连续值的表称属性。该方法属前者,具体思路 应用L5J以及在信息通信领域 的应用L6等。本文通 如下: 过对一个国外先进的分类预测工具软件内在机制的 A)首先从数据库中随机抽取若干记录,进行分 研究,揭示它的基本算法和功能特点。另外 ,通过贯 析后给出对应的标称属性值,形成训练数据集。 穿本文的一个简单应用举例,展示了其分类预测方 B)然后通过对训练样例的学习归结 出某种学 法的实施原理及过程。 习模型(可以为规则集、决策树或者数学公式)。 C)用正常的测试样本对产生 的规则集进行测 收稿 日期 :2004—12—15

文档评论(0)

人生新旅程 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档