- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十五届全国段据库学术论文集
KDD中数据预处理的研究
姚卿达 张俊欣
(中tli大学软件研究所 广州510275)
摘 耍 教-0E序0PA.L0.发A6(KnowledgeDismvezyinDatabases,KDD)是一个很有应A价At岭课
超.它歇合了统计、数摄库、机器学习等多个硕城的理论和技术.本文介绍了KDD的产生份杀、过
程和有关技术,并结合一个通用KDDi共详妇计论了多种KDD数据仪处理技术.
笑健词 KDD过程.数据采拓,级据M处理
随着机器自学习技术逐渐成熟与实用化,由计 经网和遗传算法,这些技术可以混合使用,
算机自动从数据中提取或学习知识已成为可能.知 5.发掘模式的解释与评价.以用户能理解的方
识发现就和机器自学习以及数据库技术结合起来, 式将模式表示出来,去除无用的或冗余的模式,将有
产生了KDI〕这个新的研究方向。 用的模式以某种方式储存或返回给用户.
6.有用模式的应用,这是行动阶段,将前面发拥
1 KDD过程
的有用模式或知识指导业务行为,如调整商品宜传
定义 的对象,调整投资等.
KDD过程是一个发掘数据中有效的.新颖的 KDD过怪是一个交互的、迭代的过怪.在整个
.
勺 潜在有用的和最终可理解的摸式的复杂过程, KDD的过程中都应允许也铭要人工干涉,但应该使
几
J
奋 1.2 步, 这种干涉最小化.以提商自动化程度,从而提高效
,
KDD步吸如下图所示 率.并且,在这个过程中会出现步裸的反友,例如在
甘
J
数据价处理步魏中,分析数据可能会借助查询、统
O
活择目标 孩. 吸拍 摘式娜肠
处招典 扭处理 采翔 与钾价 计、可视化工具,进行一次小规棋的、快越的欲据采
掘.以取褥数据特性,决定之后如何处理数据,决定
闷.峨 已iR1用 数据采扭步孩中使角的工具.整个KDD过程就是
一个不断产生假设,验证假设,再产生假设的迭代过
程,直到取得漪惫的结果.
1.3 KD。与Data.国呼的区别
具体说来,KDD过程可以分为以下几大步骤: KDD强调的是知识发现的整个过程,而Data
1.研究问题域,包括应预先了解的有关知识和 mining则是KDD过程中对数据X正应用Data
确定数据采掘任务.主要的数据采翻任务有 【I〕分 mining算法抽耽知识的那一步.实际上Datamining
类、回归、聚类、概括、关联分析和时序分析等. 的工作if只占KDD过程的很小一部分,为了选择
文档评论(0)