- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘在科学数据库中的应用探索
罗晓沛
(中国科学技术大学研究生院,北京100039)
摘要本文讨论科学数据库新的应用技术,介绍数据挖掘技术的基本内容以及
探索其对科学数据库应用的途径。
主题词数据挖掘科学数据库
一、引言
数据挖掘的目的是从大量数据中寻找有用的信息,它起先主要应用于商业活动,例如
市场管理、风险管理和欺诈管理。它能否应用于对科学数据的加工,并从已有的科学数据
库中寻找出新的科学知识或规律,是本文提出的并想探讨的问题。想法是,既然可从大量
的商业活动所积累的数据中挖掘出有用的信息,那么就应该有可能从大量科研活动所积
累的数据中挖掘出我们还未掌握的知识,即新的科学发现。作者预测:数据挖掘技术应该
成为对科学数据加工的一种新的技术,至少应该运用这种技术对大量科学数据的加工做
出尝试,因此科学工作者应了解数据挖掘的技术、方法、过程和步骤,并探索其对科学数据
挖掘的潜在应用或应用领域。
二、数据挖掘技术
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可
实用的信息,并使用这些信息做出决策或丰富知识。
数据挖掘环境可示意如下图1:
图l数据挖掘环境框图
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘,
是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前
未知、有效和可实用3个特征。
先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠
直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就
可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿
·6。
布和啤酒之间有着惊人的联系。
信息的有效要求挖掘前要对被挖掘的数据进行仔细检查,保证它们的有效性,才能保
证挖掘出来的信息的有效性。从某种程度来讲,科学数据的有效性与其他数据相比往往
是能得到保证的。
最为重要的是要求所得的信息是有可实用性,即这些信息或知识对于所讨论的业务
或研究领域是有效的,是有实用价值和可实现的。常识性的结论,或被人们或竞争对手早
已掌握的或无法实现的事实都是没有意义的。
三、数据挖掘过程
图2描述了数据挖掘的基本过程和主要步骤。
图2数据挖掘过程的步骤
在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也
是检验最后结果和指引分析人员完成数据挖掘的依据和顾问。图2各步骤是按一定顺序
完成的,当然整个过程中还会存在步骤间的反馈。数据挖掘的过程并不是自动的,绝大多
数的工作需要人工完成。图3给出了各步骤在整个过程中的工作量之比。可以看到,
60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总
工作量的10%。
数据挖掘过程中各步骤的大体内容如下:
1.确定业务对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后
结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目
性,是不会成功的。 ,
2.数据准备
1)数据的选择
搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应
用的数据。
2)数据的预处理
研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。
3)数据的转换
将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正
适合挖掘算法的分析模型是数据挖掘成功的关键。
·7。
确定业务对象 数据准备 数据处理
您可能关注的文档
最近下载
- 《天上有颗南仁东星》第二课时 课件 八年级语文上册 统编版.pptx VIP
- 新人教版高中物理必修三第十一章《电路及其应用》测试题(含答案解析).docx VIP
- 14、圆明园的毁灭(课件)第二课时2023-2024学年五年级上册语文(统编版) (1).pptx VIP
- 北师大版四年级数学上册第三单元《乘法》(大单元教学设计).docx VIP
- 同上一堂党课初中篇 中流砥柱观后感五.doc VIP
- 最新2016-2017学年秋季学期人美版小学六年级上册美术教案全册.doc VIP
- 《互联网》精品课件.pptx VIP
- 浙江维思通新材料有限公司年产 20000 吨锂电池新型材料项目环评报告.docx VIP
- BIM基础培训教材课件.pptx VIP
- 管理学:激励PPT教学课件.pptx
文档评论(0)