- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘-从海量数据中发现规则和规律.pdf
数据挖掘数据挖掘-从海量数据中发现规则和规律-从海量数据中发现规则和规律
数据挖掘数据挖掘--从海量数据中发现规则和规律从海量数据中发现规则和规律
徐良为徐良为 (日本数理系统株式会社)
徐良为徐良为
基于数据挖掘进行工业上的品质管理和节省能源控制
关键字:不确定性,知识发现,机器学习,品质改善,节省能源控制
1 前言前言
前言前言
数据挖掘借助于计算机的存贮能力与计算能力,从海量的、复杂的数据中发现有
价值的知识、规律性和要素之间的对应联系等等。近年来,随着数据挖掘技术迅速的
发展,在各种各样的行业中得到有效地运用和实践。在这样的背景下,充满着复杂
性、多样性和不确定性的社会中如何去理解和合理地判断、从已有的记录数据出发如
何将其复杂的关联性要素进行清晰化模型化、如何将类似的东西合理地分类、计算不
确定的事情的发生概率大小等等各类重要性有必要进行重新认识。
对于本文,作者从数据挖掘系统开发者的观点出发,结合以往的制造业质量管理
和节省能源控制等项目的实施经验进行数据挖掘的基础技术介绍。第二节是对数据挖
掘过程的基本介绍,第三节是制造业的质量改进,第四节是关于产品的生产控制以及
节省能源应用的例子。最后一节叙述了数据挖掘将来的展望。
2 数据挖掘过程的基础数据挖掘过程的基础
数据挖掘过程的基础数据挖掘过程的基础
我们经常会听到诸如 “明日的最高气温是多少度”的问题,由于影响实际气温的
因素有许许多多,包括一些人类无法预知的因素,所以要非常精确地说 “明日的最高
气温是 25.4 度”是很困难的。但是如果根据最高与最低气温的记录得到 “明日的最高
气温是 (-41,40.9)”谁都不会有异议。但是这个范围太广了,如果说是北京,则根
据当地气象状况得到 (-9.2,39.5)的范围。更进一步,能够加入季节、周边地区的气象
状况等条件的话,这个温度的判断范围还会缩小。但是这个范围始终是概率上的推
定,还是有较小的可能性最终实际温度会偏离这个范围。为了缩小范围,需要从海量
且复杂的气象数据中将最高气温的关联原因找出来。在这里,我们说:“推断明日的
最高气温”这个话题其实是数据挖掘过程的一种基本形式。
图 1 数据挖掘作业图
数据挖掘过程中的几个主要步骤:
(1)挖掘目标需明确化
首先要清楚做什么。例如,想知道影响半导体硅晶片震动停滞的原因、生产线故
障诊断、生产计划的用料量预测、制造控制中的最优化制动等等。
(2)数据收集
从各种数据存储容器 (数据库等)里选择、收集可供数据挖掘使用的数据。为了
进行有效的数据挖掘,尽量选择精度高的数据 (例如气温相关的记录)是十分重要
的。这个阶段收集得到的数据的质量好坏直接影响到最终数据挖掘的成功与否。有关
的分析统计结果表明数据挖掘整个过程中有九成时间是花在数据准备上的。
(3)数据加工
为了将取得的数据进行分析,需要进行数据的整理加工,这样才能使之符合分析
的格式。具体来说数据加工有缺值的补充或者错误值的修正,单位格式的统一和规格
化处理等。
(4)挖掘
这一步骤是数据挖掘的核心部分。主要是选择数据挖掘的方法,其次是从数据出发
将有用的数据抽取出来形成一个模型进行假设验证。
(5)结果显示
使用可以让决策者容易理解的形式去将得到的挖掘结果表现出来。
通常,数据挖掘的对象-数据 (收集、加工完)是以下表的形式表现的:
表 1 制造工程记录数据
上表是检测某个精密仪
文档评论(0)