数据仓库与数据掘若干理论研究及在cips中的应用.pdf

下载文档 降价啦

3
0
约18.4万字
约 153页
2016-11-03 发布于贵州
举报
版权申诉
保障服务

数据仓库与数据掘若干理论研究及在cips中的应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据仓库与数据掘若干理论研究及在cips中的应用

摘要摘要随着信息技术的不断推广应用，大量的先进制造企业采用了计算机及相应的信息技术进行管理和运营，收集、存贮了海量的生产经营记录，但同时，大量的信息也带来了真假信息难以识别，很难提取出企业真正需要的知识的问题，企业普遍面临数据爆炸却有效的信息和知识相对短缺的状态，因此，如何对数据进行有针对性的开采，发掘出有价值的信息和知识，形成企业的know—how，指导企业的技术决策和经营决策，对于企业的发展，将发挥出举足轻重的作用。数据仓库和数据挖掘就是解决上述问题的关键技术之一。本文以某流程企业为背景，对数据仓库和数据挖掘若干理论进行研究并针对企业的实际情况顺利地实施，为企业生产经营活动的协调与整体优化和设备的正常运行、故障预警提供了丰富的决策依据，主要内容如下。无论实施数据仓库还是数据挖掘，都要首先进行数据预处理。针对流程企业数据源中存在的质量问题，提出了数据清洗的ETL的具体框架，采用不同算法和技术对数据进行了有效的清洗、转换和装载，为数据仓库提供了可靠的数据来源，在此基础上，分别采用DWER模型分析了具有复杂维结构和聚集的生题的副产品库存和销售的数据仓库。最终建立起来以生产费用、油气生产、干气和副产品库存和销售为主题的数据仓库。根据流程企业中参数点的重要性不同和用连续数据表示的特点，分别研究加权关联规则理论和模糊关联规则理论及在流程企业中的应用，针对数据的不同特点，采用不同的模糊隶属函数处理了连续数据；然后把加权和模糊结合起来，提出了两种新的方法实现了模糊加权关联规则：把项集的模糊数综合为权值的方法和Fuzzy iroirpAdeW．。用应效有中业企程流在并，法算鉴于实时数据库中数据点有时间戳的优势，在现有的研究基础上，从两个角度发展了时间序列模式发现，首先采用两种算法：TimeSeq Apriori算法和 TimeSeq PrefixSpan算法分析了具有时间间隔的时间序列分析；然后提出了时间序列拓扑的思想，并根据时序数据库构造了FTP．图，采用FrP．图连接、候选TP． Graph 算法有效地挖掘出频繁模式图的时间序列，为企业设备运行时决策过程提供了摘要理论依据。采用加权聚类方法对关键设备的大量历史数据进行分析，建立了设备正常情况的聚类模型，提出了紧密(离核)指数、离群指数和综合指数的计算方法，实现了对设备有效的实时监控。蚁群算法是一种比较先进的模拟进化算法，采用蚁群算法改进了聚类分析。并根据蚁群算法中的P。O)综合考虑了簇团内数据点个数和到簇团内中心点距离的特点，创造性提出一种新的离群数据挖掘的方法，得到较好的效果。关键词：数据仓库，数据挖掘，ETL框架，概念模型，模糊加权关联规则，时间序列分析，时间序列拓扑，加权聚类分析，蚁群算法，离群数据挖掘，CIPS II Abstract ABSTRACT Withthe of anddata rapiddevelopmentcomputertechnologies，networkstorage are amountsofdata stored．The demandfor technique，large rapidgrowth managing mountainsof and useful from growing dat