数据挖掘过程中信息演化现象地研究.pdfVIP

  • 3
  • 0
  • 约6.12千字
  • 约 5页
  • 2017-08-14 发布于安徽
  • 举报

数据挖掘过程中信息演化现象地研究.pdf

数据挖掘过程中信息演化现象的研究 杨文川①黄涛⑦ 国(北京邮电大学电信工程学院北京100876) 气北京大学光华管理学院北京100871) 摘要在对基于统计数据仓库的海量历史数据进行数据挖掘和知识发现过程中,产生出一 大类带有时态特征的演化信息,可以归结定义为演化过程,通过对万峰统计数据仓 库中进行数据挖掘扣知识发现过程中的演化现象的介绍,定义了演化过程的数学模 型,并对统计数据挖掘中演化过程模型的建立提出了相关规则。 关键词数据仓库,数据挖掘,演化过程 1引言 统计系统是国家的重要职能部门,负责为政府宏观决策和分析预测提供数据支持,这些 数据来源多样,有各行业的专业数据,各种详细调查数据,也有各地经济情况的数据。另外, 统计调查制度每年都有改变,数据随时间的推移不断增加,有些甚至带来数据内容的不一致。 同时,统计系统要求分析预测系统和业务数据相对独立。最后,还要从统计数据中挖掘出经 济活动规律,为政府相关领导提供决策支持信息。统计数据的这些性质给综合、分析预测和 使用数据带来了极大的困难。 “万峰统计数据仓库”采用数据仓库技术解决了这些问题。数据仓库按照Inmon的定义, 是面向主题的、集成的、非易失的、随时间积累的,适合用于为管理者决策过程提供支持的 数据集合。 “万峰统计数据仓库”是基于海量统计数据的数据仓库系统,其体系结构如图1所示, 能够在不影响正常业务数据库工作的情况下,从中抽取分离出管理决策需要的信息数据、并 对其中不符合要求的数据进行清洗转换,最后围绕主题,将这些信息装载加入数据仓库,供 联机分析和前端决策支持用户使用。其中根据统计系统特点和要求开发的数据挖掘系统,能 够从海量的统计数据中用非平凡的方法发现有用的知识。 其中的数据挖掘子系统,根据仓库数据和专家知识,提供了对宏观经济的分析,市场发 展趋势预测,多种形式展示,为决策提供支持。在“万峰统计数据仓库”数据挖掘子系统的 研发和应用中,我们详细分析了所挖掘统计数据的特征和共性;采用适合分析统计数据特点 的组织技术;在数据挖掘和知识发现过程中随时调整挖掘方法;发现了特定统计应用中大量 的影响知识发现的因素。获得了一批重要的知识。 数据挖掘是从大量的数据中用非平凡的方法发现有用的知识。数据挖掘本身是一门交叉 学科,不但受到多个学科影响,而且依赖所挖掘的数据类型或给定的数据挖掘应用。 基于以上观念,要想通过数据挖掘获得丰富可信知识的原则是:详细分析所挖掘数据的 1012 特征和共性;采用适合分析数据特点的载体组织技术;在挖掘过程中随时调整挖掘方法:发 现特定应用中影响知识发现的因素。 在“万峰统计数据仓库”研发和应用过程中,我们发现了伴随数据挖掘过程产生的大量 带有时态特征的信息,这些信息对知识发现有重要的应用价值。本文将介绍并定义此类演化 信息的产生,以及演化信息的处理过程模型,并对演化处理过程提出了相关规则。 2相关预备概念 (1)度量单位 粒度(Granularity):在演化过程中,需要定义专门的度量,我们将系统所能分辨的最小单 位称为粒度。 |....…………j |啭艚| |缈| |眵嚣; 时间跨度(TimeSpan):时间跨度是粒度信息的有序集,我们标记为{gl,&。,…,), Powt)和 简记为G=【gl,鲥,其中gl和分别是该集合中最小和最大元素,称为起始g裹(Start 终止点(EndPoint)。 (2)演化空间及值域 空间,R=R1×R2×…X‰称为演

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档