数据挖掘过程中信息演化现象的研究论文.pdfVIP

数据挖掘过程中信息演化现象的研究论文.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘过程中信息演化现象的研究 杨文川①黄涛⑦ 国(北京邮电大学电信工程学院北京100876) 气北京大学光华管理学院北京100871) 摘要在对基于统计数据仓库的海量历史数据进行数据挖掘和知识发现过程中,产生出一 大类带有时态特征的演化信息,可以归结定义为演化过程,通过对万峰统计数据仓 库中进行数据挖掘扣知识发现过程中的演化现象的介绍,定义了演化过程的数学模 型,并对统计数据挖掘中演化过程模型的建立提出了相关规则。 关键词数据仓库,数据挖掘,演化过程 1引言 统计系统是国家的重要职能部门,负责为政府宏观决策和分析预测提供数据支持,这些 数据来源多样,有各行业的专业数据,各种详细调查数据,也有各地经济情况的数据。另外, 统计调查制度每年都有改变,数据随时间的推移不断增加,有些甚至带来数据内容的不一致。 同时,统计系统要求分析预测系统和业务数据相对独立。最后,还要从统计数据中挖掘出经 济活动规律,为政府相关领导提供决策支持信息。统计数据的这些性质给综合、分析预测和 使用数据带来了极大的困难。 “万峰统计数据仓库”采用数据仓库技术解决了这些问题。数据仓库按照Inmon的定义, 是面向主题的、集成的、非易失的、随时间积累的,适合用于为管理者决策过程提供支持的 数据集合。 “万峰统计数据仓库”是基于海量统计数据的数据仓库系统,其体系结构如图1所示, 能够在不影响正常业务数据库工作的情况下,从中抽取分离出管理决策需要的信息数据、并 对其中不符合要求的数据进行清洗转换,最后围绕主题,将这些信息装载加入数据仓库,供 联机分析和前端决策支持用户使用。其中根据统计系统特点和要求开发的数据挖掘系统,能 够从海量的统计数据中用非平凡的方法发现有用的知识。 其中的数据挖掘子系统,根据仓库数据和专家知识,提供了对宏观经济的分析,市场发 展趋势预测,多种形式展示,为决策提供支持。在“万峰统计数据仓库”数据挖掘子系统的 研发和应用中,我们详细分析了所挖掘统计数据的特征和共性;采用适合分析统计数据特点 的组织技术;在数据挖掘和知识发现过程中随时调整挖掘方法;发现了特定统计应用中大量 的影响知识发现的因素。获得了一批重要的知识。 数据挖掘是从大量的数据中用非平凡的方法发现有用的知识。数据挖掘本身是一门交叉 学科,不但受到多个学科影响,而且依赖所挖掘的数据类型或给定的数据挖掘应用。 基于以上观念,要想通过数据挖掘获得丰富可信知识的原则是:详细分析所挖掘数据的 1012 特征和共性;采用适合分析数据特点的载体组织技术;在挖掘过程中随时调整挖掘方法:发 现特定应用中影响知识发现的因素。 在“万峰统计数据仓库”研发和应用过程中,我们发现了伴随数据挖掘过程产生的大量 带有时态特征的信息,这些信息对知识发现有重要的应用价值。本文将介绍并定义此类演化 信息的产生,以及演化信息的处理过程模型,并对演化处理过程提出了相关规则。 2相关预备概念 (1)度量单位 粒度(Granularity):在演化过程中,需要定义专门的度量,我们将系统所能分辨的最小单 位称为粒度。 |....…………j |啭艚| |缈| |眵嚣; 时间跨度(TimeSpan):时间跨度是粒度信息的有序集,我们标记为{gl,&。,…,), Powt)和 简记为G=【gl,鲥,其中gl和分别是该集合中最小和最大元素,称为起始g裹(Start 终止点(EndPoint)。 (2)演化空间及值域 空间,R=R1×R2×…X‰称为演

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档