网站大量收购独家精品文档,联系QQ:2885784924

一种大型数据库、数据仓库在线分析、挖掘系统结构的研讨.pdf

一种大型数据库、数据仓库在线分析、挖掘系统结构的研讨.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十七届全国数据库学术会议论文集(技术报告篇) 一种大型数据库、数据仓库在线分析、挖掘 一 .一 一一 一 系统结构的研究 许智宏 鼓玉清 顾军华 (河北工业大学计算机系 天津 300130 Ixlx@afteetnail.online.tj.rn) AbsrtactThispaper~ 吻 discussesreducingthedatasettobeoperated,theorganvationof multidimensionaldatasource,constraint一basedinteractiveinterface,andothertechnologiesabout mining,.。,largedatabasesanddatawarehouses.Usingtheseideas,inintroducesanonlineanalytical mining(OLAM)architecturewhichisveryrealisticnowadays. KeywordsVeryI-AedatabaseDatewarehouseDatanunim OLAP OL1M 1 前 言 近二十年来来,商业领城和科技领城的数据库和数据库应用程序都在以惊人的速度增加着,通过从这 些存储的原始数据中提取蕴涵干其中的许多商业信息的实践,引发了我们今天称之为数据挖捆或知识发 现(KDD)的新的研究领域。知识发现被定义为从数据中抽取隐含的、原来不知道的、潜在的有用信息、涉 及人工智能、数据库技术、统计学、数学、分类抽象等许多研究领域。这种抽取出来的知识可用来帮助人们 作出决策.例如:预侧、任务分类、总结数据库内容,或解释某些已有现象。 但是.要想得到好的挖掘结果,还有很多方面急待研究。如商业数据往往大得主内存容纳不下,而从 硬盘中取数据比从RAM中取数据要慢得多,缩减数据集的研究就变得十分重要。同时,现有进行挖掘的 原始数据一般存在于多种数据库、数据仓库中,对这样来源复杂的数据的快速有效的提取方法也很重要 另外,现有SAS,SAP,SPSS等数据挖拥类的应用软件都是面向专业人员使用的,提供一种能面向一般用户 的交互界面是数据挖掘技术得以推广使用的一个前提 2 缩减操作数据集的研究 以晌物篮分析为例,经过长时间的泉积,这个记录商业交易的数据库会变得十分庞大。对这种交易数 据的一个很常见的分析是查找在交易中多次一同出现的项目集,商家可据此来改进商品的放置位t或在 购物指南和网页上的布局。我们把含有1个项目的项目集叫做i项目集,交易中某项目出现的次数称为该 项目集的支持度。支持度高于用户指定值的项目表,我们称为是高频出现的 上表给出了关系型数据库中三次交易的记录,只有4个购买项,而它们可组成的项目集有矛一1=15 可以想象,当购买项很多时,项目集数将成指数倍地增大,而且交易的数量还很可能大得内存装不下。但 如果我们规定最低支持这60%,则只有5个项目集符合要求。这样,我们就可以通过尽量减少对低频交易 项目集的考察而降低计算量。 演义算法用多次循环计算项目集出现频率,第,次循环计算所有i项目集的出现频率。每层循环分两 步进行:候选项目集产生和候选项目集计算。考虑第I次循环,候选项目集产生阶段,算法产生一组未计算 支持度的候选1项目集。在候选项目集计算阶段,算法扫描数据库,计算各候选项目集的支持度,只刹下高 19 第十七届全国数据库学术会议论文集(技术报告篇) 颇1项目集。通过第一次循环,得到了所有高频单项目集。第二次循环时,根据以上次循环的非高预项目 集为子集的项目集必为非高频项目集的思想缩减本次的2项目集,之后再进行项目集支持度的计算。 交易标识 顾客标识 购买项 价格 交易日期 101 201 Ccm

您可能关注的文档

文档评论(0)

带头大哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档