一种大型数据库、数据仓库在线分析、挖掘系统结构地研究.pdfVIP

一种大型数据库、数据仓库在线分析、挖掘系统结构地研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十七届全国数据库学术会议论文集(技术报告篇) 一种大型数据库、数据仓库在线分析、挖掘 —,———————————、—一、———————●。——一^--’———。——+、一 系统结构的研究 一。-_—。1—+—’’‘。~ 许智宏鼓玉清顾军华 (河北工业大学计算机系天津3帅130lxlx@h幽nam∞bne曲.∞) to 0f A岫灯Bd theda妇setbe Tt以pap盯fr.aif曲disc状鼯reducingoperated,the明舯i蠲tiorl m11Itidim幽I intemc石ve ot}.er da协souI℃e,oc㈣呵眦一basedinterface,a11dtech∞l。gi曙丑bout data da切bas曙and t}瞄e id曲s,in协tr。duc舒an枷ine划y【ical miningve。ylarge wareh丑酗.U画rlg ⅡIinir.g(oLAM)arcIliteclurewhich沁唧r啦l诂dc∞waday8. o】.AM databa靶Dhte咄ln鼬肪ta OLAP Iarge mirIi_19 K町wor出V哪r 1 前 言 近二十年来来,商业领域和科技领域的数据库和数据库应用程序都在以惊人的速度增加着,通过从这 些存储的原始数据中提取蕴涵于其中的许多商业信息的实践,引发了拄们今天称之为数据挖掘或知识发 现(Ⅺ]D)的新的研究领域。知识发现被定义为从数据中抽取隐吉的、原来不知道的、潜在的有用信息、涉 及人工智能、数据库技术、统计学、数学、分类抽象等许多研究领域。这种抽取出来的知识可用来帮助人们 作出决策.例如:预测、任务分类、总结数据库内容,或解释某些已有现象。 但是.要想得到好的挖掘结果,还有很多方面急待研究。如商业数据往往大得主内存容纳不下,而从 硬盘中取数据比从RAM中取数据要慢得多,缩减数据集的研究就变得十分重要。同时,现有进行挖掘的 原始敷据一般存在于多种数据库、数据仓库中,对这样来源复杂的数据的快速有效的提取方法也很重要。 另外,现有sAs、sAP、sPsS等数据挖掘类的应用软件都是面向专业人员使用的,提供一种能面向一般用户 的交互界面是数据挖掘技术得以推广使用的一个前提。 2缩减操作数据集的研究 以购物篮分析为倒.经过长时间的累积.这个记录商业交易的数据库会变得十分庞大。对这种交易数 据的一个很常见的分析是查找在交易中多次一同出现的项目集,商家可据此来改进商品的放置位置或在 购物指南和网页上的布局。我们把含有i个项目的项目集叫做i项目集,交易中某项目出现的次数称为该 项目集的支持度。支持度高于用户指定值的项目表,我们称为是高额出现的。 上表给出了关系型数据库中三次交易的记录,只有4个购买项,而它们可组成的项目集有24一l=15。 可以想象,当购买项很多时.项目集数将成指数倍地增大,而且交易的数量还很可能大得内存装不下。但 如果我们规定最低支持这60%,则只有5个项目集符台要求。这样,我们就可以通过尽量减少对低频交易 项目集的考察而降低计算量。 演义算法用多次循环计算项目集出现频率,第-次循环计算所有i项目集的出现顿率。每层循环分两 步进行:候选项目集产生和候选项目集计算。考虑第i次循环,候选项目集产生阶段,算法产生一组未计算 支

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档