- 1
- 0
- 约2.74千字
- 约 6页
- 2018-07-04 发布于福建
- 举报
多数据库中外模式挖掘方法研究
多数据库中例外模式挖掘方法研究 摘要:首先比较了现有的两种挖掘方法,提出了一种改进技术。综合考虑例外的局部和全局兴趣度,剔除非真正有趣的局部例外;增加两种客观度量并按模式重要度排序。实验表明该方法不仅可以有效挖掘多数据库中例外模式,而且还大大减少了用户负担。 中国论文网 /4/viewhtm 关键词:多数据库挖掘;例外模式;低选票例外;兴趣度度量 中图分类号:TP391文献标志码:A 文章编号:1001-3695(2008)02-0382-04 0引言 多数据库挖掘就是对多个数据库中的数据进行分析,从中找出多个数据库共有的或个别数据库特有的新颖有趣的模式。随着分布式数据库技术及计算机网络技术的不断发展和应用,多数据库挖掘技术研究已经成为近年来数据挖掘和知识发现领域研究的热点[1~6]。相对于传统的从选择数据到综合数据最后集中挖掘的多数据库挖掘技术[7~11],新的多数据库挖掘方法保持了数据的分布式存储方式,采用先挖掘单个数据库得到局部模式,再综合局部模式进行全局分析的两级挖掘过程[1],不仅避免了集成数据造成的海量数据挖掘,同时还保持了局部数据库的独立性和完整性,对局部私有数据的安全性也起到了保护作用,因此成为近年来多数据库挖掘的重点研究课题。在文献[1]中,将多数据库挖掘的模式分为局部模式(local pattern)#65380;高选票模式(high-vote pattern)#65380;例外模式#65380;推荐模式(suggested pattern)四类。本文研究的是例外模式。所谓多数据库例外模式,就是那些仅被少数几个子公司或个别子公司高度支持的模式[1]。通过参考这些例外的模式,总公司可以因地制宜地为少数几个公司制定适合它们特点的策略。这对于日益激烈的商业竞争来说,是必不可少的举措。因此多数据库例外模式也成为一项有重要意义和应用价值的研究工作。到目前为止,文献[4,5]分别提出了多数据库中例外模式挖掘的方法,它们为多数据库模式挖掘提供技术支持。现有的技术方法中存在如下两个问题:存在冗余的例外模式,降低了模式挖掘的质量;对于挖掘出来的模式,用户无法辨别它们的例外程度,造成用户负担过重。本文为此提出了一种改进的例外模式挖掘方法。 1现有的挖掘技术 多数据库例外模式是多数据库模式挖掘中的一种,它首次在文献[1]中提出并定义。这类模式在个别数据库里具有较高的支持度而在其他数据库中具有较低支持度或零支持度(即不被其他数据库支持)。从该定义中可以知道,局部模式中那些被越少的数据库支持而在局部数据库中支持度越高的就有可能成为例外模式。由于本文中的例外模式是从全局的角度考虑(如总公司决策层),因此也称为全局例外模式。如不特别说明,本文中的模式指的是频繁项集。 文献[4]介绍了一种多数据库例外模式的挖掘方法和过程。该方法采用了两极挖掘过程:首先对各个局部数据库进行挖掘,得到局部模式; 然后将每个子数据库中局部模式综合之后再进行分析,从而得到例外模式。 局部模式综合之后,先统计每个模式的选票数num(P)(即支持该模式的数据库个数)与所有模式的平均选票率。将每个模式的选票数与平均选票率进行比较,若小于平均选票率,则为候选例外模式并保存。通过计算所有候选例外模式的全局支持度,将所有候选例外模式按照全局支持度的大小排序,最后输出所有满足用户要求的例外模式及来自数据库的名称。文献[5]中,使用了两个度量即例外模式的全局例外偏离度EPI和局部相对重要度RI,同时满足专家给定的这两个最小阈值的为例外模式。其中选票偏离度EPI考虑了模式的选票率与平均选票率的偏离度;局部相对重要度RI考虑了模式在局部数据库的相对支持率(EPI和RI的计算公式见第2章)。EPI越高,说明越少的数据库支持,例外可能性越大; RI越大,在支持的数据库中,模式支持度越高,例外的可能性越大。这两个度量刚好符合了多数据库例外模式的定义。文献[4]中,全局支持度计算用的是模式在各个数据库中支持度的均值,也就意味着若一个模式被确定为例外模式,则在所有支持它的数据库中都是例外模式。实际上,挖掘例外模式正是要找出某些数据中真正有趣的对总公司发展起重要作用的少量模式,并不意味着凡是支持它的数据库都要特别考虑,即造成了模式冗余。而且,两种模式挖掘方法都没有考虑到一个问题,即挖掘出来的模式得到的例外模式会出现一个数据库中有多个例外#65380;一个例外同时在多个数据库中的情况。对用户而言,如何看待这种例外模式在全局的地位呢?这并不是无足轻重的问题。 例如,新的子公司经营的是新的领域#65380;新的产品,那么,挖掘该子数据库中很可能出现多个例外。这种情况下若一视同仁,把大量的资源投资在这个新的部门,势必会造成
您可能关注的文档
- 基于机械设备使用、维护及管理探究.doc
- 基于杜邦分析L企业集团经济效益研究.doc
- 基于极限编程毕业设计意义与作用.doc
- 基于构式语法英语话语标记语youknow研究.doc
- 基于枣农视角金丝小枣发展问题浅析.doc
- 基于林业生态价值北京市财政分配机制研究.doc
- 基于林业生态构建下栽培管理思路漫谈.doc
- 基于柔性制造技术产品设计研究.doc
- 基于校企合作《数控设备故障诊断与维护》课程开发探索.doc
- 基于校企合作港口物流实训模式探究与实践.doc
- 三年级下册语文1-8单元默写通关训练(含答案)(2).docx
- 2026年及未来5年市场数据中国金属钒市场发展规划及投资战略可行性预测报告.docx
- 2026年及未来5年市场数据中国金属工艺品行业全景调研及投资可行性报告.docx
- 2026年及未来5年市场数据中国金属家具市场分析及投资战略研究预测可行性报告.docx
- 2026年及未来5年市场数据中国金属膜电阻器行业市场需求预测与投资战略规划分析报告.docx
- 2026年及未来5年市场数据中国金银花行业市场发展战略分析及投资前景专项预测报告.docx
- 2026年及未来5年市场数据中国金银花行业市场研究及投资战略预测报告.docx
- 2026年及未来5年市场数据中国抗氧化剂市场专项调查分析及投资前景预测报告.docx
- 2026年及未来5年市场数据中国救护车市场运行格局及投资战略研究报告.docx
- 2026年及未来5年市场数据中国精细化工行业发展前景预测及投资分析报告.docx
原创力文档

文档评论(0)