- 1、本文档共72页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式挖掘算法DDA的设计及其在DADM模型中的实现-计算机软件与理论专业论文
y_
640907
论文独创性声明
本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文 中除了特别加以标注和致谢的地方外,不包含其他人或其他机构已经发表或 撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作 了明确的声明并表示了谢意。
作者签名:少 rJ1 日期:V8〈R 严 g
论文使用授权声明
4亭、
本人同意上海海事大学有关保留、使用学位论文的规定,即:学校有权保 留送交论文复印件,允许论文被查阅和借阅;学校可以上网公布论文的全部或 部分内容,可以采用影印、缩印或者其它复制手段保存论文。保密的论文在解 密后遵守此规定。
作者签名:杨任主γ与 导师签名: l. 日期:勿 1I 、7,
分布式挖掘算法 DDA 的设计及其在 DADM 模型中的实现
摘要i注i
数据挖掘是 20 世纪 90 年代中期兴起的一项新技术,它是知识发现过程中的 关键步骤,也是当前知识发现领域中的一个研究热点,近年来,国内外学术界和 企业界,都非常重视对数据挖掘技术和软件工具的研究和开发,也取得一些成果。 关联规则的发现是数据挖掘中的一项重要任务。关联规则表示数据库中→组
对象之间某种关联关系的规则(例如同时发生或者从一个对象可以推出另 一个勺。关联规则的简单表示形式是: X=)y ,X 称作规则的前提, y 是规则的结 果。通常,对于一个规则的衡量有两个标准:支持度 (support) 和置信度 (confidence) 。挖掘关联规则的问题就是找出这样的→些规则:他们的 support 和 confidence 分别大于用户指定的 min_support 和 min_confidence 限度。这个 问题的主要挑战性在于数据量巨大〈数据库容量达到若干 GB 字节,甚至 TB 字节), 因此算法改进的方法主要围绕减少数据量来开展。目前研究的重点是如何找出频 繁大项集 (large itemset) ,围绕这个问题,R.Agrawal 等在 1994 年提出了 Apriori 算法,它是一种经典的频集方法.但是 Apriori 笠法也存在一些固有的 缺陷:①多次重复扫描数据库,增加了挖掘过程中 I/O 操作的次数,加重了 CPU 的负担,影响计算效率。②只是适用于集中式数据库,不能应用到分布式数据 库中③无法对稀有数据进待分析。
本文首先从理论和应用两个角度分析了 Apriori 算法的局限性,并且针对该 算法的不足,设计了一种新的能够应用到分布式系统的算法,新的算法:①将数 据水平分片到各个局部数据库中。②在各局部数据库上进行局部剪枝,产生局 部大项集。③将局部大项集传送到其他节点④各个节点在收到其他节点发来的数 据以后进行全局剪枝。因为经过了局部剪校和全局剪枝的两个过程,数据量会从
o(n:!) 减少到 o (n) 。
然后,根据新的挖掘算法,结合港口与集装箱运输的实际情况,设计了面向 港口与集装箱运输的数据挖掘模型 DADM,在挖掘模型DADM 的实现过程中,运用 支持多平台的 ]AVA 开发语言,采用了面向对象的设计和开发方法。同时,在知 识的表达和解释机制方面也作了很多工作,使知识的表达不仅限于数字和符号, 而是更容易理解的表格、图形等。
{it.1 本文得到J 中间港 ijlJ 集装箱·数据管理》项目的义持。
分布式挖掘算法 DDA 的设计及其在 DADM 模裂中的实现
最后F 总结出设计挖掘算法和挖掘模型的方法,为针对分布式系统的数据挖 掘系统的设计和研究提供了一种薪尝试。
DADM 挖掘模型以集装箱运输行业为背景 F 功能完善,操作简单,可扩展性强。 同时, DADM 挖掘模型在二次开发上并不受行业限制 f 通过分析具体的行业领域 数据,本模型完全可以应用到银行、保险、气象等其它行业中。
关键词 数据挖掘 p 关联规则 F 分布式数据库, Apriori 算法, DDA 算法,
DADM 模型
2
分布式挖掘算注; DDA 的-设计及其在 DADM 模坐中的头-E兑
ABSTRACT
As a new technology boomed in the mid..1-990s,Data Mining represer.ts a
key step in the procedures of knowledge discovering and is also a hot research topic in the domain of knowledge discovering. In reCènt years ,the academic circle and enterprises have attached importance to and achieved
some r
您可能关注的文档
- 公路附属构造物滑模施工技术研究-工程机械专业论文.docx
- 公轨两用斜拉桥耳板式索梁锚固结构疲劳性能研究-桥梁与隧道工程专业论文.docx
- 典型NORM企业液态流出物源项补充调查及所致公众剂量评估方法的应用-辐射防护与环境保护专业论文.docx
- 典型OFDM系统中的信道估计与均衡研究及实现-通信与信息系统专业论文.docx
- 典型PBGA封装热—结构分析及其优化-机械设计及理论专业论文.docx
- 典型Renner幺半群的共轭类-基础数学专业论文.docx
- 典型L形型材的精细建模方法研究-工程力学专业论文.docx
- 典型WEB服务的自动性能测试工具的设计与实现控制理论与控制工程专业论文.docx
- 典型WEB服务的自动性能测试工具的设计与实现-控制理论与控制工程专业论文.docx
- 典型三维非同温像元的温度与发射率反演研究-摄影测量与遥感专业论文.docx
文档评论(0)