- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于pvm的sliq算法的并行化研究-计算机系统结构专业论文
重庆大学硕士学位论文 中文摘要
摘 要
数据挖掘作为知识发现过程关键技术,已逐步得到广泛应用。分类是数据挖 掘及CRM的重要组成部分。SLIQ串行算法是由IBMAlmaden研究中心提出的一 种高速可伸缩的分类算法,广泛应用于大型商业的CRM、信用等级分级等领域。
随着应用中数据量的迅速膨胀,采用并行技术是提高数据挖掘效率的一个重要途
径。本文首先分析了串行SLIQ算法的原理和特点,针对其不足提出了一些改进方 法,然后在基于PVM的环境下实现了算法的并行化,分析了算法的时间复杂度和 加速比,提高了SLIQ算法的效率,具有一定的理论意义和实用价值。
串行SLIQ算法通过预排序和广度优先技术,能够更加快速和准确地处理大量
数据集,并能同时处理离散字段和连续字段。但是,原算法在计算决策树节点的 最佳分割点的时候,存在着对属性和记录的多余计算问题。本文提出应该动态的 删除叶子节点的记录以及当前节点的祖先节点的分割属性,从而可以明显地减少 不必要的计算以及属性表在磁盘和内存之问的IO交换操作。
由于难以解决数据挖掘中任务划分的问题,SLIQ算法并行化的主要方向是实 现数据的并行。SLIQ算法采用了新颖的数据结构,需要预先建立属性表,所以应 该采取基于属性的数据分割策略。算法在把属性表和类表进行预先分配时采用的 是静态平衡策略,对数据的分配按照数据量平均分配,将连续属性和离散属性分
别平均分配到各个结点上;在执行分裂后,由于需要计算的属性不断减少,则采用 了动态负载平衡的策略,通过消息传递的方式将部分计算任务分配给负载较轻的 处理机单元。
通过对串行和并行算法时间复杂度的计算表明,当数据集充分大时,由于连续 属性的排序计算操作分散到各个处理机单元上进行,显著降低了计算时间,从而 可以得到近似于处理机个数的加速比,对于离散属性,本并行算法对串行算法的 性能提高有限。
关键词:SUQ,并行,算法,PVM
重鏖查堂堡主兰垡笙塞 茎苎塑茎
ABSTRACT
As a critical application ofKDD(Knowledge Discovery in Database),Datamining is more and more widely used.Classification is an important part of Data Ming and application of CRM(Customer Relationship Management).SLIQ algorithm is a fast and scalable classification algorithm for data mining,which is brought forward by IBM
Almaden Research Center in 1996.The typical application of SLIQ lies in CRM,credit ranking,etc in large business.Followed by the rapid extension of data size,the usage of parallel technology is a very important method to improve the efficiency ofData Ming.
SLIQ uses novel pre—SOrting and breadth-first techniques to build a decision tree
fast and accurately on a large data set,and can deal both categorical and numeric attributes.But the primary algorithm contains the abundant computing on attribute and record.The paper bring forward the opinion that the record attached to leafnode and the attribute situated at the ancestor ofpresent node ought to deleted dynamically,as carl decrease unnecessary computing and 10 exchange operati
您可能关注的文档
- 基于pxi总线的qpsk解调模块设计-通信与信息系统专业论文.docx
- 基于pc的h.264视频编码器优化设计-信号与信息处理专业论文.docx
- 基于pci总线的数据通讯与多轴运动控制器研究-模式识别与智能系统专业论文.docx
- 基于oltp数据库的数据分析建模过程的研究-计算机系统结构专业论文.docx
- 基于net平台的公交流转应用框架的设计和实现-计算机技术专业论文.docx
- 基于profibus的铜线装载控制系统设计-控制理论与控制工程专业论文.docx
- 基于pmac的微细电火花成形加工数控系统的运动控制研究-航空宇航制造专业论文.docx
- 基于p2p的信息共享agent研究-计算机应用专业论文.docx
- 基于portlet和工作流技术的鞍山供电公司企业门户构建研究-技术经济及管理专业论文.docx
- 基于pdm框架和j2ee规范的机床设计信息集成系统-车辆工程专业论文.docx
- 【产品营销联盟PMA】2024年产品营销领导力状况报告.docx
- 数据作价出资入股的破局之道 (一):政策与难点解析.docx
- 房地产活动策划 -2025三八女神节春季手工团建主题活动推荐方案.docx
- 【欧盟标准组织】体验式网络智能(ENI)-基于人工智能代理的下一代网络切片研究.docx
- 【赛默飞】2024打造出海竞争力:中国创新药的国际生产供应战略白皮书.docx
- B2B电子商务入门的终极指南.docx
- 小白入门DeepSeek50个高阶提示词.docx
- 营销投放平台实操指南- 2025.docx
- 【里瑞通(Digital Realty)】2024您准备好使用数据和AI了吗?-赋能数据和 AI 就绪架构的有效方法白皮书.docx
- 中国酒业协会&腾讯营销洞察:2023年中国白酒行业消费白皮书.docx
最近下载
- IATF16949内审员课程试题及答案.pdf
- 两虫方法确认材料.doc
- 《蜀相》《书愤》比较阅读+课件22张+2022-2023学年统编版高中语文选择性必修下册.pptx VIP
- 【三基】康复治疗学简答题(二).docx VIP
- 有害物质和材料管理规范.doc VIP
- 2022-2023年住院医师规范化培训-住院医师规范化培训(超声医学科)考试全真模考卷9(附答案).docx VIP
- 新视野大学英语第三版第四册第三单元section A课件.pptx
- 铁路线路工中级技能鉴定习题库及参考答案.docx VIP
- 【基于单片机的煤矿安全生产监控系统设计8600字】.docx
- (八省联考)陕西省2025年高考综合改革适应性演练 化学试卷(含答案解析).docx
文档评论(0)