基于pvm的sliq算法的并行化研究-计算机系统结构专业论文.docxVIP

下载本文档

4
0
约5.73万字
约 52页
2018-12-21 发布于上海
举报
版权申诉

基于pvm的sliq算法的并行化研究-计算机系统结构专业论文.docx

1、本文档共52页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于pvm的sliq算法的并行化研究-计算机系统结构专业论文

重庆大学硕士学位论文中文摘要摘要数据挖掘作为知识发现过程关键技术，已逐步得到广泛应用。分类是数据挖掘及CRM的重要组成部分。SLIQ串行算法是由IBMAlmaden研究中心提出的一种高速可伸缩的分类算法，广泛应用于大型商业的CRM、信用等级分级等领域。随着应用中数据量的迅速膨胀，采用并行技术是提高数据挖掘效率的一个重要途径。本文首先分析了串行SLIQ算法的原理和特点，针对其不足提出了一些改进方法，然后在基于PVM的环境下实现了算法的并行化，分析了算法的时间复杂度和加速比，提高了SLIQ算法的效率，具有一定的理论意义和实用价值。串行SLIQ算法通过预排序和广度优先技术，能够更加快速和准确地处理大量数据集，并能同时处理离散字段和连续字段。但是，原算法在计算决策树节点的最佳分割点的时候，存在着对属性和记录的多余计算问题。本文提出应该动态的删除叶子节点的记录以及当前节点的祖先节点的分割属性，从而可以明显地减少不必要的计算以及属性表在磁盘和内存之问的IO交换操作。由于难以解决数据挖掘中任务划分的问题，SLIQ算法并行化的主要方向是实现数据的并行。SLIQ算法采用了新颖的数据结构，需要预先建立属性表，所以应该采取基于属性的数据分割策略。算法在把属性表和类表进行预先分配时采用的是静态平衡策略，对数据的分配按照数据量平均分配，将连续属性和离散属性分别平均分配到各个结点上；在执行分裂后，由于需要计算的属性不断减少，则采用了动态负载平衡的策略，通过消息传递的方式将部分计算任务分配给负载较轻的处理机单元。通过对串行和并行算法时间复杂度的计算表明，当数据集充分大时，由于连续属性的排序计算操作分散到各个处理机单元上进行，显著降低了计算时间，从而可以得到近似于处理机个数的加速比，对于离散属性，本并行算法对串行算法的性能提高有限。关键词：SUQ，并行，算法，PVM 重鏖查堂堡主兰垡笙塞茎苎塑茎 ABSTRACT As a critical application ofKDD(Knowledge Discovery in Database)，Datamining is more and more widely used．Classification is an important part of Data Ming and application of CRM(Customer Relationship Management)．SLIQ algorithm is a fast and scalable classification algorithm for data mining，which is brought forward by IBM Almaden Research Center in 1996．The typical application of SLIQ lies in CRM，credit ranking，etc in large business．Followed by the rapid extension of data size，the usage of parallel technology is a very important method to improve the efficiency ofData Ming． SLIQ uses novel pre—SOrting and breadth-first techniques to build a decision tree fast and accurately on a large data set，and can deal both categorical and numeric attributes．But the primary algorithm contains the abundant computing on attribute and record．The paper bring forward the opinion that the record attached to leafnode and the attribute situated at the ancestor ofpresent node ought to deleted dynamically，as carl decrease unnecessary computing and 10 exchange operati