基于SDL集成R语言大数据挖掘系统设计.docVIP

基于SDL集成R语言大数据挖掘系统设计.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SDL集成R语言大数据挖掘系统设计

基于SDL集成R语言大数据挖掘系统设计   在数据信息迅速膨胀增长的信息化时代,大数据挖掘与分析方法发挥着越来越重要的作用。开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘,但把R语言应用于海量数据分析领域的研究较少,对于R语言在数据挖掘系统里的定位较模糊。SDL(specification and description language)是一种基于扩展有限状态机和抽象数据类型的形式化描述语言,本文基于SDL,给出了一种集成R语言的大数据挖掘系统的设计方法。该设计方案基于SDL语言对系统的描述可以把系统划分为层次清晰的各个功能模块,使程序员无需对底层复杂的计算框架做深入的了解,只需对相应模块接口进行编程,减少出错,缩短开发周期。   【关键词】SDL 数据挖掘 大数据 R语言 系统设计   1 前言   随着信息化时代的发展,各领域中的数据急剧增长和信息量的不断扩大,使得大数据挖掘方法与工具的研究和开发的重要性与日俱增。R软件是一款集成了数据操作、统计和可视化功能的优秀的开源软件,R软件具备高效的数据处理和存储功能,擅长数据矩阵操作,提供了大量适用于数据分析的工具,在众多数据挖掘领域中有比较出色的应用。但由于R语言本身并不支持用于并行存储计算数据的分布式文件系统,所以与海量数据结合的数据挖掘系统处于不成熟阶段,且其不具有商业软件在封装方面的优点,导致各类集成R语言的数据挖掘系统在系统架构上层次不清,各功能模块之间定义模糊,给程序员在对API进行编程时带来麻烦。   SDL(specification and description language)是一种基于扩展有限状态机和抽象数据类型的形式化描述语言,定义在ITU的建议书Z.100 中。SDL 自身的特性除了非常适合通信协议的形式化描述和实现,也适用于描述系统的活动和信息交互的行为。为了减少系统的开发成本,降低出错率,提高开发效率和软件的质量,本文提出了一种基于SDL语言描述集成了R语言的大数据挖掘系统,该系统设计的解决方案主要是围绕大数据的存储访问和R语言算法的嵌入两个技术难点来实现的,通过Hadoop集群的搭建实现了分布式文件的存储管理和访问,但Hadoop本身基于Java语言实现,并不支持R语言,所以本文在系统中设计Java语言与R语言对象转换的功能模块,通过调用Java类库来解释执行R语言描述的数据挖掘算法,从而实现目标系统的功能。   TeleLogic TAU 是用于分析、设计、运行和测试实时系统的软件工具,其最大特点在于SDL和MSC的形式化,能帮助用户在设计初期就使用仿真,对设计进行确认和验证,保证系统的每一个细节正确运行。完整的客户化代码生成器还可将规格编译成可执行代码,将错误数量降至最低,使用户将更多的精力用于系统设计。因此本文将采用TeleLogic TAU作为SDL开发工具来实现集成R语言的大数据挖掘系统的设计。   2 目标系统说明   2.1 目标系统实现的功能   (1)用户无需了解R语言的编程过程,通过系统前端图形化界面进行交互。   (2)用户可以实现密钥登录系统。   (3)系统提供多种算法供用户选择,并且可以设置参数。   (4)经过数据分析后返回的结果可以在用户界面上实现文本显示和图形化显示两种显示方式。   2.2 系统流程   (1)用户输入用户名和密码登录系统   (2)用户选择算法种类,并选择设置参数,确认。   (3)系统管理模块生成R语言代码,经转换模块生成嵌入了R语言的Java代码,向计算模块发出开始数据处理的信号。   (4)计算模块根据算法内容执行对数据的分析操作,发送完成信号到管理模块。   (5)管理模块提示用户处理完成,用户选择结果的文本显示或可视化显示。   2.3 系统设计难点及解决方案   由于R语言本身不支持分布式文件系统,所以系统需要一种在R语言执行正确执行Java代码的机制。基于Hadoop计算框架的集成原理,HDFS的静态功能全部由后端类库和架构本身实现,而系统的难点在于实现一个在R环境下利用Java虚拟机加载Java类并调用其方法的执行系统。   针对上述难点,提出以下解决方案,设计一个转换功能模块,可以实现在Java代码中解释R语言脚本并执行;在R环境下可利用Java虚拟机加载Java类并调用其方法;可将R对象自动转换为Java对象;可将Java对象自动转换为R对象的类型。   3 设计与实现   3.1 信号量   3.2 各模块功能   3.2.1 System级定义   用环境代表用户,用户可以向系统输入用户名及密码、选择算法、设置参数以及退出系统等信号,系统可以向环境输出文本显示和图形化显示的信号。功能块dataming完成R语言和

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档