大数据时代的数据挖掘技术分析.docxVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

大数据时代的数据挖掘技术分析

?

?

金伟+刘冬秋

摘要:本文通过对大数据的发展、算法分析以及平台设计进行探究,对大数据平台的应用进行了展望,力求为智能化技术的发展提供创新的思路。

关键词:大数据;人工智能;算法设计

DOI:10.16640/j.cnki.37-1222/t.2017.13.133

1大数据的发展概述

大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据包括海量的数据信息与高强度的数据处理能力,对于传统的数据处理系统来说,大数据处理有着相当多的优势,可以对于大型复杂的数据模块进行高效地分析,包括数据的收集、分析、共享与传输等。大数据可以采用预测的方式进行分析,在用户分析后进行数据提取,将其价值体现出来。

数据集分析可以发现新的联系与信息。科学家在电子科学工作中遇到了很多需要处理海量数据的问题,涉及气象学、基因组学、复杂物理模拟、生物学和环境研究等。

2大数据技术中的算法分析

2.1神经网络算法

神经网络系统是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。神经网络是一种计算方法,基于神经单元的大集合,解决由轴突连接的生物神经元的大群集的问题。每个神经单元与许多其他神经单元连接,并且可以对所连接的神经单元的激活状态影响中实施抑制。每个单独的神经单元可以具有将所有其输入的值组合在一起的求和功能。在每个连接和单元本身上可以存在阈值函数或限制函数,使得信号在传播到其他神经元之前必须超过极限。神经网络已被用于解决使用普通的基于规则的编程难以解决的各种各样的任务,如智能化学习。历史上,神经网络模型的使用向高级人工智能的方向移动,其特征在于包含在具有一些动力系统的认知模型的参数中的知识。

2.2灰色关联度分析

灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,来进行归纳和评价,作为衡量因素间关联程度的一种方法。灰色关联度分析使用特定的信息概念。它定义没有信息为黑色的情况以及具有完美信息为白色的情况,这些理想化的情况都不会出现在现实世界的问题中。事实上,这些过渡阶段的情况被描述为灰色。因此,灰色系统意味着其中部分信息是已知的并且部分信息是未知的系统。根据这个定义,信息质量形成从信息的缺乏到完整信息的存在过渡过程。由于不确定性总是存在,灰色分析可以得出一系列关于解决方案的清晰陈述。在一个极端情况下,这种方案无解,在另一个极端情况下,具有完美信息的系统具有独特的解决方案。在中间情况中,灰色系统将给出各种优化的解决方案。灰色分析试图找到最好的解决方案,提供了确定一个好的解决方案的技术来解决现实世界的问题。

3大数据平台的设计

3.1平台层

大数据分布式存储系统可以对大规模的结构数据进行存储,通过大型的的存储与管理技术,实现对于数据的高效处理,这个数量级大部分时候在PB级以上,这样才能让科研活动更加合理地进行开展。

3.2功能层

功能层采用扩展算法进行数据挖掘,采用TB级的数据进行模型建立,实现云计算与分布调度处理,利用负载的均衡技术,使得分布处理能力提升,从而实现高效数据处理。

3.3服务层

采用基于WEB与OpenAPI的大数据挖掘处理技术,从大数据的环境分析入手,加强端口的管理与流程的优化,从而实现端口的智能配置与数据交换,让大数据的共享变得科学合理简洁。服务层属于高级别管理层次,因此应当加强对输入输出的合理控制,使其可以实现大数据的高效交换。

4大数据算法的应用分析

4.1数据挖掘

数据挖掘是发现大数据数据规律的计算过程,涉及人工智能、机器学习、统计和数据库系统结合的方法,它是一个跨学科的计算机科学子领域。数据挖掘過程的总体目标是从数据集中提取信息并将其转换为可以理解的结构以供进一步使用。除了原始数据分析外,它涉及数据库和数据管理方面、数据预处理、模型和推理、复杂性考虑、结构整合处理、可视化和在线更新。数据挖掘是数据库信息分析的过程。目标是从大量数据中提取模式和信息,而不是数据本身的提取。数据挖掘是一个热门的领域,并且经常应用于各种形式的大规模数据或信息处理,主要包括收集、提取、存储、分析和统计以及计算机决策支持系统的应用,包括人工智能、机器学习和商业智能。这些模式然后可以被视为输入数据的一种分类方法,并且可以用于在机器学习和预测分析进一步分析。

4.2机器学习

机器学习是计算机科学的子领域,它使计算机能够学习而不用明确编程。从模式识别和计算学习理论在人工智能的研究演变而来,机器学习探索学习对数据进行预测算法的研究和构建,这样的算法克服了严格的静态程序指令数据驱动的预测或决策,通过从样本输入来建立一个模型。机器学习在一系列计算任务中使用,比如垃圾邮件过滤、检测网络入侵者或恶意内部人员、光学字

文档评论(0)

158****0330 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档