- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据算法设计与实现
大数据算法设计与实现
随着科学技术的发展,大数据在人工智能领域起着越来越重要的作用,基于大数据平台的数据分析与挖掘已经成为各科研单位的研究热点。本文通过对大数据的发展、算法分析以及平台设计进行探究,对大数据平台的应用进行了展望,力求为智能化技术的发展提供创新的思路。
【关键词】大数据 人工智能 算法设计
1 大数据的发展概述
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据包括海量的数据信息与高强度的数据处理能力,大数据是相对于传统数据处理应用程序来说,不足以处理大型、复杂的数据集的新型处理模式,包括分析、捕获、数据整理、搜索、共享、存储、传输、可视化查询、更新和信息管理。大数据通常仅指使用预测分析、用户行为分析或某些其他高级数据的分析方法,这些方法从数据中提取价值,很少涉及特定大小的数据集。数据集分析可以发现新的联系与信息。科学家、企业高管、医学从业者、广告和政府都定期在互联网搜集大数据,这些数据在金融、城市信息学和商业信息学等领域更为重要。科学家在电子科学工作中遇到了很多需要处理海量数据的问题,涉及气象学、基因组学、复杂物理模拟、生物学和环境研究等。大数据包括文本、图像、音频、视频,它通过数据融合可以完成未来数据的机器学习,大数据通常是数字交互的无成本的产品。越来越成熟的概念更清楚地描述了大数据和人工智能之间的区别,人工智能使用具有高信息密度的数据的描述性统计来测量事物、检测趋势等。大数据使用归纳统计和来自非线性系统识别的概念,从具有低信息密度的大量数据集中推断出法则,例如回归、非线性关系和因果效应,以揭示关系和依赖性或者进行结果和行为的预测。
2 大数据技术中的算法分析
2.1 神经网络算法
神经网络系统是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。神经网络是一种计算方法,基于神经单元的大集合,解决由轴突连接的生物神经元的大群集的问题。 每个神经单元与许多其他神经单元连接,并且可以对所连接的神经单元的激活状态影响中实施抑制。每个单独的神经单元可以具有将所有其输入的值组合在一起的求和功能。在每个连接和单元本身上可以存在阈值函数或限制函数,使得信号在传播到其他神经元之前必须超过极限。这些系统是自学习和训练的,而不是明确编程的,并且在传统计算机程序中难以表达的,这种方案在特征检测领域中效果很好。神经网络的目标是以与人类大脑相同的方式解决问题,现代神经网络项目通常使用几千到几百?f个神经单元和数百万的连接, 这比人类大脑的复杂性还要少几个数量级,更接近于蠕虫的计算能力。 为了训练它们,通常发生几千次交互循环。 神经网络已被用于解决使用普通的基于规则的编程难以解决的各种各样的任务,如智能化学习。历史上,神经网络模型的使用向高级人工智能的方向移动,其特征在于包含在具有一些动力系统的认知模型的参数中的知识。
2.2 灰色关联度分析
灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,来进行归纳和评价,作为衡量因素间关联程度的一种方法。灰色关联度分析使用特定的信息概念。它定义没有信息为黑色的情况以及具有完美信息为白色的情况,这些理想化的情况都不会出现在现实世界的问题中。事实上,这些过渡阶段的情况被描述为灰色。因此,灰色系统意味着其中部分信息是已知的并且部分信息是未知的系统。根据这个定义,信息质量形成从信息的缺乏到完整信息的存在过渡过程。由于不确定性总是存在,灰色分析可以得出一系列关于解决方案的清晰陈述。在一个极端情况下,这种方案无解,在另一个极端情况下,具有完美信息的系统具有独特的解决方案。在中间情况中,灰色系统将给出各种优化的解决方案。灰色分析试图找到最好的解决方案,提供了确定一个好的解决方案的技术来解决现实世界的问题。
3 大数据平台的设计
3.1 平台层
大数据分布式存储系统:研究大规模、非结构化数据的存储问题,突破大数据的存储、管理和高效访问关键技术,当前需要构建至少 PB 级存储能力的大数据平台才能满足一般的科研和应用需求。
分布式数据挖掘运行时系统:突破 MapReduce 技术的局限,研究有效支持迭代、递归、层次及集成机制的海量数据挖掘编程模型和运行时系统,构建大数据运行时系统。
3.2 功能层
高可扩展性大数据挖掘算法:基于云计算的分布式大数据处理与挖掘算法,构建高可扩展的大数据处理与挖掘算法库,实现 TB 级数据的建模能力。
分布式工作流引擎:基于云计算的分布式工作流调度、负载均衡技术,构建高效分布式工作流执行引擎。
交互式可视化分析技术:启发式、人机交互、可视化数据挖掘新技术,实现大数据挖掘的高度人机交互功能。
原创力文档


文档评论(0)