面向大数据技术的《机器学习》数据分析与处理方法.docx

下载文档

13
0
约3.68千字
约 9页
2023-08-22 发布于四川
举报
版权申诉
保障服务

面向大数据技术的《机器学习》数据分析与处理方法.docx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

? ? 面向大数据技术的《机器学习》数据分析与处理方法* ? ? 赵婕，白振豪，赵锦荣 (太原学院智能与自动化系，山西太原 030032) 《机器学习》是智能科学与技术专业的核心课程，要求学生掌握模拟人类的学习机制，从原始数据中获取隐藏的有效信息的方法。随着大数据技术的发展，机器学习朝着智能化数据分析与处理的方向发展，结合新知识和社会实际需求变化，学生需要深入了解机器学习的发展动态[1-2]。 1 机器学习算法 1.1 传统机器学习算法传统机器学习算法可以分为三大类：监督学习、无监督学习和增强学习[3]。其中，监督学习需要对训练集目标进行数据标注，标记输入数据的输出值，其学习任务是实现具体数据的分类或回归。无监督学习无需对训练集目标进行数据标注，其输入数据不需要预先标记输出值，实现的学习任务是聚类或预测。增强学习采用反馈式交互学习方式，与外部环境进行不断地交互试错来获取最佳学习策略，其学习任务是得到具有最大累积回报的决策。从数据处理过程来看，监督学习和非监督学习主要侧重于数据分析，增强学习更多地应用于解决决策问题。传统机器学习算法的分类情况如表1所示。表1 传统机器学习算法分类 1.2 大数据技术与机器学习传统机器学习算法进行数据处理时，会将所有的数据进行完全加载使用。但是，随着大数据时代的来临，数据集的规模不断扩大，传统的机器学习数据处理方法已经不能满足大数据的特性，而大数据的特性成为改进机器学习算法的关键因素。大数据具有五大特点，通常称为大数据5 V特性，其具体描述如下： 1)大量化(Volume)：数据分析量巨大，计量单位从TB到PB，甚至达到EB规模； 2)多样性(Variety)：大数据类型多样化，除结构化数据外，还包含非结构化数据和半结构化数据； 3)价值化(Value)：海量数据的分析和挖掘具有巨大的商业价值，而相应的数据价值密度变低，因为价值密度与数据量的大小构成反比例关系。 4)时效性(Velocity)：根据大数据的生成速度，需要在一定的时间限度内及时完成数据处理操作，具有较高的时效性要求。 5)真实性(Veracity)：大数据的内容来源于社会生产和日常生活等现实世界，数据可能存在不确定性和不完备性，在大数据处理过程中需要确保数据的准确性和可信度。大数据的5 V特性给机器学习带来了挑战，针对上述大数据的特点，对传统机器学习算法的改进成为该领域的研究热点，广大研究学者致力于开发满足大数据特性的可扩展的并行智能学习方法[4]。目前，较为典型的基于大数据技术的机器学习方法如表2所示。表2 基于大数据技术的机器学习方法传统的机器学习方法不能直接从数据中自动挖掘出有判别力的信息，表示学习利用算法学习数据的有效表示，能够合理高效地将高维数据特征表示出来。当数据来自不同的特征空间，具有不同的分布时，迁移学习能够利用预先学到的知识较快地解决新环境中的问题。在数据处理过程中经常会遇到规模庞大、未标注的数据集，由于数据量巨大，采用手工标注方式较难完成数据的准确标注，这种情况下，主动学习能够利用少量的标注样本获取高精度的训练模型。对于非线性数据处理，核函数学习能够提供强大的计算能力。如果为了达到较高的数据时效性要求，可以采用在线学习和极限学习机进行实时数据处理。 2 基于大数据的智能信息处理方法学习系统能否快速地执行算法，依赖于数据处理的速度。依据数据处理任务所面临的不同的大数据特性，采用不同的机器学习算法，并且将其与大数据处理方法相结合。为了提高大数据处理的有效性，在机器学习中可以融入智能信息处理方法[5-6]。在机器学习算法中，适用于大数据的智能信息处理方法主要有：1)统计学习法；2)凸优化法；3)随机近似法；4)异常序列检测法。如图1所示，前三种信息处理方法应用于大数据分析，第四种用于决策机制。图1 基于大数据的智能信息处理方法 2.1 统计学习法统计学习法是利用统计学方法进行数据分析，构建概率统计模型对数据进行本质推断或预测其未来发展趋势。传统的统计学习方法主要处理结构化数据。大数据时代背景下的统计学习法，不仅要分析处理样本容量巨大的数据，还要在较短时间内对不同类型的融合数据进行准实时地推断与预测。大数据拓展了统计学的研究内涵，面对大容量、异常或缺失值、实时约束和云存储等问题，使得统计学习的研究范式从参数估计的不确定性转为模型选择的不确定性，聚焦于数据的自适应性和稀疏技术[7]。 2.2 凸优化法凸优化法是一种使用较为广泛的信息处理方法。在对大数据进行分析和处理时，由于数据量巨大，无法根据大数据的上下文信息进行局部优化求解。因此，基于大数据的凸优化法需要对传统的凸优化算法进行改进，其目的是解决大数据凸优化求解过程中的计算和存储等瓶颈问题。假设大数据优化问题的目标数学公式为： (1) 其