- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
?
?
面向大数据技术的《机器学习》数据分析与处理方法*
?
?
赵 婕,白振豪,赵锦荣
(太原学院智能与自动化系,山西 太原 030032)
《机器学习》是智能科学与技术专业的核心课程,要求学生掌握模拟人类的学习机制,从原始数据中获取隐藏的有效信息的方法。随着大数据技术的发展,机器学习朝着智能化数据分析与处理的方向发展,结合新知识和社会实际需求变化,学生需要深入了解机器学习的发展动态[1-2]。
1 机器学习算法
1.1 传统机器学习算法
传统机器学习算法可以分为三大类:监督学习、无监督学习和增强学习[3]。其中,监督学习需要对训练集目标进行数据标注,标记输入数据的输出值,其学习任务是实现具体数据的分类或回归。无监督学习无需对训练集目标进行数据标注,其输入数据不需要预先标记输出值,实现的学习任务是聚类或预测。增强学习采用反馈式交互学习方式,与外部环境进行不断地交互试错来获取最佳学习策略,其学习任务是得到具有最大累积回报的决策。从数据处理过程来看,监督学习和非监督学习主要侧重于数据分析,增强学习更多地应用于解决决策问题。传统机器学习算法的分类情况如表1所示。
表1 传统机器学习算法分类
1.2 大数据技术与机器学习
传统机器学习算法进行数据处理时,会将所有的数据进行完全加载使用。但是,随着大数据时代的来临,数据集的规模不断扩大,传统的机器学习数据处理方法已经不能满足大数据的特性,而大数据的特性成为改进机器学习算法的关键因素。
大数据具有五大特点,通常称为大数据5 V特性,其具体描述如下:
1)大量化(Volume):数据分析量巨大,计量单位从TB到PB,甚至达到EB规模;
2)多样性(Variety):大数据类型多样化,除结构化数据外,还包含非结构化数据和半结构化数据;
3)价值化(Value):海量数据的分析和挖掘具有巨大的商业价值,而相应的数据价值密度变低,因为价值密度与数据量的大小构成反比例关系。
4)时效性(Velocity):根据大数据的生成速度,需要在一定的时间限度内及时完成数据处理操作,具有较高的时效性要求。
5)真实性(Veracity):大数据的内容来源于社会生产和日常生活等现实世界,数据可能存在不确定性和不完备性,在大数据处理过程中需要确保数据的准确性和可信度。
大数据的5 V特性给机器学习带来了挑战,针对上述大数据的特点,对传统机器学习算法的改进成为该领域的研究热点,广大研究学者致力于开发满足大数据特性的可扩展的并行智能学习方法[4]。目前,较为典型的基于大数据技术的机器学习方法如表2所示。
表2 基于大数据技术的机器学习方法
传统的机器学习方法不能直接从数据中自动挖掘出有判别力的信息,表示学习利用算法学习数据的有效表示,能够合理高效地将高维数据特征表示出来。当数据来自不同的特征空间,具有不同的分布时,迁移学习能够利用预先学到的知识较快地解决新环境中的问题。在数据处理过程中经常会遇到规模庞大、未标注的数据集,由于数据量巨大,采用手工标注方式较难完成数据的准确标注,这种情况下,主动学习能够利用少量的标注样本获取高精度的训练模型。对于非线性数据处理,核函数学习能够提供强大的计算能力。如果为了达到较高的数据时效性要求,可以采用在线学习和极限学习机进行实时数据处理。
2 基于大数据的智能信息处理方法
学习系统能否快速地执行算法,依赖于数据处理的速度。依据数据处理任务所面临的不同的大数据特性,采用不同的机器学习算法,并且将其与大数据处理方法相结合。为了提高大数据处理的有效性,在机器学习中可以融入智能信息处理方法[5-6]。在机器学习算法中,适用于大数据的智能信息处理方法主要有:1)统计学习法;2)凸优化法;3)随机近似法;4)异常序列检测法。如图1所示,前三种信息处理方法应用于大数据分析,第四种用于决策机制。
图1 基于大数据的智能信息处理方法
2.1 统计学习法
统计学习法是利用统计学方法进行数据分析,构建概率统计模型对数据进行本质推断或预测其未来发展趋势。传统的统计学习方法主要处理结构化数据。大数据时代背景下的统计学习法,不仅要分析处理样本容量巨大的数据,还要在较短时间内对不同类型的融合数据进行准实时地推断与预测。大数据拓展了统计学的研究内涵,面对大容量、异常或缺失值、实时约束和云存储等问题,使得统计学习的研究范式从参数估计的不确定性转为模型选择的不确定性,聚焦于数据的自适应性和稀疏技术[7]。
2.2 凸优化法
凸优化法是一种使用较为广泛的信息处理方法。在对大数据进行分析和处理时,由于数据量巨大,无法根据大数据的上下文信息进行局部优化求解。因此,基于大数据的凸优化法需要对传统的凸优化算法进行改进,其目的是解决大数据凸优化求解过程中的计算和存储等瓶颈问题。假设大数据优化问题的目标数学公式为:
(1)
其
您可能关注的文档
- 青藏高原草地存在价值研究-以玛曲为例.docx
- 青藏高原春季感热异常对中国北方雨季降水影响的数值研究.docx
- 青铜文化的传承-中国古代青铜器饕餮纹饰研究.docx
- 青金橘格瓦斯的加工工艺研究.docx
- 青龙古镇品牌文化提升策略研究.docx
- 靖边县农村土地整治项目与美丽乡村建设耦合关系研究.docx
- 静压桩贯入特性对比试验研究.docx
- 静力触探法检测水泥搅拌桩损伤机理研究.docx
- 静电屏蔽效应的理论与模拟研究.docx
- 静电场作用下煤体瓦斯解吸实验研究.docx
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
最近下载
- 17J008 挡土墙(重力式、衡重式、悬臂式)(最新).pdf
- 造血干细胞移植的护理干预.pptx
- 布料车岗位安全规程.pptx
- YDT 5178-2017 通信管道人孔和手孔图集.docx VIP
- 精品解析:【区级联考】上海徐汇区2019届九年级学习能力诊断(二模)数学试题(解析版).pdf VIP
- 精品解析:广东省佛山市南海区,三水区2022-2023学年九年级上学期数学期末考试(原卷版).pdf VIP
- 一种护筒导向架结构.pdf VIP
- 老旧小区雨污分流改造要点与难点分析.docx VIP
- 鞍钢宪法及后福特主义.pdf
- 精品解析:广东省广州市2022-2023学年九年级上学期期末数学考前模拟试题(三)(解析版).pdf VIP
文档评论(0)