- 18
- 0
- 约5.32千字
- 约 5页
- 2017-08-15 发布于贵州
- 举报
增量学习的概念
数据挖掘过程面对的一个重要问题是不断演化的新数据。至关重要的是,现有的分类和聚类方法要以这样一种方式解决这个问题:分类器不断的适应它,这里我们就需要增量学习;一种随着新数据的发生这个过程也要跟着发生变化的学习。对大批量数据集(如商场销售记录、多媒体数据)进行处理时,如果将新增样本与已有样本合并后处理,一方面会增加学习的难度,另一方面也因样本集过大而消耗过多的时间和存储空间。一个有效的解决方法是将新增样本集分别训练,并随着样本集的积累逐步提高学习精度,这就是增量学习的概念。增量学习可以就新增加的知识以及演化成新的类或一个聚类而言,它甚至可以合并或重组这些类。
增量学习已经成功的应用到了许多分类问题,特别是在商业领域中增量学习的过程将有助于做出重大决策。增量学习就数据集而言是有选择性的,同时使用自适应和动态的有能力根据目前看到的做出正确的决策。考虑决策的影响,精度同样应该被考虑。
摘要
具有增量学习功能的数据分类技术正逐渐成为当前信息处理的关键技术之一。与传统的数据分类技术相比,增量学习分类技术具有显著的优越性。这主要表现在两个方面:一方面由于其无需保存历史数据,从而减少存储空间的占用;另一方面增量学习在当前的样本训练中充分利用了历史的训练结果,从而显著地减少了后续训练的时间。随着增量学习在数据挖掘应用领域的逐渐发展,实质上,增量学习算法领先一步发展变得极其重要。无标号数据的巨大增长已经使增量学习产生了一个大的飞跃。从BI应用到图像分类,从分析到预测,每个领域都需要学习和更新。增量学习在开拓新领域的同时可以进行知识积累。
研究背景
随着信息时代的到来,特别是随网络迅猛发展而出现的“信息爆炸”问题,使得传统的信息挖掘,知识获取技术面临极大的挑战。图灵奖获得者JimGray提出了一个新的经验定律:网络环境下每18个月产生的数据量等于有史以来数据量之和。美国加利福尼亚大学伯克利分校研究人员的一项新研究发现:在1999年到2002年这3年间,世界范围内信息生产量以平均每年30%左右的速度递增,也就是说,在过去3年中,全球新生产出的信息量就翻了一番。2002年中,全球由纸张、胶片以及磁、光存储介质所记录的信息生产总量达到5万亿兆字节,如果以馆藏1900万册书籍和其他印刷出版物的美国国会图书馆为标准,5万亿兆字节信息量足以填满50万座美国国会图书馆。
同时随着网络的发展,许多应用领域获取新的数据变得很容易。但是对于传统的批量学习技术来说,如何从日益增加的新数据中得到有用信息是一个难题。随着数据规模的不断增加,对时间和空间的需求也会迅速增加,最终会导致学习的速度赶不上数据更新的速度。机器学习是一个解决此问题的有效方法。然而传统的机器学习是批量学习方式,需要在进行学习之前,准备好所有的数据。为了能满足在线学习的需求,需要抛弃以前的学习结果,重新训练和学习,这对时间和空间的需求都很高,因此,迫切需要研究增量学习方法,可以渐进的进行知识更新,且能修正和加强以前的知识,使得更新后的知识能适应新增加的数据。
一方面,我们拥有的数据极大丰富,其间蕴含的信息和知识具有很大的潜在价值;另一方面,信息的更新速度也达到了令人吃惊的地步。因此,具有增量学习功能的数据分类技术,正逐渐成为当前信息处理的关键技术之一。与传统的数据分类技术相比,增量学习分类技术具有显著的优越性,这主要表现在两个方面:一方面由于其无需保存历史数据,从而减少存储空间的占用;另一方面,由于其在新的训练中充分利用了历史的训练结果,从而显著地减少了后续训练的时间。
增量学习技术(incremental learning technique)是一种得到广泛应用的智能化数据挖掘与知识发现技术。其思想是当样本逐步积累时,学习精度也要随之提高。与传统学习技术相比,增量学习技术可以充分利用历史学习的结果,显著节省后继训练时间。一种机器学习方法是否具有良好的增量学习功能已经成为评价其性能优劣的重要标准之一。
一般来说,增量学习主要有两方面的应用:一是用于数据库非常大的情形,例如Web日志记录;二是用于流数据,因为这些数据随着时间在不断的变化,例如股票交易数据.另外在增量学习中,现有的增量学习算法[9]大多采用决策树和神经网络算法实现的,它们在不同程度上具有以下两方面的缺点:一方面由于缺乏对整个样本集期望风险的控制,算法易于对训练数据产生过量匹配;另一方面,由于缺乏对训练数据有选择的遗忘淘汰机制,在很大程度上影响了分类精度。
目前无论是在国际还是国内,增量学习技术[18-23,27]的研究还处于刚起步阶段,还没有形成比较统一的体系和比较成熟的理论。尤其是对新增的样本中含有新增的特征以及新增特征的维数不同的情况下所做的工作较少。然而,随着特征采集的手段的不断多样化,如用于分类的特征是通过多个传感器共
您可能关注的文档
- 德城区第二实验小学-学生作品.doc
- 地方政府学第一次网上作业答案.xls
- 地级及以上城市在校学生数(2007年).xls
- 地理科学学院实验课程大纲.pdf
- 第2章 学习与学习理论.doc
- 第2章:法学的研究方法.ppt
- 第3章 学习与学习理论概述.ppt
- 第3章_原子吸收光谱法(练习题)-2008级.doc
- 第5课 灿烂的青铜文明(学案).doc
- 第5课____灿烂的青铜文明导学案.doc
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
原创力文档

文档评论(0)