关于增量学习算法关于增量习算法.doc

下载文档 降价啦

0
0
约5.33千字
约 5页
2017-04-19 发布于贵州
举报
版权申诉
保障服务

关于增量学习算法关于增量习算法.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关于增量学习算法关于增量习算法

增量学习的概念数据挖掘过程面对的一个重要问题是不断演化的新数据。至关重要的是,现有的分类和聚类方法要以这样一种方式解决这个问题：分类器不断的适应它，这里我们就需要增量学习；一种随着新数据的发生这个过程也要跟着发生变化的学习。对大批量数据集（如商场销售记录、多媒体数据）进行处理时，如果将新增样本与已有样本合并后处理，一方面会增加学习的难度，另一方面也因样本集过大而消耗过多的时间和存储空间。一个有效的解决方法是将新增样本集分别训练，并随着样本集的积累逐步提高学习精度，这就是增量学习的概念。增量学习可以就新增加的知识以及演化成新的类或一个聚类而言，它甚至可以合并或重组这些类。增量学习已经成功的应用到了许多分类问题，特别是在商业领域中增量学习的过程将有助于做出重大决策。增量学习就数据集而言是有选择性的，同时使用自适应和动态的有能力根据目前看到的做出正确的决策。考虑决策的影响，精度同样应该被考虑。摘要具有增量学习功能的数据分类技术正逐渐成为当前信息处理的关键技术之一。与传统的数据分类技术相比，增量学习分类技术具有显著的优越性。这主要表现在两个方面：一方面由于其无需保存历史数据，从而减少存储空间的占用；另一方面增量学习在当前的样本训练中充分利用了历史的训练结果，从而显著地减少了后续训练的时间。随着增量学习在数据挖掘应用领域的逐渐发展，实质上，增量学习算法领先一步发展变得极其重要。无标号数据的巨大增长已经使增量学习产生了一个大的飞跃。从BI应用到图像分类,从分析到预测,每个领域都需要学习和更新。增量学习在开拓新领域的同时可以进行知识积累。研究背景随着信息时代的到来，特别是随网络迅猛发展而出现的“信息爆炸”问题，使得传统的信息挖掘，知识获取技术面临极大的挑战。图灵奖获得者JimGray提出了一个新的经验定律：网络环境下每18个月产生的数据量等于有史以来数据量之和。美国加利福尼亚大学伯克利分校研究人员的一项新研究发现：在1999年到2002年这3年间，世界范围内信息生产量以平均每年30%左右的速度递增，也就是说，在过去3年中，全球新生产出的信息量就翻了一番。2002年中，全球由纸张、胶片以及磁、光存储介质所记录的信息生产总量达到5万亿兆字节，如果以馆藏1900万册书籍和其他印刷出版物的美国国会图书馆为标准，5万亿兆字节信息量足以填满50万座美国国会图书馆。同时随着网络的发展,许多应用领域获取新的数据变得很容易。但是对于传统的批量学习技术来说,如何从日益增加的新数据中得到有用信息是一个难题。随着数据规模的不断增加,对时间和空间的需求也会迅速增加,最终会导致学习的速度赶不上数据更新的速度。机器学习是一个解决此问题的有效方法。然而传统的机器学习是批量学习方式,需要在进行学习之前,准备好所有的数据。为了能满足在线学习的需求,需要抛弃以前的学习结果,重新训练和学习,这对时间和空间的需求都很高,因此,迫切需要研究增量学习方法,可以渐进的进行知识更新,且能修正和加强以前的知识,使得更新后的知识能适应新增加的数据。一方面，我们拥有的数据极大丰富，其间蕴含的信息和知识具有很大的潜在价值；另一方面，信息的更新速度也达到了令人吃惊的地步。因此，具有增量学习功能的数据分类技术，正逐渐成为当前信息处理的关键技术之一。与传统的数据分类技术相比，增量学习分类技术具有显著的优越性，这主要表现在两个方面：一方面由于其无需保存历史数据，从而减少存储空间的占用；另一方面，由于其在新的训练中充分利用了历史的训练结果，从而显著地减少了后续训练的时间。增量学习技术（incremental learning technique）是一种得到广泛应用的智能化数据挖掘与知识发现技术。其思想是当样本逐步积累时，学习精度也要随之提高。与传统学习技术相比，增量学习技术可以充分利用历史学习的结果，显著节省后继训练时间。一种机器学习方法是否具有良好的增量学习功能已经成为评价其性能优劣的重要标准之一。一般来说,增量学习主要有两方面的应用:一是用于数据库非常大的情形,例如Web日志记录;二是用于流数据,因为这些数据随着时间在不断的变化,例如股票交易数据.另外在增量学习中,现有的增量学习算法[9]大多采用决策树和神经网络算法实现的,它们在不同程度上具有以下两方面的缺点:一方面由于缺乏对整个样本集期望风险的控制,算法易于对训练数据产生过量匹配;另一方面,由于缺乏对训练数据有选择的遗忘淘汰机制,在很大程度上影响了分类精度。目前无论是在国际还是国内，增量学习技术[18-23,27]的研究还处于刚起步阶段，还没有形成比较统一的体系和比较成熟的理论。尤其是对新增的样本中含有新增的特征以及新增特征的维数不同的情况下所做的工作较少。然而，随着特征采集的手段的不断多样化，如用于分类的特征是通过多个传感器共