- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于增量学习算法关于增量学算法关于增量学习算法关于增量学习算法
增量学习的概念
数据挖掘过程面对的一个重要问题是不断演化的新数据。至关重要的是,现有的分类和聚类方法要以这样一种方式解决这个问题:分类器不断的适应它,这里我们就需要增量学习;一种随着新数据的发生这个过程也要跟着发生变化的学习。对大批量数据集(如商场销售记录、多媒体数据)进行处理时,如果将新增样本与已有样本合并后处理,一方面会增加学习的难度,另一方面也因样本集过大而消耗过多的时间和存储空间。一个有效的解决方法是将新增样本集分别训练,并随着样本集的积累逐步提高学习精度,这就是增量学习的概念。增量学习可以就新增加的知识以及演化成新的类或一个聚类而言,它甚至可以合并或重组这些类。
增量学习已经成功的应用到了许多分类问题,特别是在商业领域中增量学习的过程将有助于做出重大决策。增量学习就数据集而言是有选择性的,同时使用自适应和动态的有能力根据目前看到的做出正确的决策。考虑决策的影响,精度同样应该被考虑。
摘要
具有增量学习功能的数据分类技术正逐渐成为当前信息处理的关键技术之一。与传统的数据分类技术相比,增量学习分类技术具有显著的优越性。这主要表现在两个方面:一方面由于其无需保存历史数据,从而减少存储空间的占用;另一方面增量学习在当前的样本训练中充分利用了历史的训练结果,从而显著地减少了后续训练的时间。随着增量学习在数据挖掘应用领域的逐渐发展,实质上,增量学习算法领先一步发展变得极其重要。无标号数据的巨大增长已经使增量学习产生了一个大的飞跃。从BI应用到图像分类,从分析到预测,每个领域都需要学习和更新。增量学习在开拓新领域的同时可以进行知识积累。
研究背景
随着信息时代的到来,特别是随网络迅猛发展而出现的“信息爆炸”问题,使得传统的信息挖掘,知识获取技术面临极大的挑战。图灵奖获得者JimGray提出了一个新的经验定律:网络环境下每18个月产生的数据量等于有史以来数据量之和。美国加利福尼亚大学伯克利分校研究人员的一项新研究发现:在1999年到2002年这3年间,世界范围内信息生产量以平均每年30%左右的速度递增,也就是说,在过去3年中,全球新生产出的信息量就翻了一番。2002年中,全球由纸张、胶片以及磁、光存储介质所记录的信息生产总量达到5万亿兆字节,如果以馆藏1900万册书籍和其他印刷出版物的美国国会图书馆为标准,5万亿兆字节信息量足以填满50万座美国国会图书馆。
同时随着网络的发展,许多应用领域获取新的数据变得很容易。但是对于传统的批量学习技术来说,如何从日益增加的新数据中得到有用信息是一个难题。随着数据规模的不断增加,对时间和空间的需求也会迅速增加,最终会导致学习的速度赶不上数据更新的速度。机器学习是一个解决此问题的有效方法。然而传统的机器学习是批量学习方式,需要在进行学习之前,准备好所有的数据。为了能满足在线学习的需求,需要抛弃以前的学习结果,重新训练和学习,这对时间和空间的需求都很高,因此,迫切需要研究增量学习方法,可以渐进的进行知识更新,且能修正和加强以前的知识,使得更新后的知识能适应新增加的数据。
一方面,我们拥有的数据极大丰富,其间蕴含的信息和知识具有很大的潜在价值;另一方面,信息的更新速度也达到了令人吃惊的地步。因此,具有增量学习功能的数据分类技术,正逐渐成为当前信息处理的关键技术之一。与传统的数据分类技术相比,增量学习分类技术具有显著的优越性,这主要表现在两个方面:一方面由于其无需保存历史数据,从而减少存储空间的占用;另一方面,由于其在新的训练中充分利用了历史的训练结果,从而显著地减少了后续训练的时间。
增量学习技术(incremental learning technique)是一种得到广泛应用的智能化数据挖掘与知识发现技术。其思想是当样本逐步积累时,学习精度也要随之提高。与传统学习技术相比,增量学习技术可以充分利用历史学习的结果,显著节省后继训练时间。一种机器学习方法是否具有良好的增量学习功能已经成为评价其性能优劣的重要标准之一。
一般来说,增量学习主要有两方面的应用:一是用于数据库非常大的情形,例如Web日志记录;二是用于流数据,因为这些数据随着时间在不断的变化,例如股票交易数据.另外在增量学习中,现有的增量学习算法[9]大多采用决策树和神经网络算法实现的,它们在不同程度上具有以下两方面的缺点:一方面由于缺乏对整个样本集期望风险的控制,算法易于对训练数据产生过量匹配;另一方面,由于缺乏对训练数据有选择的遗忘淘汰机制,在很大程度上影响了分类精度。
目前无论是在国际还是国内,增量学习技术[18-23,27]的研究还处于刚起步阶段,还没有形成比较统一的体系和比较成熟的理论。尤其是对新增的样本中含有新增的特征以及新增特征的维数不同的情况下所做的工作较少。然而,随着特征采集的手段的不断多样化,如用于分类的特征是通过多个传感器共
您可能关注的文档
- 骨肿瘤-雷书宏.ppt
- 骨盆骨折,10-llm骨盆折,10-llm骨盆骨折,10-llm骨盆骨折,10-llm.ppt
- 固定资产管理规定2006123固定资产管理规定20061023固定资产管理规定20061023固定资产管理规定20061023.doc
- 固定资产管理制度-20142固定资产管理制度-2014.2固定资产管理制度-2014.2固定资产管理制度-2014.2.doc
- 固定资产管理制度2015固资产管理制度2015固定资产管理制度2015固定资产管理制度2015.doc
- 骨伤科中医疾病护理常规骨伤中医疾病护理常规骨伤科中医疾病护理常规骨伤科中医疾病护理常规.doc
- 固定式液压升降机固定式液压降机升降机.doc
- 故宫匾额书法欣赏故宫匾额书欣赏法欣赏.doc
- 寡人之于国也译文寡人之于国译文也译文.ppt
- 骨伤科环境形象范例骨伤科环形象范例境形象范例.doc
- 关于异步电动机变频调速系统仿真研究关于异步电动机变频调速系统的仿真研究关于异步电动机变频调速系统的仿真研究关于异步电动机变频调速系统的仿真研究.doc
- 关于园林绿化管理机构设置的考关于园林绿化管理机构设置的思考关于园林绿化管理机构设置的思考关于园林绿化管理机构设置的思考.doc
- 关于幽门螺杆菌感染关于幽门杆菌感染螺杆菌感染.ppt
- 关于郑州成功财经学院毕业论(设计)管理工作的指导意见关于郑州成功财经学院毕业论文(设计)管理工作的指导意见关于郑州成功财经学院毕业论文(设计)管理工作的指导意见关于郑州成功财经学院毕业论文(设计)管理工作的指导意见.doc
- 关于政府采购合同的签订及见3关于政府采购合同的签订及见证3关于政府采购合同的签订及见证3关于政府采购合同的签订及见证3.ppt
- 关于中国梦的名言关于中国梦名言的名言.doc
- 关于责任的名人名言关于责任名人名言的名人名言.ppt
- 关于玉器鉴赏类图书的市场调报告关于玉器鉴赏类图书的市场调研报告关于玉器鉴赏类图书的市场调研报告关于玉器鉴赏类图书的市场调研报告.doc
- 关于逾期未认证的增值税发票理办法关于逾期未认证的增值税发票处理办法关于逾期未认证的增值税发票处理办法关于逾期未认证的增值税发票处理办法.ppt
- 关于整理临床试验申报资料的式关于整理临床试验申报资料的形式关于整理临床试验申报资料的形式关于整理临床试验申报资料的形式.doc
文档评论(0)