- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
摘要
随着人工智能场景的不断落地,大数据驱动的深度学习网络通过训练可以让
人工智能快速占领市场并驱动行业应用。从互联网下载并用于深度学习的海量数
据样本绝大部分是未标注的,采用手工的方式标注这些样本是一项异常耗时耗力
且昂贵的工作。基于数据自表达的聚类作为无监督学习的关键技术,可以帮助人
们进行分簇集群,已在产品推荐、异常检测和文本分析等诸多领域具有非常广泛
的应用。目前,大多数研究都在寻找静态数据集的最佳集群划分,对增量情况下
动态数据集的聚类研究还比较少。然而,现实世界中的数据在持续发展,需要重
复整合数据并训练模型的聚类模式已无法满足存储资源受限及数据库频繁更改等
实际需求。因此,对动态数据集的研究是一项必须同时极具挑战性的工作。
为了解决动态数据集的聚类问题,本文从相关实际应用场景出发,分别围绕
数据以批次及单个形式增加的情况开展研究,目的是构建两个针对不同增量场景
的聚类框架并提高聚类结果的准确率。本文的相关工作现总结如下:
1.首先,本文对聚类的种类及算法的相关基础知识进行了介绍,并对基于数
据块和数据流的相关原理及技术发展历程进行重点介绍,最后就算法性能和效率
分析了对应的优缺点。
2.其次,在集群数已知的情况下,提出了基于内部信息挖掘的深度自适应批
增量聚类算法。该方法将聚类问题重构为二值分类问题,通过挖掘不同数据之间
和同一数据增强前后等的多种内部相关信息,并将表示学习和聚类结合在一起以
端到端的深度神经网络进行实现。最后,通过多组实验证明了所提出的算法能够
在数据以批次为单位逐渐增加的过程中实现集群中心的动态调整以及聚类准确率
的大幅度提升。
3.最后,在集群数未知且初始数据量为零的情况下,提出了基于单样本增量
的实时聚类方法。为了解决没有初始数据进行深度学习进而提取良好的深度表示
的问题,本文通过引入迁移学习技术,迁移与目标数据集相关且具有相对比较完
备的纯标注源域上训练好的深度网络模型并将其作为目标域的特征库,并在此基
础上采用改进的Single-Pass算法完成数据流的实时聚类。
关键词:增量聚类,实时聚类,迁移学习,卷积神经网络
I
ABSTRACT
ABSTRACT
Withthecontinuousimplementationofartificialintelligencescenarios,bigdata-
drivendeeplearningnetworkscanquicklyoccupythemarketanddriveindustryappli-
cationsthroughtrainingofbigdata-drivendeeplearningnetworks.Mostofthemassive
datasamplesdownloadedfromtheInternetandusedfordeeplearningareunlabeled,and
manuallylabelingthesesamplesisanextremelytime-consuming,labor-intensiveandex-
pensivetask.Asakeytechnologyofunsupervisedlearning,clusteringbasedondata
self-expressioncanhelppeopletoperformclustering,andhasbeenwidelyusedinmany
fieldssuchasproductrecommendation,anomalydetectionandtextanalysis.Atpresent,
moststudiesarelookingfortheoptimalclusteringofstaticdatasets,andtherearefew
studiesonclusteringofdynamicdatasetsunderincre
您可能关注的文档
最近下载
- 2024年深圳市红岭中学高一入学分班考试语文作文模拟题及范文分析.pdf VIP
- 沉降监测基准网设计及方案设计.docx VIP
- 信息化运维服务投标方案362页.doc VIP
- 汽(煤、柴)油加氢装置操作工(高级)考试题库(完整版).docx VIP
- 2025高中信息技术课标.docx
- 信息系统安全风险 课件 2023—2024学年 教科版(2019)高中信息技术必修2.pptx VIP
- 2025年九江水务面试题目及答案.doc VIP
- 2025年中国医用对讲系统主机市场调查研究报告.docx
- 综合能力测试.pdf VIP
- 2024年人教版四年级上册数学第五单元课后练习题(含答案和概念).docx VIP
文档评论(0)