- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
半监督多视图学习在大数据分析中应用探讨
半监督多视图学习在大数据分析中应用探讨
中图分类号:TN929.1 文献标志码:A 文章编号:1009-6868 (2015) 05-0032-003
摘要:半监督多视图学习是机器学习领域一种极具潜力的大数据处理和分析方法,该方法能有效处理异构和半监督数据,并能方便地在线化和并行化,适合处理海量数据。该方法在大数据时代的应用前景值得研究人员和业界关注。指出未来需要通过引入其他领域新的研究技术和成果,不断丰富和完善半监督多视图学习的理论体系和算法设计,并在实验和实践中不断检验和探索。
关键词:半监督;多视图;大数据;并行化
Abstract:This paper introduces a promising machine-learning paradigm called semi-supervised multi-view learning. With this paradigm, information is extracted from heterogeneous and semi-supervised data sets. Lately, multi-view learning has been scaled up online and through parallelization to deal with emerging big data challenges. Due to its successful application in many research domains and the fact that it has been explored and used by leading companies, multi-view learning may have a future in the big-data era as a major data analytic technique. New research techniques should be introduced into this area to improve the theoretical system and algorithm design of semi-supervised multi-view learning.
Key words: semi-supervised; multi-view; big data; parallelization
机器学习已成为产业界大数据分析的主流工具。在2015年北京全球软件开发大会上,基于大数据的机器学习和数据挖掘专题讨论得到了业界广泛参与,如百度、搜狗、阿里巴巴、京东、美团、猿题库等著名企业参与了该专题的讨论。当前,机器学习在产业界的推广正处于白热化阶段。与此同时,如何结合大数据的特点,选择恰当的学习方法仍是值得探讨的问题。
从数据角度而言,大数据之“大”并不仅限于容量,也指数据类型多和收发速度快,三者统称为大数据的“3V”特征[1]。因此,若想迅速有效地处理和分析大数据,不仅需要从数据库和计算机体系结构等入手(如IBM的Hadoop,微软的大数据生态系统),更需选择合适的数据分析方法,才能充分挖掘海量数据中潜在的信息和价值。
除了3V,大数据普遍存在却鲜有讨论的另一特征是半监督性。在传统机器学习中,用于训练分类系统的数据大多是有监督的,即数据的实际分类已知。然而,许多应用问题如自然语言处理,大部分数据都不知道实际分类,这类数据称为无监督数据。如何有效利用无监督数据,使其帮助有监督数据一起训练分类系统,是半监督学习[2]研究的核心问题。随着大数据时代的到来,大量无监督数据将被采集,导致越来越多应用问题演变成大规模的半监督学习问题。
大规模半监督学习在学术界的探讨可追述到2005年Delalleau提出的高效无参归纳法[3]。在该论文中,作者提出将用于构造核矩阵的(无监督)数据集进行下采样,减小核矩阵大小,从而提高算法的存储和计算效率。在此思想基础上衍生出来的工作有很多,其中以大规模化基于核或基于图的半监督学习方法为主。除了数据下采样,也有研究员通过构造混合分布模型以减小参数估计的计算复杂度。此外,半监督学习的大规模化也可通过提高优化算法效率或并行程度来实现。
尽管有着近十年的研究历史,目前大部分的大规模半监督学习方法仍具有局限性。一方面,它们大都基于传统的单视图机器学习方法,忽略了大数据的异构性,容易导致信息丢失;另一方面,规模化算法的策略较为传统,如下采样或加速优化,无法有效满足大数据带来的新的挑战,如数据的在线化和分布化等。
文章结合大数据的特点介绍机器学习领域的一种新兴的半监督学习方法――多视图学习。它不仅在许多研
文档评论(0)