一种基于多视图的半监督特征选择和聚类算法.docxVIP

下载本文档

13
0
约 9页
2018-04-10 发布于天津
举报
版权申诉

一种基于多视图的半监督特征选择和聚类算法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于多视图的半监督特征选择和聚类算法.docx

基金项目：国家自然科学基金资助项目，中央高校基本科研业务费专项资金（WK0110000036）资助项目。一种基于多视图的半监督特征选择和聚类算法汪荆琪徐林莉 (中国科学技术大学计算机科学与技术学院合肥 230027) 摘要：高维数据中许多特征之间是互不相关或冗余的，这给传统的学习算法带来了巨大的挑战。为了解决该问题，特征选择应运而生，它是一种有效的降维方法。与此同时，许多实际问题中数据存在多个视图而且数据的标记难以获取，多视图学习和半监督学习成为机器学习中的热点问题。本文主要研究怎样从“部分标记”的多视图数据中选择最大相关最小冗余的特征子集，提出一种基于多视图的半监督特征选择方法。为了剔除冗余和无关的特征，探索蕴含于多视图数据中的互补信息以及每个视图中不同特征之间的冗余关系，并利用少量标记数据蕴含的信息协同未标记数据同时进行特征选择。实验结果验证了本算法能够获得很好的特征选择效果及聚类效果。关键词：多视图，半监督，特征选择，聚类中图分类号：TP181 文献标志码：A Semi-supervised Feature Selection and Clustering for Multi-view Data Jingqi Wang, Linli Xu (School of Computer Science and Technology, University of Science and Technology of China, Hefei, 230027) Abstract: Lots of features in high-dimensional data are redundant or irrelevant. They pose a challenge to learning tasks. To tackle this problem, the concept of feature selection has been introduced. Feature selection is one effective means to identify relevant features for dimension reduction. In the meantime, many problems in machine learning involve examples that are naturally comprised of multiple views and with a limited number of labels. Multi-view learning and semi-supervised learning become the hotspots in machine learning. In this paper, we investigate how to select relevant features with minimum redundancy from multi-view data with a limited number of labels, and propose a semi-supervised feature selection and clustering framework. To remove redundant and irrelevant features, we exploit relations among views and relations among features in each view, and use a limited number of labeled data to help feature selection. We systematically evaluate the proposed framework in multi-view datasets and the results demonstrate the effectiveness and potential of our method. Keywords: multi-view; semi-supervised; feature selection; clustering 引言在很多实际的应用领域，经常会遇到许多高维数据，如图像视频、Web文本和基因序列等。高维数据中许多特征之间是互不相关或冗余的，它们的存在给传统的学习算法带来了巨大的挑战。特征选择作为一种数据预处理技术，是处理大规模高维数据的一种有效方法。特征选择通常是指根据某种评估标准，从原始特征空间中选择一个最优或最有效的特征子集代替原始特征空间的过程。其目的