一种用于Web文本聚类的半监督学习方法.docVIP

  • 5
  • 0
  • 约6.67千字
  • 约 4页
  • 2018-08-18 发布于天津
  • 举报

一种用于Web文本聚类的半监督学习方法.doc

一种用于Web文本聚类的半监督学习方法

一种用于Web文本聚类的半监督学习方法* 王映龙1,2, 宋威 2, 杨炳儒 2, 徐章艳 2, 3 1(江西农业大学, 计算机与信息工程学院, 江西 南昌 330045) 2(北京科技大学, 信息工程学院,北京 100083) 3(广西师范大学 计算机系,广西 桂林541004) 摘要: 有监督学习所构建的分类器具有较高的精度,但需要提供足够的已标注的训练样本,其代价较高.与有监督学习相比,无监督学习仅需要未标注的样本,代价较低,但其精度往往不高.同时从已标记和未标记的样本中进行学习,即半监督较好地平衡了代价和精度,具有较好的应用前景.随着互联网信息的增长,Web 挖掘已经成为数据挖掘研究的热点之一.本文提出了一种用于Web文本聚类的、基于粗糙集和自组织神经网络的半监督学习方法.对代价较高的已标记文本,该方法首先使用粗糙集进行属性约简.即利用粗糙集方法在较小的已标记样本中去掉冗余属性.再利用约简后的属性去表示大量的未标记文本训练,并用这些文本去构建自组织神经网络.实验结果表明,该方法优于相关方法. 关键词: 半监督学习; Web文本聚类; 粗糙集; 自组织神经网络. Semi-Supervised Learning for Web Text Clustering WANG Ying-Long1,2, SONG Wei2,YANG Bing-Ru2,XU Zhang-Yan2, 3 1(School of Computer and Information Engineering, Jiangxi Agriculture University, Nanchang, Jiangxi 330045) 2(School of Information Engineering, University of Science and Technology Beijing, Beijing 100083) 3(Department of Computer, Guangxi Normal University, Guilin, Guangxi, 541004) Abstract: Supervised learning algorithms usually require large amounts of training data to learn reasonably accurate classifiers, which leads to high cost. While unlabeled data is readily available in large quantities for unsupervised learning. Although low cost, the accuracy of unsupervised learning is also not high enough. Learning from both, labeled and unlabeled data, in a semi-supervised framework is a promising approach. In this paper, a semi-supervised learning method combining rough set and self-organizing maps (SOM) for Web text clustering is proposed. Rough set is used for reducing the irrelevant attributes of text representation on small set of labeled documents. And then using the set of reduced attributes got by rough set method, the SOM is employed for generating Web text clusters. Experimental results show the advantages of our approach to certain extent. Keywords: Semi-Supervised Learning, Web Text Clustering, Rough Set, Self-Organizing Maps 1. 引言 在机器学习中,监督学习必须对所有的学习样本做类别标记,而对大量的学习样本做类别的标记是一项枯燥而费时的工作.而非监督学习是一种自动学习方式,并不需要对学习样本做类别标记,但在不提供监督信息的情况下,学习得到的模型不够精确.而半监督学习是介于两者之间的学习方式,即学习样本

文档评论(0)

1亿VIP精品文档

相关文档