- 5
- 0
- 约6.67千字
- 约 4页
- 2018-08-18 发布于天津
- 举报
一种用于Web文本聚类的半监督学习方法
一种用于Web文本聚类的半监督学习方法*
王映龙1,2, 宋威 2, 杨炳儒 2, 徐章艳 2, 3
1(江西农业大学, 计算机与信息工程学院, 江西 南昌 330045)
2(北京科技大学, 信息工程学院,北京 100083)
3(广西师范大学 计算机系,广西 桂林541004)
摘要: 有监督学习所构建的分类器具有较高的精度,但需要提供足够的已标注的训练样本,其代价较高.与有监督学习相比,无监督学习仅需要未标注的样本,代价较低,但其精度往往不高.同时从已标记和未标记的样本中进行学习,即半监督较好地平衡了代价和精度,具有较好的应用前景.随着互联网信息的增长,Web 挖掘已经成为数据挖掘研究的热点之一.本文提出了一种用于Web文本聚类的、基于粗糙集和自组织神经网络的半监督学习方法.对代价较高的已标记文本,该方法首先使用粗糙集进行属性约简.即利用粗糙集方法在较小的已标记样本中去掉冗余属性.再利用约简后的属性去表示大量的未标记文本训练,并用这些文本去构建自组织神经网络.实验结果表明,该方法优于相关方法.
关键词: 半监督学习; Web文本聚类; 粗糙集; 自组织神经网络.
Semi-Supervised Learning for Web Text Clustering
WANG Ying-Long1,2, SONG Wei2,YANG Bing-Ru2,XU Zhang-Yan2, 3
1(School of Computer and Information Engineering, Jiangxi Agriculture University, Nanchang, Jiangxi 330045)
2(School of Information Engineering, University of Science and Technology Beijing, Beijing 100083)
3(Department of Computer, Guangxi Normal University, Guilin, Guangxi, 541004)
Abstract: Supervised learning algorithms usually require large amounts of training data to learn reasonably accurate classifiers, which leads to high cost. While unlabeled data is readily available in large quantities for unsupervised learning. Although low cost, the accuracy of unsupervised learning is also not high enough. Learning from both, labeled and unlabeled data, in a semi-supervised framework is a promising approach. In this paper, a semi-supervised learning method combining rough set and self-organizing maps (SOM) for Web text clustering is proposed. Rough set is used for reducing the irrelevant attributes of text representation on small set of labeled documents. And then using the set of reduced attributes got by rough set method, the SOM is employed for generating Web text clusters. Experimental results show the advantages of our approach to certain extent.
Keywords: Semi-Supervised Learning, Web Text Clustering, Rough Set, Self-Organizing Maps
1. 引言
在机器学习中,监督学习必须对所有的学习样本做类别标记,而对大量的学习样本做类别的标记是一项枯燥而费时的工作.而非监督学习是一种自动学习方式,并不需要对学习样本做类别标记,但在不提供监督信息的情况下,学习得到的模型不够精确.而半监督学习是介于两者之间的学习方式,即学习样本
您可能关注的文档
- APT攻击揭秘之特种木马技术实现pps.ppt
- Att4征集背景简介introBackground.doc
- AutoCAD三维实体教学初探.doc
- ARMCortexA应用处理器ApplicationProcessor.ppt
- CDPVP成都泵阀管道展邀请函.doc
- ASTMD665测试防锈性.doc
- CT医师上岗证试题附有答案.doc
- CMA新大纲中文P1模拟试题.pdf
- ATLAS承担的任务.ppt
- AutoCAD机械制图标准教程.ppt
- 2025年新外研版三年级上册英语同步教学课件.pptx
- 红十字会大讲堂管理制度.docx
- 技术奇点(Singularity)理论的科学基础、哲学思辨与未来社会构想 _2026年1月.docx
- 公共艺术项目在激活城市消极空间(如高架桥下、废弃铁轨)中的作用 _2026年1月.docx
- “双减”政策对校外培训行业转型及家庭教育投入变化的影响 _2026年1月.docx
- Z世代员工对职场“摸鱼文化”的态度成因与管理对策研究 _2026年1月.docx
- 跨文化团队管理中的沟通障碍、文化冲突与融合策略案例分析 _2026年1月.docx
- 共享经济平台将劳动者归类为“合作伙伴”的伦理与法律责任 _2026年1月.docx
- 大型国际展会(如进博会、CES)的绿色会展实践与可持续发展评估 _2026年1月.docx
- 地理标识产品(如阳澄湖大闸蟹)与产地旅游的融合发展研究 _2026年1月.docx
原创力文档

文档评论(0)