- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本聚类中的特征选择方法.pdf
第 29卷 第2期 吉首大学学报 (自然科学版) VD1.29 No.2
2008年 3月 J~naalofJishouUniversity(NaturalScienceEdition) Mar.2008
文章编号:1007—2985(2008)02—0039—03
文本聚类中的特征选择方法
龚 静 ,曾建一
(湖南环境生物职业技术学院信息技术系,湖南 衡阳 421005)
摘 要:介绍了3种用于文本聚类的特征选择方法:文档频度、单词权、单词熵.用一个中文文本语料库对这3种特征选
择方法进行了比较实验,实验结果表明在文本聚类中单词权的特征选择方法具有最好的选择结果.
关键词:特征选择;文本聚类;中文文本
中图分类号:TP301 文献标识码:A
文本聚类基于 “聚类假设”,相关文本之间的相似性 比无关文本之间的相似性更大.文本聚类是一种无指导的文本分
类 ,它将一个文本集分成若干称为簇(cluster)的子集,每个簇中的文本之间具有较大的相似性 ,而簇之间的文本具有较小的
相似性 .文本聚类在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价值 .特征选择是
用机器学习方法进行文本聚类的首要任务和关键 .进行或不进行特征选择对聚类时间、聚类准确性都有显著的差别,而且
聚类的算法和实现的复杂性随着模式空间维数的变大而迅速增加.因此,选择尽量少的特征表达出尽可能多的信息量,可
以减少聚类时间,也可提高聚类准确性 .
1 文本预处理
文本预处理是文本处理中最基本的过程.首先将文本按照一定的算法进行分词,经过分词,文档变成离散的、无序的词
条集合,然后对这样的词集进行下列预处理 .
(1)停用词过滤.停用词指的是那些对文本标识没有太大作用的单词.根据Zip定律 ]:在一个文本集中,任一词的频
率乘以自身的序号约等于常数 .这个定律表明中等频率的词汇其表现能力最强.因此,去掉在所有文档中都有很高出现频
率的词,如 “的”“地”“得”等;去掉稀有词,稀有词在中文文档中出现的次数都很少,如 “分爨”等.
(2)同义词归并.同义词现象指的是可以用多种不同的方式来描述同一个主题或者内容.同义词的存在使得文本聚类
具有相当高的时间复杂度,极大干扰了聚类学习算法的准确性 .因此,将同义词和近义词合并为相应的概念类 .
预处理后将文本内容数据转换为便于计算机处理的结构化数据的形式 .目前,在信息处理领域 ,向量空间模型是应用
较多且效果较好的表示方法之一 .最基本的思想就是用词袋法表示文本 ,即 (d)=(t,w 一;t,w∥-·;tm,W ),简记为 d
= d(W ,W ,…,W ).其中:t为 条项,可以为单词 ,也可以为词组;W 一般被定义为t在文本d中的权值 .
2 特征选择方法
文本数据的半结构化甚至于无结构化的特点 ,使得用词袋法表示待测文档集时,特征向量会达到几万维甚至于几十万
维.即使经过预处理,还会有很多高维数的特征向量留下 .高维的特征对聚类未必全是至关重要的、有益的.高维的特性可
能会大大增加聚类的时间而仅产生与小得多的特征子集相关的聚类结果.因此,在进行文本聚类中,特征选择显得至关重
要.但文本聚类因为缺乏类信息而无法使用有监督的特征选择算法,只能使用无监督的特征选择算法,所以在聚类上的特
* 收稿 日期:2007—09—02
基金项 目:湖南省教育厅科学研究项目(0713036)
作者简介:龚 静(1972一),女,湖南岳阳人,湖南环境生物职业技术学院信息技术系副教授 ,硕士,主要从事自然语
言处理研究.
占 大学学报(自然科学版) 第 29卷
征选择研究并不多 .常用于文本聚类的特征选择方法有3种:文档频数 (DocumentFrequency,DF)、单词权 (TermStrength,TS)
和单词熵 (Entropy.BasedFeatureRanking,EN).
2.1文档频数 (DF)
文档频数是最为简单的一种特征选择方法,它指的是在整个数据集中有多少个文本包含这个单词.文档频数有一个基
本的假设,那就是认为对一
您可能关注的文档
- 抄纸白水的封闭回用及采取的应对方法.pdf
- 把你的铸造厂建成世界一流的铸造厂_与你分享发达国家铸造厂的管理经验.pdf
- 把握控制要点追求高质量工程.pdf
- 抗冻蛋白的研究进展及其在食品工业中的应用.pdf
- 抗凝血酶效价测定法综合考察水蛭的提取工艺_胡瑞标.pdf
- 抗震设计中的钢应变时效脆性问题.pdf
- 抚顺石油特种设备管理.ppt
- 护理人员遭受医院工作场所暴力的现状及原因分析.pdf
- 抬柱梁设置附加吊筋分析_王明.pdf
- 担保业务流程质押操作流程.pdf
- 特殊教育行业师资培训质量保障体系研究报告[001].docx
- 5G商用深化推动下,2025年边缘计算行业发展趋势研究报告[001].docx
- 2023年广东省广州市番禺区东环街道招聘社区工作者真题含答案详解.docx
- 农村危房改造实施方案评估报告2025:农村住房市场调控策略.docx
- 2025年半导体行业智能化设备维护成本效益分析报告.docx
- 跨境电商推荐算法透明度优化技术路径与案例分析报告.docx
- Z世代美妆消费趋势与市场前景研究报告.docx
- 2025年社区老年大学远程教育平台建设可行性分析报告.docx
- 中职电商课程创新与虚拟仿真云实验的融合研究.pdf
- 金融行业2025年量子计算风险模拟技术进展与应用前景报告[001].docx
最近下载
- 肯尼亚建筑市场行业报告.pptx
- 浙江杭州余杭交通集团有限公司招聘笔试题库2023.pdf VIP
- 人工胆囊、人工胆囊设备和人工胆囊在胆囊手术中的应用.pdf VIP
- 重力与弹力高一上学期物理人教版2019必修第一册+.pptx VIP
- 胃癌的诊治现状与进展.pptx VIP
- 数控压装压力机 第2部分:技术条件.docx VIP
- 【课件】匀变速直线运动速度与时间的关系+课件-高一上学期物理人教版(2019)必修第一册.pptx VIP
- XX医院职能部门监管手术、麻醉授权管理督导、检查、总结、反馈及持续改进记录表.pdf VIP
- 电力调度数据网络接入技术规范及网络拓扑图.doc VIP
- ZZGA高频开关整流器使用说明书.doc
文档评论(0)