- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于中文多标签分类特征选择研究
基于中文多标签分类特征选择研究
【 摘 要 】 在中文多标签文本分类中,面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。文本提出的特征选择方法相比于现有最常用的特征选择算法,更注重删除稀疏特征、保留更有区分度、有利于分类的特征。
【 关键词 】 特征选择;多标签分类;中文信息处理
A Study of Feature Selection for Multi-Label Text Classification
Zhou Hao Li Xiang Liu Gong-shen
(School of Information Security Engineering, Shanghai Jiao Tong University Shanghai 200240)
【 Abstract 】 In the Chinese text classification area, the main problems are how to low the feature dimension of the text ,and how to maintain the accuracy even improve the precision.This paper has put forward a method featured as the Single-Label classification result weighting, adaptive threshold adjustment,related information noting.
【 Keywords 】 multi-label classification;feature selcetion;adaptive regression related information noting
1 引言
如今,寻找一种有效的特征选择方法,降低特征空间维数,提高分类精度和效率,是文本分类需要面对的重要问题。目前常用特征选择方法主要有文档频数DF、互信息MI、信息增益IG和CHI方法 ,期望交叉熵,文本证据权,优势率,基于词频覆盖度等。这些方法的基本思想都是对每一个特征在这里是中文词,计算某种统计度量值 ,然后设定一个阈值T,把度量值小于T的那些特征过滤掉,剩下的即认为是有效特征。
在文本分类中,特征在文档类中出现的频率越不均匀,即特征分布得越离散,往往特征对类别判定越重要,利用这一性质可以考查特征在分类中的重要程度。离散度通常可以用标准差或方差来计算,本文使用特征在文档类中的概率标准差对特征重要性进行定量描述,此特征概率标准差将作为特征的基本权重参与文本分类。
2 特征选择的工作基础
2.1 信息过滤
过滤无用信息指的是去除文本中的一些无意义的文字内容及缺省符号,将有意义的文本内容提取出来,以回车符作分隔符进行分隔。
2.2 汉语文本自动分词
文本的特征表示是文本分类面临的首要问题。
2.3 汉文粗降维
粗降维指的是训练文本经分词后首先经过去掉停用词的处理,即为去掉一些没有实际分类意义的高频词、稀有词。本文中采用了建立停用词表,通过词表法去掉高频词和稀有词。
2.4 特征选择
考虑一个特征(词条)对某类别的重要性时,该特征在该类中出现与不出现不应同等对待,该词条出现比不出现要重要。在正特征中,应该选择只在该类出现或者只在少数几个类别中出现的特征。具有强类别信息的特征应该不是高频词条。
3 特征选择方法
3.1 强类别纹理挖掘算法
强类别纹理指的是文本中的某些特征强烈代表了其属于某一类别,其覆盖了某各类中尽量多的文档数目;强类别纹理具有最强的区分类的能力。强类别纹理选择过程。
(1)去掉泛滥纹理:对于每个类号,观察C-W链表中的每个W,如果W出现在每个类号中,则去掉这个W。
(2)标记强纹理:对于C-W链中的每个W,如果出现在主类别的概率大于次类别概率Ω%,则标记为强纹理。
(3)特征迭代。
1)结束条件:对于每个类,被标记的强特征和所有D-W链的交集非空,则算法结束。
2)去掉任意X篇奇异文档:如果D-W链表与所在类的C-W交集为空,说明该文档无分类代表性,去除该文档。满足结束条件,则算法结束。在数据库中增加列:交际是否为空、是否被当作奇异文档或者增加了强特征。
选择奇异文档或增加强特征的顺序:概念的权重、doccount、classcount等。
3)根据任意Y篇文档增加强特征:从D-W和C-W交集为空的文档中提取新特征并加入到C-W中,同时标记为强类别纹理。满足结束条件,则算法结束。
您可能关注的文档
- 基于SPY++软件功能扩展研究.doc
- 基于SSH额度授信管理系统设计与实现.doc
- 基于STC89C52单片机红外遥控灯设计.doc
- 基于STM32和SD卡文件系统非特定人语音识别系统设计.doc
- 基于Struts框架网上购物系统设计与实现.doc
- 基于SWOT分析天津市农作物种业科技发展研究.doc
- 基于S函数Simulink与VC++网络通信研究.doc
- 基于TerraExplorerAPI三维数字校园设计与开发.doc
- 基于TM影像广西沿海红树林遥感识别研究.doc
- 基于trnH—PsbA序列部分苔藓植物亲缘关系分析.doc
- DB14T 3462-2025 井工煤矿人工智能视觉识别技术要求.pdf
- 专练01 七上《朝花夕拾》—2024年中考语文名著导读抢分练(全国通用)(原卷版).pdf
- 专题29 小说常考题+病句的10个“不放过”-2023年中考语文热点作文素材解读及运用.pdf
- 专题15 最新热点时评与写作角度解读+「人民日报」时评文章精选金句汇总-2023年中考语文热点作文素材解读及运用.pdf
- 专题12 九下《儒林外史》—2024年中考语文名著导读抢分练(解析版).pdf
- 专题28 思辨类话题名言金句+5篇关于经典人物的精彩时评+热点时评-2023年中考语文热点作文素材解读及运用.pdf
- 11 七下期中记叙文阅读训练-2022-2023学年七年级语文下册知识梳理与能力训练(部编版).pdf
- 04 人物传记阅读 -2022-2023学年七年级语文下册知识梳理与能力训练(部编版) .pdf
- 专题06 八上《红星照耀中国》—2024年中考语文名著导读抢分练(解析版).pdf
- 专练02 七上《西游记》—2024年中考语文名著导读抢分练(全国通用)(原卷版).pdf
文档评论(0)