基于特征辨别能力和元信息的特征选择.pdfVIP

基于特征辨别能力和元信息的特征选择.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于特征辨别能力和元信息的特征选择.pdf

128 2012,48(7) cD聍妒“幼蚴P们略酬d铆,fc口咖w计算机工程与应用 基于特征辨别能力和元信息的特征选择 王兴,张文鹏 W:ANG Xing’ZHANGWrenp饥g 南阳师范学院软件学院,河南南阳47306l of No咖al Sch∞lSo脚眦,Nany锄gUniv粥咄N哪彻g,H%蛆473061,ChiIla WANG Xing’ZHANGwenpeng.Featlln-ekc伽nb矗s甜蚰蛔钿他曲缸gui幽曩bmty曩nd and neertngAppUc童tions.2012,48(7):128-131. in of魄t Abstr曩n:Featllre8electi伽is∞coftlIe f.eatIl托叭bset innu%ces托s11lts key曲epstext∞把gmizalj∞,the∞l∞teddi∞ctly is i曲伊 c如gori刎∞.1kfean鹏distmgIlishabil时b鹪ed伽word觑-quency柚ddo锄%t舐qlI锄cyp他s伽tcd.Me衄-info】衄ati∞is based∞meta-infolm撕∞is fbanmsel∞ti∞ sets锄d觚an曲uk∞ducti∞alg耐ⅡIm comlreh黜ive dIlccd幽rollgh pr;oVided.A memod m酬hod u∞sthe to∞Iect filtel。out∞mete眦sto isproposed.11”c咖prjeh锄siVefiI暑tly f.c咖坨distinguisha:bility featu∞雅d 佗dIl∞也e tD tbc雠 spa璐时offe姗sp∽鹤,and协%曲叩loysthe删ded砌hl把mdu枷onalgoritllmelilIlilla把mdI】m岫∞tllat wor由:text Key catcg(丽zanon;fcam坨∞l∞don;me纽-illf豳li∞;加llgllset;at廿ibu把托dⅦ嘶∞ 摘要:特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。在分析词频方法和文档频方法 不足的基础上提出了特征辨别能力,把元信息引入粗糙集并提出了一个基于元信息的属性约简算法给出了一个综合性特征选 择方法.该方法利用特征辨别能力进行特征初选以过滤摔一些词条来降低特征空间的稀疏性,使用所提属性约简算法消除冗 余,从而获得较具代表性的特征子集.实验结果表明:所提特征选择方法在一定程度上具有一定的优势. 关键词:文本分类:特征选择;元信息;粗糙集;属性约简 文献标识码:A DOI:10.3778/j.is蛐.1∞2.8331.2012.07.033文章编号:l002.833l(2012)07.0128—04中图分类号:TP301 由于空间向量模型简单、易理解,使得它成为文本分类中 征a和b的文档频相同。那么该方法认为这两个特征词的贡献 常用的文本表示模型。然而,文本转化成空间向量后其维数 是相同的,而忽略了它们在文档中出现的次数。但是,通常情 通常巨大,有时甚至多达数十万维,这必然造成文本分类计算 况是文档中仅出现次数较少的词是噪声词,这样就导致该方 开销的剧增、分类效率的低下【I】。因此。寻找—个有效的特征 法所选择的特征不具代表性。不过,文档频方法最大的优点 选择方法,以对文本特征向量做进一步净化处理,使之在保持 就是速度特别快,它的时间复杂度同文本规模成线性关系,非 原文含义的基础上,找出

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档