一种有指导的文本特征加权改进算法.pdfVIP

一种有指导的文本特征加权改进算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 38卷 第 8期 计 算 机 工 程 2012年 4月 、厂0l-38 No.8 ComputerEngineering April2012 · 人工智能及识别技术 · 文章编号:loo.3428(2012)0&__012-_03 文献标识码:A 中圈分类号;TP18 一 种有指导的文本特征加权改进算法 刘墙阳,陆 洋 (浙江工业大学计算机科学与技术学院,杭州 310023) 攮 要 :传统 tf.idf方法未利用分类数据的特性,无法反映词在各个类别之间的比例关系。为此,在分析有指导的文本特征加权方法 tf.ff 基础上,提出一种基于有指导的改进文本特征加权方法tfifidfo该改进方法结合 tf.idf和 tf.rf2种方法的特点,考虑词在总体文档及各类别 文档之间的关系,实现文本特征加权。实验结果表明,该方法的分类能力比tf.rf方法有明显提升。 关健词 :数据挖掘;文本分类;文本表示;特征加权 ;有指导方法;支持向量机 ImprovedSupervisedAlgorithm 0fTextFeatureW eighting LIU Duan-yang,LUYang (CollegeofComputerScienceandTechnology,Zh~iangUniversityofTechnology,Hangzhou310023,Chnia) [Abstract]Thetraditionaltf.idfalgorithmcannottakefulladvanatgeofhtecharacteristicsofdatasetforclassification,whichcannotreflecthte relationshipofhteterm among hteclasses.Onhtebasisofanalyzing htetf.rfwhich isasupervisedtextfatllreweighting mehtod.htispaper proposesanimprovedsupervisedalgorithm oftextfeatureweightingwhichiscalledtf.ridf.Thealgorithm combineshteadvanatgesoftwoideas, considerstherelationshipofhteterm inhtevariouscategoriesandinhteoveralldocuments,implementstextfea~reweighting.Experimentalresult showshtattheclassificationaccuracyoft~ridfincreasessignificantlyhigherthantEr~ [Keywordsldaatmninig;textcategorization;textrepresentation;featureweighting;supervisedmethod;SupportVectorMachine(SVM) DOI:10.39690.issn.1000-3428.2012.08.042 l 概述 了这一点。文献 5【】首先指出了t~idf方法的不足,在基于有 随着互联网应用的普及,网络中已存储了海量的文本信 指导的方法基础上,将信息增益结合tf.idf来改进文本特征加 息 ,人们迫切需要从文本中挖掘出有用的信息。文本挖掘是 权。文献[6】则考虑了词在正类和反类中的比例关系,认为只 指从大量文本数据中抽取事先未知的、可理解的、最终可用 要正类比反类占的比例越高,该词就越能代表正类,就具有 的信息或知识的过程。与信息检索、信息过滤、文本聚类一 越高的权值。 样 ,文本分类

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档