- 5
- 0
- 约2.23万字
- 约 3页
- 2017-05-19 发布于北京
- 举报
文本层次分类中特征项权重算法的比较研究.pdf
XÛ\居~X妇挺ttJ3劳怔]自眼噩自浩田tt~麦丽究
A Comparative Study on Feature 飞可eight Algorithm in Hierarchical Text Classifïcation
谭才是波
( 111 东师范大学教育投*系 济南 250014)
摘 3哥 特征项权宦均计算万清Æ.品于向最空间模型的文本分亮中叫个核心问题,其对现乙牛、命类的放呆校看五注重
要的作用。目前,特担唱机重的计算幸语很多,但在层)t.分具耳境下哪种方培较好还没有定论c 以层次身具耳境为出
提点,对 TF. IDF 和基于纳视:苦的权贯才?且说行了比校研究,~!怡姑呆在明丁F. lllF 整体得分最高,能够对成本进行
较好地形式化在示、
关键诩 』毒攻击在 特.~项权宣 立点点示 向量空间模型
1辈革在直观的方法,如公式(2)所示。这种方法的4思想数4 特征段
文卒分3t?捎按照预先定立的主1Ilí3t?别,为文本集仓巾的每
文本中tfl 现次数鹅多,它就越蔑骥(5J 用频度作}J 权璋的特征
个文锁确定→个满别Lll ~谈到的曲你是把人们认为语义相
向量被称为频度[il]盘(h呵ucncy V凹归,) ,它通常作为文2非非r-驯
近的文本划分到同一个类别。文本分类的主要任卦是文牢的
形式化我示和构法51然赫α 文本的形式化司捷尔…卫星是文准俭 的婚…步。根饿颇皮I句簸,可以方愤地计算其他数自主仅敬仰
索、自动文摘和搜索引擎等信息检索领域关注的基础性问 W ~ t.f,. (2)
.QL2) 0 绞典的文本形式化农活方法接向擞效闵模嫂, 12: ~1 恃梳 L 3 TF. lDF 型机激 TF. IDF ~挂文本处王强领域创JIl般广泛
项权重为核心算法,特征事权熏的H 算对文本分类的姓果起着
的权重计算方法,它最初用在信息检章中[$]Q 它是基于这祥的
交关重婆的作用。
假院对Iil:分文档盖章有意义的词谱应该f是那些在文档中出现领
特征项权重的计算方法通常自布尔国数、顽皮函数、TF
事足够高,同时出现该词i 苦的文愤足够少的词l. Q 该方法中有
lDF 函数和基于椭慨激的函数等方烛,前人大多埋在平凶分攘
三个重整概念1
的!i!闽中对这挂~11$或者某…种万株进行比较研究及改激,比
a ,将证明频事 TF(Term F队叩附刷y) *肯特征顶在文衍1:1
如熙商馨等川农具有 6 个类别的平Iiíl分类中对开;幢号函数、
出现的次数,特征项可以是学、询、铿焰,不同类别的文挡在某
TF. JflF 丽戴晴1 WIDF i面数游行实验陈较研究,很没有带虑然
7
页的出现锁取
1:有很大辈辈异。 E日此颇事1吉思J是文中分
搜特征
7 愤慨念的函数,告松等0] 只把 f1:. IDF 函数改进成了 TF
您可能关注的文档
- b-度量空间中的一类平方型Φ-压缩映象的公共不动点定理.pdf
- TA2纯钛在热压缩过程中形变、再结晶与相变的交互作用.pdf
- WONCA 研究论文摘要汇编--严重精神疾病患者心血管疾病治疗的初级及二级保健间的数据关联研究.pdf
- 两种广义F-压缩映像相关的不动点定理.pdf
- 中国城市CO2排放数据集研究——基于中国高空间分辨率网格数据.pdf
- 刚性板间圆形不可压缩橡胶垫的载荷-压缩关系.pdf
- 压捆机压缩频率与压缩室三维应力关系的试验研究.pdf
- 基于2阶段同步的 GPGPU 线程块压缩调度方法.pdf
- 基于二维压缩感知和分层特征的图像检索算法.pdf
- 基于指数插值的浸没边界法在可压缩流模拟中的应用研究.pdf
原创力文档

文档评论(0)