文本层次分类中特征项权重算法的比较研究.pdfVIP

  • 5
  • 0
  • 约2.23万字
  • 约 3页
  • 2017-05-19 发布于北京
  • 举报

文本层次分类中特征项权重算法的比较研究.pdf

文本层次分类中特征项权重算法的比较研究.pdf

XÛ\居~X妇挺ttJ3劳怔]自眼噩自浩田tt~麦丽究 A Comparative Study on Feature 飞可eight Algorithm in Hierarchical Text Classifïcation 谭才是波 ( 111 东师范大学教育投*系 济南 250014) 摘 3哥 特征项权宦均计算万清Æ.品于向最空间模型的文本分亮中叫个核心问题,其对现乙牛、命类的放呆校看五注重 要的作用。目前,特担唱机重的计算幸语很多,但在层)t.分具耳境下哪种方培较好还没有定论c 以层次身具耳境为出 提点,对 TF. IDF 和基于纳视:苦的权贯才?且说行了比校研究,~!怡姑呆在明丁F. lllF 整体得分最高,能够对成本进行 较好地形式化在示、 关键诩 』毒攻击在 特.~项权宣 立点点示 向量空间模型 1辈革在直观的方法,如公式(2)所示。这种方法的4思想数4 特征段 文卒分3t?捎按照预先定立的主1Ilí3t?别,为文本集仓巾的每 文本中tfl 现次数鹅多,它就越蔑骥(5J 用频度作}J 权璋的特征 个文锁确定→个满别Lll ~谈到的曲你是把人们认为语义相 向量被称为频度[il]盘(h呵ucncy V凹归,) ,它通常作为文2非非r-驯 近的文本划分到同一个类别。文本分类的主要任卦是文牢的 形式化我示和构法51然赫α 文本的形式化司捷尔…卫星是文准俭 的婚…步。根饿颇皮I句簸,可以方愤地计算其他数自主仅敬仰 索、自动文摘和搜索引擎等信息检索领域关注的基础性问 W ~ t.f,. (2) .QL2) 0 绞典的文本形式化农活方法接向擞效闵模嫂, 12: ~1 恃梳 L 3 TF. lDF 型机激 TF. IDF ~挂文本处王强领域创JIl般广泛 项权重为核心算法,特征事权熏的H 算对文本分类的姓果起着 的权重计算方法,它最初用在信息检章中[$]Q 它是基于这祥的 交关重婆的作用。 假院对Iil:分文档盖章有意义的词谱应该f是那些在文档中出现领 特征项权重的计算方法通常自布尔国数、顽皮函数、TF 事足够高,同时出现该词i 苦的文愤足够少的词l. Q 该方法中有 lDF 函数和基于椭慨激的函数等方烛,前人大多埋在平凶分攘 三个重整概念1 的!i!闽中对这挂~11$或者某…种万株进行比较研究及改激,比 a ,将证明频事 TF(Term F队叩附刷y) *肯特征顶在文衍1:1 如熙商馨等川农具有 6 个类别的平Iiíl分类中对开;幢号函数、 出现的次数,特征项可以是学、询、铿焰,不同类别的文挡在某 TF. JflF 丽戴晴1 WIDF i面数游行实验陈较研究,很没有带虑然 7 页的出现锁取 1:有很大辈辈异。 E日此颇事1吉思J是文中分 搜特征 7 愤慨念的函数,告松等0] 只把 f1:. IDF 函数改进成了 TF

文档评论(0)

1亿VIP精品文档

相关文档