基于tf i d f的文本特征选择方法.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于tf i d f的文本特征选择方法

数据库 数据仓库 数据挖掘 中文核心期刊 微‘计算机信息)(管控一体化)2006年第22卷第8-3期 文章编号:1008-0570(2006)08-3.-0024-03 基于TFIDF的文本特征选择方法 A TextFeatureSelectionMethodbasedonTFlDF (郑州大学)柴玉梅 王 字 Chai,YumeiW ang,Yu 摘要:本文在分析 比较几种用于文本分类 的特征 选择方法的基础上 ,提 出了一种基于术语频率和逆文档频率 的特征 选择方 法TDF。采用KNN和 NaiveBayes两种分类算法对该方法进行 了测试 。实验结果表 明,TDF方法较其他几种方法有较好 的分 类精度 。 关键词:文本分类;特征选择;术语频率;逆文档频率 中图分类号:TP391 文献标识码:A Almtract:Thispapercomparesseveralfeatureselection methodsintextcategorization, proposesanew featureselectionmethod based onterrafrequency andinversedocumentfrequency. WeevaluatetheeffectoffeatureselectionbyusingKNN and NaiveBayesclas— sifters.Experimentsshow thatthemethod Cna gainbettereffect. Keywords:textcategorization。featureselection,term frequency。inversedocumentfrequency TDF。实验结果表明了该方法 的有效性 。 1 引言 本文的组织如下:第二部分介绍基于 TFIDF的特 文本分类是数据挖掘领域中重要任务之一,其目标 征选择方法 ;第三部分介绍实验设置 ,包括分类器和 是对未知类别的文档进行 自动处理 .判别它们所属预定 实验数据 :第四部分给出相关实验结果及其分析 :第 义类别集中的一个或多个类别。随着各种电子形式的文 五部分总结全文。 本文档以指数级的速度增长 .有效的信息检索和过滤等 2 几种常见特征选择方法的分析 应用变得越来越重要和困难。文本分类是一个有效的解 决办法 .已成为一项具有实用价值的关键技术。 2.1文档频率 在文本分类 中主要采用 向量空间模fie/(VSM)来表 特征项 的文档频率是指在训练语料 中出现该特 示文本 ,即以向量 (∞ ,∞ .,∞ 来表示文本 ,其中 I)‘i为 征项的文档数。DF方法基于如下假设:DF值低于某个 第 i个特征项的权重 .一般选择文本信息的基本单位 。 阈值的特征项是低频词 ,它们不含或含有较少的类别 即文本中的词作为特征项。文本分类的最大困难之一 信息。将这样的特征项从原始特征空间中移除.能够 是特征空间的高维性 。寻求一种有效 的特征选择方 降低特征空间的维数,提高分类的精度。DF方法形式 法 。降低特征空间的维数,提高分类的效率和精度 ,成 简单 ,缺点也很 明显。低频词可能包含更多有用的信 为文本分类中需要首先面对 的重要问题。对文本特征 息,而高频词可能包含较少的信息。 进行特征子集选择的算法一般是构造一个评价函数 . 2.2信息增益 对特征集 中的所有特征进行分别评估 。然后对全部的 信息增益是信息论 中的一个重要概念 。它表示 了 特征按照其分值的大小进行排序.一般选取前N个最 某一个特征项的存在与否对类别预测的影响。定义为 佳特征作为结果。其中N是一个人为预定的整数。在 考虑某一特征项在文本中出现前后的信息熵之差。某 文本分类 中使用较多的特征选择方法包括

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档