决策树在文本分类中的应用.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树在文本分类中的应用.pdf

科技慵报开发与经济 SCI-TECHINFORMATIONDEVELOPMENTECONOMY 文章编号:1005-.-6033(2007)17--0197-02 决策树在文本分类中的应用 王 强 (山西电力职业技术学院,山西太原,030021) 摘要:介绍了文本分类的思想,探讨了通过决策树学习来对文本进行有效分类的过 程。 关键词:决策树;文本分类;信息增益原则 中图分类号:TPl83 文献标识码:A 信息技术的高速发展,将人们带人信息社会,随着信息管理技术的 个文档对象相同的权重值。当计算准确率的加权均值时,两种方法计算 应用,积累了大量的数据,对海量数据的自动分类和整理成为数据挖掘 出来的结果显然是不同的。个体平均法倾向于含有元素数目比较多的 的一个重要任务,其中文本(或网页)的分类显得越来越重要。针对文本 “大类别”,而总体平均法则反映了分类器在所有类别上的分类效果。 分类,本文所采用的决策树文本分类法有着结构清晰、易于理解的优点。 2决策树分类器构造方法 1文本分类的思想 2.1分类嚣 1.1文本分类概念和任务 分类通常被认为是把一组事物分成子集合,而子集合的成员相互之 文本分类(1.e缸Catcq舯rizadon)是指依据文本的内容,由计算机根据间比其他成员之间具有更大的“相似性”,而这一任务的实现是通过分类 某种自动分类算法,把文本判分为预先定义好的类别。文本分类是信息 模型来完成的,在对已有数据学习的基础上构造出一个分类函数或一个 存储和信息检索中的重要课题。互联网的飞速发展又给文本分类提供了 分类模型,即分类器。既可以用此模型分析已有的数据,也可以用它来 新的应用平台。网页分类是文本分类在网页文本集合上的应用,它在信 预测未来的数据。该函数或模型能够把数据库中的数据记录映射到给定 息过滤、基于个性化的信息服务等方面有着重要用途。网页自动分类具 类别中的某—个,从而可以应用于数据预测。构造分类器需要根据给定 有不需要人工干预、节省大量人力物力、更薪快、分类速度较快、精度较 训练样本数据集(训练集)作为输入。训练集由一组数据库记录或元组构 高、满足实际应用要求等优点。 成,每个记录是—个由有关字段值组成的特征向量,我们称这些字段为 文本分类系统的任务可简单定义为:给定分类体系后,根据文本内 容自动确定文本关联的类别。从数学的角度来看,文本分类是一个映射 训练集的类别标记。如(蜀,而,…,五;c),其中五表示字段值,c表示类 的过程,它将未标明类别的文本映射到现有类别中,该映射可以是一一 别。训练集是构造分类器的基础,另外还需要对分类器进行测试的测试 映射,也可以是一对多映射,因为通常一篇文本可以与多个类别相关。文 集。 本映射规则时,系统根据已知类别中若干样本的数据信息总结出分类的 2.2决策树学习算法 规律性,建立类别判别公式和判别规则。当遇到新文本时,根据总结出的 类别判别规则确定文本所属的类别。 发明用信息增益作为启发策略的ID3方法,从样本中学习构造专家系 1.2分类原理 一般来说,统计分类问题的形式化表述为:在特定训练集合中,每一 个实例都被赋予一个或多个模式类别,可以用数据表述模型表示。训练 方法。 数据集合中的每个数据以(茹,c)来表示,聋EP,其中P是数据的向量形 决策树可视为一棵树的预测模型,树的根节点是整个数据集合空 式,c是类别标记。对于文本分类问题,向量空间模型是算法中经常采用 间,每个分节点是一个分裂问题,它是对属性的测试,该测试将数据集合 的数据表达方式。也就是说,首先每一片文档都表述成词频的向量形式, 空间分割成两个或更多块,每个叶节点是带有作分类的数据分割。从决 然后定义算法的模型类别和具体训练过

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档