C4.5算法在信息检索结果分类中的应用.docVIP

C4.5算法在信息检索结果分类中的应用.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
C4.5算法在信息检索结果分类中的应用   摘要:决策树是归纳学习和数据挖掘的重要方法,该文对c4.5算法、决策树的构建和剪枝进行了介绍,然后将C4.5算法应用于信息检索结果分类中,实现了检索结果的分层分类处理。   关键词:信息检索;决策树;C4.5算法   中图分类号:TP301文献标识码:A文章编号:1009-3044(2011)09-2126-03   C4.5 Algorithm in the Classification of Search Results   HUANG Wei   (Changsha Aeronautical Vocational and Technical College, Changsha 410014, China)   Abstract: Decision tree inductive learning and data mining is an important method. In this paper, c4.5 algorithm, decision tree construction and pruning were introduced. Then C4.5 algorithm is applied to the results of classification in information retrieval, search results to achieve a hierarchical classification.   Key words: information retrieval; decision tree; c4.5 algorithm   企业信息检索系统所给出的检索结果,可能会包含比较多的记录。这些记录在用户进行浏览时,是以分页的方式呈现给用户的,每当用户完成一页信息的查看后,通过相关的操作,可以将显示引导到后继的新的一页或之前的某一页。信息结果的分页呈现,一方面是便于用户浏览信息的需要,同时也是检索系统分层实现检索的外在体现。检索结果计算从综合的角度来说,主要完成以下几个大的方面的内容:首先是对关键字有关的相关指标的统计分析;其次是检索结果的挖掘分类;最后是检索结果的分页处理。   分类是数据挖掘中的一个重要课题,近年来,数据分类技术已经被有效地,广泛地应用于科学实验,商业决策等领域,引起了学术界的关注。现有的决策树分类算法主要有CLS、ID3、C4.5、CART、SLIQ、SPRINT等,本文选取的c4.5算法是用于构造决策树的经典算法之一。   1 决策树及C4.5算法   1.1 决策树   所谓决策树(Decision Tree)是一种决策过程的图形,?Q策过程中由许多不同的行动方案和许多不同发生状况(或事件) 相交配合而成,形同树状分析,故称决策树。决策树对杂乱的数据进行数据挖掘时,决策树分类方法采用自顶向下的递归方式,把一组无序的数据整理成类似于流程图的树结构。其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个树叶结点代表类或类分布。所以,从决策树的根到叶结点的一条路径对应着一条合取规则。   基于决策树的分类算法的一个最大的优点就是它在学习过程中不需要使用者了解很多的背景知识。要构造决策树模型,首先将数据集划分为训练集和测试集。在训练集中,根据每个属性的增益率,构造出最初的决策树模型。决策树建立好后,为消除决策树对测试数据分类时产生的“过度拟合”问题,将其进行剪枝,得到决策树决策规则。利用决策树方法进行数据挖掘,一般的步骤为:数据预处理,数据挖掘操作,剪枝和应用。   数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来做预测。建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。   1.2 C4.5算法   C4.5算法是众多决策树算法中比较成熟、应用比较广泛的一个经典算法,非常适合数据的增量挖掘。   (1) C4.5算法扩展   C4.5提出了最初ID3算法的一些扩展:   ① 建立决策树,通过评估增益或者增益率,能处理有未知属性值的训练集,对于一个属性仅仅考虑它被定义的那条的记录。增益率计算公式为:    GainRatio(D,T)=Gain(D,T)/SplitInfo(D,T) (1)   在这里,SplitInfo(D,T)是基于类属性值D的T分裂产生的信息。因此SplitInfo(D,T)是I(|T1|/|T|,|T2|/|T|,…,|Tm|/|T|)。在这里(T1,T2,…,Tm)是D值诱导的T分割。   ② 处理未知值的训练样本。C4.

您可能关注的文档

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档