层次文本分类中阻塞减少策略的研究.pdfVIP

  • 7
  • 0
  • 约 46页
  • 2017-07-03 发布于上海
  • 举报

层次文本分类中阻塞减少策略的研究.pdf

层次文本分类中阻塞减少策略的研究

摘要 电子信息的增睦使得人们无法快速地找到自己真正感兴趣的内容。为了更好的组织和管 理信息,研究者们引入了文本分类、特别是层次型文本分类技术。相对于层次型文本分类中 的爆发式,自顶而’r式层次分类能够更好的利用层次结构所提供的信息,然而此种层次分类 法也存在“阻塞”这一缺点:如果一个文本在某个正确的祖先类别上被拒绝,则其永远不可能 被分到正确的叶类别上。 由于阻塞会导致层次分类系统分类精度的降低,故阻塞减少策略在近年米得到了广泛的 关注和研究。本文在前人工作的基础上,着重对闽值降低类的阻塞减少策略进行了研究。 本文首先对文本分类和层次文本分类的基本概念和知识进行了归纳;分析了阻塞对层次 分类精度的影响;依据现有阻塞减少策略特点将其分为阈值降低类、累乘类和分类器组织类 三种类型,并分析比较了三类方法各自的优缺点:讨论了闽值降低法的同平面型分类中scut 策略的区别与联系。 在此基础上,本文从改变阈值降低法中使用的阈值策略,改用其它可调参数各选值较少 的闽值策略出发,提出了基于柱状搜索的阻塞减少策略,实验表明本方法在减少阻塞、增人 叶类别查全率的同时,仍然能够保持较高的查准率,而且整个系统的F,”测度也比较高;考 虑到其它分类器闽值确定厉分类器c。的阈值变化只影响其工作域类别分类效果的性质,提 出了基于预测的阻塞减

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档