文档自动分类技术及其在搜索引擎中应用的研究.docVIP

  • 2
  • 0
  • 约2.9万字
  • 约 22页
  • 2017-03-02 发布于河北
  • 举报

文档自动分类技术及其在搜索引擎中应用的研究.doc

文档自动分类技术及其在搜索引擎中应用的研究 论 文 摘 要 本文首先介绍了Internet的发展状况,指出Internet是一个庞大、杂乱、瞬息万变的信息源泉,仅仅依靠网页上的超文本链用户是无法方便、快捷地找到自己所需的信息的,提供WWW信息导航服务的搜索引擎是解决这个问题的一个途径。在介绍了传统的Spider式搜索引擎和基于人工分类的目录式搜索引擎的特点并对它们作了比较之后,指出支持分类目录是Spider式搜索引擎发展的趋势,而应用文档自动分类领域的研究对收集的网页自动分类,实现对分类目录的支持是一种可行的方法。然后,本文介绍了天网搜索引擎的现状,分析了它的特点,说明要进一步发展天网系统,应当采用文档自动分类技术支持分类目录。 接下来,本文介绍了文档自动分类的意义和算法的分类,然后分别介绍了m-ary分类系统和Independent Binary分类系统常用的算法和各个算法的特点,接着介绍了从m-ary分类系统转换到Binary Independent分类系统常用的三种算法以及这两种分类系统的性能评价指标,然后分析了特征项选取对分类系统的影响,介绍了常用的五种特征项选取的方法。 结合现有的天网搜索引擎,本文提出了天网系统支持分类目录的设计方案,详细介绍了自动分类系统的实现,说明了分类系统选用的分类算法的是KNN算法,选用的评价特征项重要性的指标是CHI统计量,选用的转换算法是

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档