文档自动分类技术及其在搜引擎中应用的研究.doc

下载文档 降价啦

2
0
约2.91万字
约 37页
2018-06-22 发布于福建
举报
版权申诉
保障服务

文档自动分类技术及其在搜引擎中应用的研究.doc

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文档自动分类技术及其在搜引擎中应用的研究

论文摘要本文首先介绍了Internet的发展状况，指出Internet是一个庞大、杂乱、瞬息万变的信息源泉，仅仅依靠网页上的超文本链用户是无法方便、快捷地找到自己所需的信息的，提供WWW信息导航服务的搜索引擎是解决这个问题的一个途径。在介绍了传统的Spider式搜索引擎和基于人工分类的目录式搜索引擎的特点并对它们作了比较之后，指出支持分类目录是Spider式搜索引擎发展的趋势，而应用文档自动分类领域的研究对收集的网页自动分类，实现对分类目录的支持是一种可行的方法。然后，本文介绍了天网搜索引擎的现状，分析了它的特点，说明要进一步发展天网系统，应当采用文档自动分类技术支持分类目录。接下来，本文介绍了文档自动分类的意义和算法的分类，然后分别介绍了m-ary分类系统和Independent Binary分类系统常用的算法和各个算法的特点，接着介绍了从m-ary分类系统转换到Binary Independent分类系统常用的三种算法以及这两种分类系统的性能评价指标，然后分析了特征项选取对分类系统的影响，介绍了常用的五种特征项选取的方法。结合现有的天网搜索引擎，本文提出了天网系统支持分类目录的设计方案，详细介绍了自动分类系统的实现，说明了分类系统选用的分类算法的是KNN算法，选用的评价特征项重要性的指标是CHI统计量，选用的转换算法是Scut算法，然后讨论了自动分类系统在实现过程中遇到的问题以及解决的办法：1 使用两个文件描述分类目录，用Begin——End结构表示类之间的层次结构；2 通过限制文档向量最大分量的值显著地提高了系统分类的性能指标；3 使用稀疏矩阵在程序中表示文档向量，极大地缩短了分类响应时间，节省了占用的内存空间。在说明了分类系统使用的分类目录、训练集和测试集之后，本文给出了系统的测试数据。最后，本文详细介绍了将自动分类系统集成在现有的天网系统中的方法，讨论了对天网系统各个子系统的改造。关键词：文档自动分类、搜索引擎、KNN 目录目录 2 第一章课题研究背景 3 第二章文档自动分类的主要算法和性能评价 6 §2．1 文档自动分类的主要算法 6 §2．1．1 算法的分类 6 §2．1．2 文档的向量空间模型 7 §2．1．3 Independent Binary分类系统 8 §2．1．4 m-ary分类系统 10 §2．2 分类系统的性能评价 13 §2．2．1 m-ary分类系统的性能评价 13 §2．2．2 Independent Binary分类系统的性能评价 15 §2．3 特征项的选取 17 第三章自动分类系统的实现及其在天网系统中的应用 21 §3．1 支持分类目录的天网系统的设计 21 §3．2 自动分类系统的实现 22 §3．2．1 自动分类算法的选用 22 §3．2．2 对中文的支持 22 §3．2．3自动分类系统的实现 23 §3．2．4 自动分类系统的测试 27 §3．3 现有天网系统各子系统的改造 31 §3．3．1 收集分析子系统的改造 31 §3．3．2 WWW查询页面和查询处理程序的改造 32 第四章展望 33 参考书目 35 附录 36 第一章课题研究背景 Internet是一个由不同类型和规模的独立自主运行和管理的计算机网络组成的全球范围的计算机网络，它的前身是1969年美国国防部高级研究计划署组建的实验性网络ARPANET，随着计算机网络和通信技术的发展，各个国家和组织的网络的不断加入，Internet已成为一个规模巨大、自治性强、发展变化快、用户访问频繁的全球最大的国际互联网络，截至1996年7月，Internet已连接了134346个网络，入网的国家和地区超过150个，主机1228万台，用户人数以亿计。 Internet又是一个无穷无尽的信息源泉，它已深入到人们生产、生活的各个领域，向人们提供着巨大的并且还在不断增长的信息资源和服务，越来越多的公司、企业通过网页宣传自己，越来越多的科研机关和学校通过网页交流科研成果，越来越多的组织和个人拥有了自己的主页，越来越多的报刊、杂志加入了Internet的大家庭，足不出户而知天下事已不再是神话。据不完全统计，1996年Internet上的网页数已达到1900万，时至今日，这个数目决不会少于4亿。为了让用户能够在如此庞大、杂乱、瞬息万变的信息海洋中，方便、快捷地找到自己感兴趣的信息，而不是茫然不知所措，仅靠网页上的超文本链是远远不够的，提供WWW信息导航服务的搜索引擎（Search Engine）是解决这个问题的一个途径。传统的Spider式搜索引擎通过被称为Spider的程序自动地在网上循着超文本链递归地访问、收集WWW网页，分析页面的内容，生成索引和摘要，并向用户提供WWW查询页面，根据