面向主题中文搜索引擎设计.doc

下载文档 降价啦

1
0
约1.7万字
约 29页
2018-06-15 发布于福建
举报
版权申诉
保障服务

面向主题中文搜索引擎设计.doc

1、本文档共29页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

面向主题中文搜索引擎设计

摘要 WWW网络的迅猛增长使得搜索引擎面临了前所未有的挑战，搜索引擎如何适应这种规模的急剧膨胀，成为一个备受关注的问题。面向主题搜索引擎可以有选择性的抓取与主题相关的网页。选取的对象是一个或一组事先预定义的主题，其特征由样本网页标志，而不是关键词。一般性的搜索引擎总是抓取尽量多的网页以满足所有可能的查询请求；而主题搜索被设计为只抓取与选定主题相关的网页。这不仅能够大大减少系统对硬件和网络资源的需求，而且还有助于提高抓取的准确率和搜索结果的更新速度。本文首先对比通用搜索引擎与主题搜索引擎的区别，总结主题搜索引擎的优点；然后介绍目前世界上主题搜索引擎技术的发展状况。接着，综述了面向主题中文搜索引擎的设计，详细介绍涉及该领域的三个核心技术：文档分类技术、中文处理技术和网页搜集预测技术。对于以上三种技术，我们在简述已知算法的基础上，都阐述了具体系统的实现方案。其中中文切词问题作为工作的重点，在文章中有比较详尽的介绍，包括中文处理的背景知识，中文切词软件的基本原理和中文切词词典的改进。关键词：www、通用搜索引擎、面向主题搜索引擎、文档分类算法、网页搜集预测算法、中文切词目录摘要………………………………………………………………………………………………1 目录………………………………………………………………………………………………2 引言 ……………………………………………………………………………………3 面向主题中文搜索引擎的设计综述………………………………………………5 文档自动分类的主要算法和具体实现……………………………………………7 §3.1文档分类的主要算法………………………………………………………………8 §3.1.1 支持向量机（SVM）算法……………………………………………………8 §3.1.2 简单Bayes（NB）算法……………………………………………………8 §3.1.3 LLSF（Linear Least Squares Fit）算法……………………………………9 §3.1.4 KNN（K-Nearest Neighbors）算法…………………………………………9 §2.2 文档分类算法的实现………………………………………………………………10 §3.2.1 文档的向量表示……………………………………………………………10 §3.2.2特征集的选取……………………………………………………………11 §3.2.4 计算待分类文档与训练集的相似度………………………………………12 §3.2.5 判断待分类文档所属类别…………………………………………………12 中文信息处理问题…………………………………………………………………14 §4.1中文信息处理研究背景……………………………………………………………14 §4.1.1 中文信息的特点……………………………………………………………14 §4.1.2中文切词对系统的重要性…………………………………………………14 §4.2中文切词软件的基本原理…………………………………………………………15 §4.2.1 字典的格式和数据结构表示………………………………………………15 §4.2.2 具体切词过程………………………………………………………………18 §4.3 对中文切词软件的修改……………………………………………………………22 网页搜集预测算法设计……………………………………………………………23 §5.1超文本链的相关研究………………………………………………………………23 §5.2 网页搜集预测功能的设计…………………………………………………………24 工作总结和对未来的展望…………………………………………………………26 致谢参考文献第一章引言近年来，WWW的规模持续以令人惊叹的速度增长着。根据2000年4月在波士顿举行的第5届搜索引擎年会的会议报告[1]，当时全球的网页数量已经超过了十亿。根据Google搜索引擎的索引库中网页数量的统计，全球网页数量到2002年5月已经达到20亿。WWW在中国的发展速度也十分惊人。根据CNNIC(中国互联网络信息中心)[2]在2002年1月的统计信息表明，中国的WWW站点已有277100个，能上网计算机约有1254万台，比2001年1月的统计结果多出350万台，上网人数达到3370万，比2001年多了1100万。和网络规模的迅速膨胀形成鲜明的对比，尽管各个大型的通用搜索引擎都维护着庞大的索引，但是索引的规模增长远远不及网络本身。相对整个网络，他们仅能够覆盖一小部分。以Northern Light搜索引擎为例，在2001年，他们的索引库覆盖了大约0.33亿个网页。因此，一个搜索引擎的查全率，特别是