web搜索结果聚类方法研究.docVIP

下载本文档

9
0
约8.32千字
约 13页
2017-09-25 发布于广西
举报
版权申诉

web搜索结果聚类方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

WEB搜索结果聚类方法研究摘要目前搜索引擎已成为互联网用户浏览Web信息的主要手段，但互联网用户对现有的搜索引擎的满意程度并不乐观。搜索引擎的主要缺陷表现在：查准率低，检索效率不高等。多数搜索弓l擎的检索功能单一，信息加工深度不够，这导致信息查询的查准率不高。并且其数据库多为非全文数据库，不能提供原文，复杂高级的精确检索方式明显不足，不易于处理多次检索和限定词检索。按分类目录浏览常常检索到很多无关的信息。主要问题是数据更新速度慢，查询响应时间长。由于网络资源的爆炸式增长和互联网用户需求的日益增加，多数搜索引擎的日处理检索请求量很可能是上亿的。如何处理如此繁重的任务并提高处理效率，是目前搜索引擎必须要考虑的问题。关键词：WEB；搜索引擎；聚类算法目录摘要 I 1 绪论 1 2认识搜索引擎 1 2.1搜索引擎发展史 1 2.2当前主流的搜索引擎 1 2.3搜索引擎分类 2 3 搜索引擎与聚类分析 3 3.1搜索引擎工作原理 3 3.1.1网页搜集 3 3.1.2网页处理 4 3.1.3查询服务 5 3.2文本聚类 5 3.2.1文本挖掘领域和信息检索 5 3.2.2中文分词 6 4 后缀树聚类算法的改进 6 4.1 STC算法 7 4.1.1后缀树的性质 7 4.1.2 STC算法步骤 7 4.1.3 STC算法的缺点 8 4.2改进后的算法STC.I 8 4.2.1预处理 8 4.2.2去除同义词、近义词 8 4.2.3确定合并基类 9 5 结论 9 参考文献 10 1 绪论随着全球网络化、信息化的高速发展，网络已经成为全球最大的资料库，Web已经成为人们获取信息的重要手段。Web上的数据正以每天新增数百万张页面的速度增长，页面数目已超过l万亿张。 2认识搜索引擎搜索引擎出现虽然只有10年左右的历史，但在web上已经有了确定不移的地位。据CNNIC统计，它已经成为继电子邮件之后的第二大Web应用。虽然它的基本工作原理已经相当稳定，但在其质量、性能和服务方式等方面的提高空间依然很大，研究成果层出不穷，是每年WWW学术年会的重要论题之一。 2．1搜索引擎发展史早在Web出现之前，互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP站点(anonymous ftp)，它们以计算机文件的形式存在，文字材料的编码通常是PostScript或者纯文本(那时还没有HTML)。为了便于人们在分散的FTP资源中找到所需的东西，1990年加拿大麦吉尔大学(University of McGill)计算机学院的师生开发了一个软件——Archie。它通过定期搜集并分析FTP系统中存在的文件名信息，提供查找分布在各个FTP主机中文件的服务。尽管所提供服务的信息资源对象(非HTML文件)和本文所讨论搜索引擎的信息资源对象(HTML网页)不一样，但基本工作方式是相同的(自动搜集分布在广域网上的信息，建立索引，提供检索服务)，因此人们公认Archie为现代搜索引擎的鼻祖。 2.2当前主流的搜索引擎 Google(http：//www．google．com)。四次荣获Search engine watch读者选举出的“最杰出搜索引擎”称号的Google作为在网络上搜索页面的首选是无愧于这个称号的。它基于搜集器的服务既保证了能够覆盖广泛的网页，同时在查询效果上也表现得极其优秀。 AllTheWeb(http：//www．alltheweb．com)。AllTheW曲作为一个优秀的基于搜集器的搜索引擎，AllTheWeb提供广泛的网络覆盖与显著的相关性。除了提供网页查询，AllTheWeb还提供新闻、图像、视频和音频的检索。AllTheWeb于1999年5月推出，先是由FAST运作；2003年4月Overture收购了AllTheW如；后来Yahoo买下了Overture，现在的AllTheW曲由Yahoo运作。 Baidu(http：//www．baidu．com)。百度于2000年推出，是目前在中国最成功的一个商业搜索引擎，主要提供中文信息检索，并且为门户站点提供搜索结果服务。搜索范围涵盖了中国内地、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。拥有的中文信息总量达到1亿2千万张网页以上，并且还在以每天几十万页的速度快速增长。 2.3搜索引擎分类据统计，各种各样的网络信息搜索工具已经有上千种。从不同的角度，其分类也各不相同。搜索引擎按其工作方式可以分为以下三类： (1)全文搜索引擎：全文搜索引擎是名副其实的搜索引擎，通过从互联网上提取的各个网站的信息建立数据库，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。具有代表性的全文搜索引擎有Go