web搜索结果聚类方法研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
WEB搜索结果聚类方法研究 摘 要 目前搜索引擎已成为互联网用户浏览Web信息的主要手段,但互联网用户对现有的搜索引擎的满意程度并不乐观。搜索引擎的主要缺陷表现在:查准率低,检索效率不高等。多数搜索弓l擎的检索功能单一,信息加工深度不够,这导致信息查询的查准率不高。并且其数据库多为非全文数据库,不能提供原文,复杂高级的精确检索方式明显不足,不易于处理多次检索和限定词检索。按分类目录浏览常常检索到很多无关的信息。主要问题是数据更新速度慢,查询响应时间长。由于网络资源的爆炸式增长和互联网用户需求的日益增加,多数搜索引擎的日处理检索请求量很可能是上亿的。如何处理如此繁重的任务并提高处理效率,是目前搜索引擎必须要考虑的问题。 关键词:WEB;搜索引擎;聚类算法 目 录 摘 要 I 1 绪论 1 2认识搜索引擎 1 2.1搜索引擎发展史 1 2.2当前主流的搜索引擎 1 2.3搜索引擎分类 2 3 搜索引擎与聚类分析 3 3.1搜索引擎工作原理 3 3.1.1网页搜集 3 3.1.2网页处理 4 3.1.3查询服务 5 3.2文本聚类 5 3.2.1文本挖掘领域和信息检索 5 3.2.2中文分词 6 4 后缀树聚类算法的改进 6 4.1 STC算法 7 4.1.1后缀树的性质 7 4.1.2 STC算法步骤 7 4.1.3 STC算法的缺点 8 4.2改进后的算法STC.I 8 4.2.1预处理 8 4.2.2去除同义词、近义词 8 4.2.3确定合并基类 9 5 结论 9 参考文献 10 1 绪论 随着全球网络化、信息化的高速发展,网络已经成为全球最大的资料库,Web已经成为人们获取信息的重要手段。Web上的数据正以每天新增数百万张页面的速度增长,页面数目已超过l万亿张。 2认识搜索引擎 搜索引擎出现虽然只有10年左右的历史,但在web上已经有了确定不移的地位。据CNNIC统计,它已经成为继电子邮件之后的第二大Web应用。虽然它的基本工作原理已经相当稳定,但在其质量、性能和服务方式等方面的提高空间依然很大,研究成果层出不穷,是每年WWW学术年会的重要论题之一。 2.1搜索引擎发展史 早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP站点(anonymous ftp),它们以计算机文件的形式存在,文字材料的编码通常是PostScript或者纯文本(那时还没有HTML)。为了便于人们在分散的FTP资源中找到所需的东西,1990年加拿大麦吉尔大学(University of McGill)计算机学院的师生开发了一个软件——Archie。 它通过定期搜集并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。尽管所提供服务的信息资源对象(非HTML文件)和本文所讨论搜索引擎的信息资源对象(HTML网页)不一样,但基本工作方式是相同的(自动搜集分布在广域网上的信息,建立索引,提供检索服务),因此人们公认Archie为现代搜索引擎的鼻祖。 2.2当前主流的搜索引擎 Google(http://www.google.com)。四次荣获Search engine watch读者选举出的“最杰出搜索引擎”称号的Google作为在网络上搜索页面的首选是无愧于这个称号的。它基于搜集器的服务既保证了能够覆盖广泛的网页,同时在查询效果上也表现得极其优秀。 AllTheWeb(http://www.alltheweb.com)。AllTheW曲作为一个优秀的基于搜集器的搜索引擎,AllTheWeb提供广泛的网络覆盖与显著的相关性。除了提供网页查询,AllTheWeb还提供新闻、图像、视频和音频的检索。AllTheWeb于1999年5月推出,先是由FAST运作;2003年4月Overture收购了AllTheW如;后来Yahoo买下了Overture,现在的AllTheW曲由Yahoo运作。 Baidu(http://www.baidu.com)。百度于2000年推出,是目前在中国最成功的一个商业搜索引擎,主要提供中文信息检索,并且为门户站点提供搜索结果服务。搜索范围涵盖了中国内地、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。拥有的中文信息总量达到1亿2千万张网页以上,并且还在以每天几十万页的速度快速增长。 2.3搜索引擎分类 据统计,各种各样的网络信息搜索工具已经有上千种。从不同的角度,其分类也各不相同。搜索引擎按其工作方式可以分为以下三类: (1)全文搜索引擎: 全文搜索引擎是名副其实的搜索引擎,通过从互联网上提取的各个网站的信息建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。具有代表性的全文搜索引擎有Go

文档评论(0)

企业资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档