垂直搜索引擎主要技术分析-软件工程专业论文.docxVIP

垂直搜索引擎主要技术分析-软件工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垂直搜索引擎主要技术分析-软件工程专业论文

第1章 绪论 1.1 研究背景 中国互联网信息中心在第 25 次中国互联网络发展状况统计报告中指出: 2009 年,搜索引擎的使用率为 73.3%,较 2008 年增加了 5.3 个百分点,超过了 即时通信成为网民使用互联网的第三大应用,目前搜索引擎用户规模达到 2.8 [1]亿人,年增长率为 38.6% [1] 。另外该中心在 2009 年 9 月份发布的 2009 年中国搜 索引擎用户行为研究报告中指出:依据搜索频率的高低对网民的搜索依赖度进行 分类,可将搜索用户分为:重度用户、中度用户、轻度用户。调查显示:有 29.5% 的用户属于搜索重度用户,50.6%属于搜索中度用户,19.9%属于搜索轻度用户 [2] 。由此可见,互联网用户对搜索引擎的依赖性已越来越高,对于大多数用户来说搜 。 索引擎已成为日常生活中必不可少的网络服务。搜索引擎应用能够如此快速的发 展主要是因为它解决了用户在浩瀚的互联网海量信息中快速定位信息的瓶颈问 题。但是互联网的信息量呈爆炸式增长,全球式搜索引擎收录的网页数从原来的 几千万页剧增到目前的几百亿页。随着互联网信息量的剧增,用户也越来越依赖 于搜索引擎,因此搜索服务也变得越来越火热。但是另一方面,由于通用搜索引 擎追求面面俱到,这使得它陷入时效性差,搜索结果多而杂的困境,从而已无法 满足特定用户的需求。 在这样的背景下垂直搜索引擎应运而生。垂直搜索引擎与通用搜索引擎最大 的区别在于垂直搜索引擎只专注某一领域的信息采集与检索,而不是试图检索互 联网中所有的信息。相对与通用搜索引擎而言,垂直搜索引擎具有更新周期短, 查询结果更专业,更精确的特点,因此垂直搜索引擎更能满足特定领域用户精细 查询的需求。由于自身的优势,垂直搜索引擎已成为新一代搜索引擎,即第三代 搜索引擎的发展趋势之一。从垂直搜索引擎的概念被提出以来,它便成为一个非 常热门的研究课题。根据我们能搜索到的文献便可推断出到目前为止国内外研究 人员已对垂直搜索引擎的相关技术做过大量的研究。 1.2 垂直搜索引擎研究现状 1.2.1 垂直搜索引擎的定义 垂直搜索引擎是针对通用搜索引擎的信息量大、查询结果不精确、深度不够 等缺点提出来的新的搜索引擎服务模式,针对某一特定领域、某一特定人群或某 一特定需求提供的有一定价值的信息和相关服务 [3] 。其特点就是“专、精、深”, 且具有行业色彩。与通用搜索引擎试图搜集整个互联网的信息并构建一个无序的 超级信息库不同,垂直搜索引擎的网络爬虫只在互联网中抓取与特定领域或主题 相关的网络信息,而抛弃领域外的所有其他信息。这就对垂直搜索引擎的网络爬 虫提出的更高的要求,它除了具备从互联网中抓取网页信息的功能之外还必须具 有分类的功能,从而达到判断所抓取的网页是否与主题相关的目的。垂直搜索引 擎与通用搜索引擎另一个关键点差别是,通用搜索引擎在下载网页后一般除了网 页净化和对网页正文做索引外并没有对网页做太多的处理,而由于用户对垂直搜 索引擎的查询效果提出了更高的要求,所以很多时候垂直搜索引擎需要对从互联 网抓取下来的网页做进一步的处理,例如 Web 结构化信息抽取。 1.2.2 当前国内外典型的垂直搜索引擎 NEC 研究院的 Citeseer 系统 CiteSeer 是 1997 年由 Steve Lawrence、Lee Giles 和 Kurt Bollacker 等 人于 NEC 研究院开发出来的科学文献搜索引擎,它主要专注于计算机和信息科学 领域的科技文献的搜集与检索。CiteSeer 是第一个使用 ACI(Autonomous Citation Indexing)技术的数据图书馆和搜索引擎,它主要是对 Web 中的研究 文章做索引  。[4] 。 Scirus 科技搜索引擎 Scirus 是 Internet 中最全面的科技搜索引擎。由于使用的是最新的搜索引 擎技术,Scirus 搜集了超过 3 亿 7 千万个与科学相关的网页,使得用户可以在 Web 上快速地定位科学、学术、技术和医学等信息。Scirus 由于在科学研究成果 的定位中取得巨大的成功,分别于 2001 年和 2002 年获得《搜索引擎观察》授予 。的“最佳专业搜索引擎”荣誉称号 。 [5] FlipDog 工作搜索引擎 FilpDog 是一个专注于职位信息和雇佣机会的垂直搜索引擎,它允许用户快 。速查找与工作相关的信息 。 [6] Berkeley 的 Focused Project 该系统由一个印度裔的科学家 S.Charkrabarti 带头研究开发,通过两个程 序来指导爬行器:一个是分类器,用来计算下载文档与预定主题的相关度;另一 个是程序净化器,用来确定那些指向很多相关资源的页面。 5 其他垂直搜索引擎 ZoomI

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档