- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垂直搜索引擎主要技术分析-软件工程专业论文
第1章 绪论
1.1 研究背景
中国互联网信息中心在第 25 次中国互联网络发展状况统计报告中指出:
2009 年,搜索引擎的使用率为 73.3%,较 2008 年增加了 5.3 个百分点,超过了
即时通信成为网民使用互联网的第三大应用,目前搜索引擎用户规模达到 2.8
[1]亿人,年增长率为 38.6%
[1]
。另外该中心在 2009 年 9 月份发布的 2009 年中国搜
索引擎用户行为研究报告中指出:依据搜索频率的高低对网民的搜索依赖度进行
分类,可将搜索用户分为:重度用户、中度用户、轻度用户。调查显示:有 29.5%
的用户属于搜索重度用户,50.6%属于搜索中度用户,19.9%属于搜索轻度用户
[2]
。由此可见,互联网用户对搜索引擎的依赖性已越来越高,对于大多数用户来说搜
。
索引擎已成为日常生活中必不可少的网络服务。搜索引擎应用能够如此快速的发 展主要是因为它解决了用户在浩瀚的互联网海量信息中快速定位信息的瓶颈问 题。但是互联网的信息量呈爆炸式增长,全球式搜索引擎收录的网页数从原来的 几千万页剧增到目前的几百亿页。随着互联网信息量的剧增,用户也越来越依赖 于搜索引擎,因此搜索服务也变得越来越火热。但是另一方面,由于通用搜索引 擎追求面面俱到,这使得它陷入时效性差,搜索结果多而杂的困境,从而已无法 满足特定用户的需求。
在这样的背景下垂直搜索引擎应运而生。垂直搜索引擎与通用搜索引擎最大 的区别在于垂直搜索引擎只专注某一领域的信息采集与检索,而不是试图检索互 联网中所有的信息。相对与通用搜索引擎而言,垂直搜索引擎具有更新周期短, 查询结果更专业,更精确的特点,因此垂直搜索引擎更能满足特定领域用户精细 查询的需求。由于自身的优势,垂直搜索引擎已成为新一代搜索引擎,即第三代 搜索引擎的发展趋势之一。从垂直搜索引擎的概念被提出以来,它便成为一个非 常热门的研究课题。根据我们能搜索到的文献便可推断出到目前为止国内外研究 人员已对垂直搜索引擎的相关技术做过大量的研究。
1.2 垂直搜索引擎研究现状
1.2.1 垂直搜索引擎的定义 垂直搜索引擎是针对通用搜索引擎的信息量大、查询结果不精确、深度不够
等缺点提出来的新的搜索引擎服务模式,针对某一特定领域、某一特定人群或某
一特定需求提供的有一定价值的信息和相关服务
[3]
。其特点就是“专、精、深”,
且具有行业色彩。与通用搜索引擎试图搜集整个互联网的信息并构建一个无序的
超级信息库不同,垂直搜索引擎的网络爬虫只在互联网中抓取与特定领域或主题 相关的网络信息,而抛弃领域外的所有其他信息。这就对垂直搜索引擎的网络爬 虫提出的更高的要求,它除了具备从互联网中抓取网页信息的功能之外还必须具 有分类的功能,从而达到判断所抓取的网页是否与主题相关的目的。垂直搜索引 擎与通用搜索引擎另一个关键点差别是,通用搜索引擎在下载网页后一般除了网 页净化和对网页正文做索引外并没有对网页做太多的处理,而由于用户对垂直搜 索引擎的查询效果提出了更高的要求,所以很多时候垂直搜索引擎需要对从互联 网抓取下来的网页做进一步的处理,例如 Web 结构化信息抽取。
1.2.2 当前国内外典型的垂直搜索引擎
NEC 研究院的 Citeseer 系统
CiteSeer 是 1997 年由 Steve Lawrence、Lee Giles 和 Kurt Bollacker 等 人于 NEC 研究院开发出来的科学文献搜索引擎,它主要专注于计算机和信息科学 领域的科技文献的搜集与检索。CiteSeer 是第一个使用 ACI(Autonomous Citation Indexing)技术的数据图书馆和搜索引擎,它主要是对 Web 中的研究
文章做索引
。[4]
。
Scirus 科技搜索引擎
Scirus 是 Internet 中最全面的科技搜索引擎。由于使用的是最新的搜索引 擎技术,Scirus 搜集了超过 3 亿 7 千万个与科学相关的网页,使得用户可以在
Web 上快速地定位科学、学术、技术和医学等信息。Scirus 由于在科学研究成果
的定位中取得巨大的成功,分别于 2001 年和 2002 年获得《搜索引擎观察》授予
。的“最佳专业搜索引擎”荣誉称号
。
[5]
FlipDog 工作搜索引擎
FilpDog 是一个专注于职位信息和雇佣机会的垂直搜索引擎,它允许用户快
。速查找与工作相关的信息
。
[6]
Berkeley 的 Focused Project
该系统由一个印度裔的科学家 S.Charkrabarti 带头研究开发,通过两个程 序来指导爬行器:一个是分类器,用来计算下载文档与预定主题的相关度;另一 个是程序净化器,用来确定那些指向很多相关资源的页面。
5 其他垂直搜索引擎
ZoomI
您可能关注的文档
- 反模仿的说话人再确认的研究-电路与系统专业论文.docx
- 反求工程中复杂自由曲面协调设计及拓扑还原技术研究-机械制造及其自动化专业论文.docx
- 反求工程在摩托车覆盖件开发中的应用研究-车辆工程专业论文.docx
- 反洗钱与中国金融监管制度研究-世界经济专业论文.docx
- 反洗钱国际合作法律框架现状研究——基于FATF视角-国际法专业论文.docx
- 反求工程的NURBS曲面拼接与拟合技术研究-机械制造及其自动化专业论文.docx
- 反汇编与反编译作业全自动生成与批改系统设计与实现-信息安全专业论文.docx
- 反流轴型耳廓复合组织瓣在鼻翼缺损修复中的临床应用-外科学(烧伤整形)专业论文.docx
- 反渎视角下的非法证据排除规则研究-刑事诉讼法专业论文.docx
- 反浮选磷尾矿的综合利用-材料加工工程专业论文.docx
- 湖南省衡阳市第八中学2026届高三上学期第一次月考物理(原卷版).doc
- 浙江省普通高中尖峰联盟2026届高三上学期10月联考英语(原卷版).doc
- 四川省绵阳市南山中学实验学校2026届高三上学期10月月考英语(原卷版).doc
- 湖南省衡阳市第八中学2026届高三上学期第二次月考历史 Word版含解析.doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题09 功和机械能(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题10 内能及其利用(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题07 压强(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题01 机械运动(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题02 声现象(解析版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题02 声现象(原卷版).doc
最近下载
- 国家法定41种传染病大全(就诊科室、传播途径、病原体、检测方法等)及防护措施.doc VIP
- 2026届河南省青桐鸣大联考高三11月联考作文:“用一个字证明你不是机器人,你会选什么字”导写及范文.docx
- 公路工程试验检测机构等级评定基本条件要求及申请材料准备注意要点(每日一练).docx VIP
- 基于ZigBee的智能窗帘控制系统.doc VIP
- 入党志愿书(全电子版).pdf VIP
- 移动应用开发大学生职业生涯规划规划书.pptx VIP
- 江苏开放大学2023年秋《行政管理学050004》实践性环节2大作业参考答案.pdf VIP
- 2025最新幼儿园膳食委员会会议记录.docx VIP
- 小学科学教学评价中增值性评价策略研究与实践教学研究课题报告.docx
- 幼儿园膳食委员会会议记录.doc VIP
原创力文档


文档评论(0)