- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中外主流搜索引擎查准率比较研究.doc
中外主流搜索引擎查准率比较研究
【摘要】万维网络信息查询有赖于搜索引擎。搜索引擎的查准率是衡量搜索引擎优越性的重要指标,事关信息检索的质量和效率。日前在线启用的国内外搜索引擎种类繁多,普及通用的主要有Goole,百度及中国搜索等,依据公认查准率标准,本文将对此三者具有代表性的搜索引擎的查准率加以比较和对照,并在此基础上尝试查找、分析影响查准率高于0.5的根本原因,并提出尝试性的解决方案。
【关键词】搜索引擎 信息检索 查准率随着计算机网络技术的不断发展,人们对信息需求也越来越高,为了方便人们共享网络信息资源,更有效地利用信息资源,搜索引擎应运而生,国内外出现了一大批著名的搜索引擎。它们都有各自的优缺点,本文通过查全率和个性化服务两方面的比较,对中外著名的搜索引擎进行分析,并对这些搜索引擎提出了一点自己的设想。
一、Goole,百度与中国搜索的查准率之比较
因特网拥有丰富的信息资源,其中以超文本标记语言存贮和传输的WWW(World Wide Web,即万维网)信息资源,因其方便迅速的浏览、一点即开的超链接和声音图像、视频等多媒体显示方式,成为网上信息资源的主流。在互联网发展初期,网站相对较少,信息查找比较容易。随着互联网的迅速发展,Interne资源的骤然增加,特别是web信息的迅速膨胀,使得检索新出现的网页变得越来t越困难,普通网络用户想找到所需的资料如同大海捞针,这时为满足大众信息检索需求的专业搜索引擎便应运而生。
(一)国内外搜索引擎回顾
搜索引擎技术1994年在美国出现,1995年开始进入大规模的商业化开发阶段。由于中西方语言文化的差异,中文搜索引擎的出现相对晚些,但在随后几年两岸三地的中文搜索引擎得到快速发展,涌现了许多著名的搜索引擎。在内地,北大天网1997年10月29日开始为Internet用户提供WEB信息导航服务,1998年2月搜狐成立,新浪1999年开始搜索服务,2000年百度创立,同年网易开始创搜索服务,2001年TOM的搜索服务及2002年8月慧聪搜索的成立等。2003年9月25日,慧聪搜索携手中国互联网新闻中心共同发起并成立了以搜索引擎应用为基础的联盟组织――中国搜索联盟,12月23日原慧聪搜索正式独立运作,成立了中国搜索。香港地区有1997年创立的添达香港搜索(www.ti mway.co m)以及2002年创立的巴辣香港(www.ba )等。台湾地区,1995年8月蕃薯(番薯,藩属)藤()开始繁体中文的搜索服务,成为世界上第一个开始启动中文搜索服务的搜索引擎;1998年1O月penfind(.tw)成立,同年4月开始提供繁体中文搜索服务等。国外著名的搜索引擎从1999年开始也相继开展中文搜索服务,如:Yahoo中国于1999年9月正式开通,2000年9月12日Google启动中文搜索服务,2004年6月21日雅虎在中国推出一搜Ill等。从第一个中文搜索引擎问世至今,互联网上有记录可查的中文搜索引擎有数百个,现已成为人们查找网络信息资源必不可少的工具。中文搜索引擎通常包括两种类型:一种是网页全文搜索引擎,另一种则是网站搜索引擎,前者由程序自动抓取网页进行分析并建立索引,后者由专业编辑人员进行人工分类和维护。它们各自满足不同的搜索需求,而且互为补充。
据此可见,顺应信息检索需求,1994年以来国内外搜索引擎相继涌现,在成就其数量优势的同时,也为其彼此间服务质量优势的角逐提供了平台。国外引擎以Goole为例,国内以百度和中国搜索为例,本文将就其各自的相对查准率进行下列比较。
(二)Google,百度和中国引擎查准率之比较
我们拿一些实例来具体比较一下国内的一些搜索引擎与国外的搜索引擎的区别在哪里,国外以Google为例,国内就拿百度和中国搜索来比较。
相对查准率是衡量搜索引擎的一个重要指标。有人在网上做过这样的测试,即,在这三大搜索引擎中输入同样的30条记录,然后观察它们所搜索出来的信息情况,其结果是这样的:
不管是国外的Google,还是国内的百度与中国搜索,有很多重复或无用的信息呈现,甚至前10条记录中都有这一现象发生。在搜索结果的前30条记录中,重复或无用的信息最多的是中国搜索(共110条)其次是百度(共101条),最少的是Google(共91条)。在前10条记录中重复或无用信息最多的是中国搜索(33条),Google与百度几乎相当;在11-20条记录中重复或无用信息最少的是Google(24条),百度与中国搜索相差无几。就出现在21-30条记录中的重复或无用信息量而言,三者完全相同,都是42条。并且在重复或无用信息中,有一定字面联系、但内容信息无用的链接占有相当的比例。其主要原因之一是搜索引擎采用全文检索,不能完全理解搜索
您可能关注的文档
- 中国东南沿海区域经济差异及经济增长因素分析.doc
- 中国养老地产面临的困境及对策建议.doc
- 中国农区现代化进程的经济学研究.doc
- 中国农村物流非生态困境探析.doc
- 中国动漫产业新浪潮探析.doc
- 中国古人类演化阶段的划分.doc
- 中国古代廉政文化的借鉴和启示.doc
- 中国古代诗词中的节日文化.doc
- 中国古典园林元素在现代园林中的应用与发展.doc
- 中国古典戏剧中的人性审美指向.doc
- 2024年广东省《一级注册建筑师之建筑设计》资格考试必刷100题通关秘籍题库加答案解析.docx
- 2024年职场_精选个人简历自我介绍集锦5篇 .pdf
- 小学数学六年级上册期末考试试卷(完整版)word版 .pdf
- 2024年幼儿园食品安全工作计划7篇 .pdf
- 2024年广东省《一级注册建筑师之建筑设计》考试完整题库及参考答案(达标题).docx
- 完整版五年级下学期期中质量检测数学试题(B卷) .pdf
- 2024年广东省濠江区《一级注册建筑师之建筑设计》考试必背100题王牌题库及答案1套.docx
- 2024年广东省斗门区《一级注册建筑师之建筑设计》考试真题题库(夺分金卷).docx
- 2024年甘肃省宁县《一级注册建筑师之建筑设计》资格考试必刷100题真题【达标题】.docx
- 2024年校园安全隐患排查总结范文6篇.docx
文档评论(0)