- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文搜索引擎发展瓶颈及对策研究.doc
中文搜索引擎发展瓶颈及对策研究
摘 要:中文搜索引擎的出现,提高了我们检索信息的速度。但是,现在它的发展还并不健全,存在着不少的问题。本文通过阐述中文搜索引擎发展现状,进而分析如何解决这些瓶颈的对策。
关键词:搜索引擎 查准率 查全率
中图分类号:TP3 文献标识码:A 文章编号:1672-3791(2012)12(c)-0022-01
搜索引擎在国外发展的较早,比较著名的有:Google,Yahoo,Excit,Lycos等。其中根据ComScore公司近两年的统计,全球近75%的网民使用过谷歌搜索引擎或其提供的各种衍生服务。而我国主要从1997年开始发展面向中文信息检索的中文搜索引擎。到现在,国内搜索行业已被百度所统领。
虽然搜索引擎的出现确实为人们在网上查找信息提供了强有力的手段和有效的工具,但是目前,属于某个领域的各种中文搜索引擎的数量越来越多,从而使搜索引擎产生了一定的局限性。并且在信息维护、网络站点负载,管理及服务等方面暴露了一些问题与不足。
1 搜索效率
搜索引擎的两个主要指标是查准率(precision)和查全率(recall)。查准率从一个方面描述了搜索引擎系统的查询开销。如果某次查询的查准率是85%,则15%的文献是不相关文献,但用户浏览其中的内容以确定它们是否包含所需信息。对于实际系统,索引速度和检索速度也是重要指标。事实上,在测试中,绝大多数系统的平均查准率都在0.1~0.5之间,最好的测试结果平均查准率也不到0.6。根据直观估计当前Internet上的著名搜索引擎,如yahoo,google等,它们的平均查准率小于0.2。这说明搜索引擎系统的性能还有很大的提高空间,但提高系统性能是非常困难的。
2 站点和网络负载
这也是目前网络搜索引擎存在的最大问题。网络搜索机器人快速地读取文档,必然会导致了大量的网络流量和站点负载,传输大量的数据时,某些站点很有可能会因为机器人要读取文档而一直处于繁忙状态。机器人所造成的负载很大程度上是由于机器人为了对相应数据建立索引,需要读取整个文档造成的。另外,当机器人沿链接作深度优先搜索时,WEB服务器的负载往往也很重。
3 搜索引擎间的数据重复
常用的搜索引擎很少能够与其它的搜索引擎共享它们的数据。其结果就是多个搜索引擎检索相同的资源和文档,多个机器人搜索访问同样的WEB站点,无疑带来了不必要的网络和服务器负载。当用户使用多个搜索引擎寻找信息时,也给用户造成不必要的麻烦。
4 链接和数据的易变性
这是搜索引擎所面临的一个重要问题。对搜索引擎的影响是,索引数据库存储的文档和链接信息很有可能已经改变了位置或己经被删除。当用户查询某些信息时,搜索引擎给出文档和链接的列表,而当用户试图沿着链接到远程站点访问这些信息时,他们也许会收到这样的出错信息,“没有找到服务器”。
5 缺乏统一的规划、协调与合作
目前国内搜索行业百度已是一方霸主。然而,搜狗也在推出搜索引擎开放平台,中搜更是强力打造自己的第三代搜索引擎,包括一淘网、网易有道等垂直搜索也渐成“气候”。搜索是互联网产品中的高科技产品,企业间的竞争不应局限于与同业者的横向竞争,更应该在自身的技术深度上勤加耕耘。同时相互协作,取长补短,为用户提供更好的搜索产品和体验。
6 网络知识产权立法落后
我国对网络中的侵权行为,没有成型的法律进行规定。目前大多采用《著作权法》的相关规定来解决,但是在网络环境下,知识产权的客体得到了拓展,网络知识产权侵权的类型也呈现多样化。因此传统的著作权法有着其局限性,为适应网络知识产权保护范围扩大化的要求,必须揭示和分析存在的问题并加强和完善保护措施,以保证权利人的权益得到切实的保护。
针对中文搜索引擎存在的种种问题,结合国外搜索引擎发展过程中的经验,笔者认为中文搜索引擎可采取以下对策。
(1)建立垂直化、专业化搜索引擎。
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式。
它是针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。可以简单的说成是搜索引擎领域的行业化分工。市场需求多元化决定了搜索引擎的服务模式必将出现细分,针对不同行业提供更加精确的行业服务模式。通用搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,势必将出现垂直搜索引擎在互联网中占据部分市场的趋势,也是搜索引擎行业细分化的必然趋势。
(2)建立搜索引擎协调机制,制定网站的有关标准。
随着中文搜索引擎的日益增多,各类搜索引擎开发与资源建设的重复现象也越来越严重。因此,建立统一的机构,协调各搜索引擎网站之间的开发设计与资源建
您可能关注的文档
最近下载
- 第8课 隋唐政治演变与民族交融-【中职专用】《中国历史》魅力课堂教学课件(高教版2023•基础模块).pptx VIP
- 人力资源管理开题(课题背景研究目的与意义【最新】.docx VIP
- 《生产调度与控制实务》课件.ppt VIP
- 2025水电工程信息分类与编码第4部分:水工建筑物.docx
- PMP项目管理培训课件项目.pptx VIP
- xx公司集团中铁工程部内部管理制度.doc VIP
- 2025年汽车驾驶员技师资格证书考试及考试题库含答案.docx
- 盐酸普鲁卡因工艺说明书8.pdf VIP
- 外研版小学三年级的英语第一单元试题.doc VIP
- 经济学原理(第8版)微观经济学曼昆课后习题答案解析.pdf
文档评论(0)