- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎问题分析及发展趋势研究
[摘 要]目前,互联网用户可使用的搜索引擎有很多种,为了提高搜索的效率和准确度,搜索引擎已从最早的目录主题型发展到检索型、元搜索引擎、分布式和智能搜索引擎。但搜索引擎依然存在着信息覆盖面不广、检全率偏低、检准率不高等问题,导致输出相关信息少、无用信息多。为了提高搜索引擎的使用效率,改进措施的关键是要提高检全率和检准率,提高系统规模和性能,开发专业化垂直型搜索引擎,以引导搜索引擎健康发展。
[关键词]搜索引擎;互联网;改进措施
[中图分类号]F062.[文献标识码]A [文章编号]1005-643249-0110-02
随着Web信息的迅速增加,搜索引擎技术逐渐发展起来,搜索引擎是一个对互联网上的信息资源进行搜集整理,然后供用户查询的系统。
1 搜索引擎的分类
搜索引擎的主要功能是对互联网上的信息进行搜索,主要是对海量信息的检索,检索功能的强大与否也就成为评价一个搜索引擎好坏的主要标准。搜索引擎的种类繁多,根据工作方式划分可以分为标准搜索引擎和目录搜索引擎。标准搜索引擎是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,是严格意义上的搜索引擎。目前人们所说的搜索引擎通常指的就是这类基于互联网robot的搜索引擎,通过收集互联网上几千万到几亿个网页以及对网页上的词进行识别,实现全文检索。标准搜索引擎的自动信息搜集功能一般通过两种方式实现:一种是定期搜索,即搜索引擎定期主动派出robot程序对一定地址范围内的网站进行检索,一旦发现更新或新的网站,就会自动提取网站的信息和网址加入核心数据库;另一种是提交网站搜索,由网站所有者主动向搜索引擎提交网址,然后搜索引擎在一定时间内专门向该网站派出robot程序,扫描并将有关信息存入数据库,以备用户查询。当用户使用搜索服务时,搜索引擎在数据库中匹配用户输入的关键词,如果找到与用户要求内容相符的网站,便采用特殊的算法计算出各网页的信息关联程度,比如,网页中关键词的匹配程度、出现的位置、频率等,然后根据关联程度高低,按顺序将这些网页链接制成索引返回给用户。主要代表有百度、谷歌。目录搜索引擎算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录即可找到需要的信息,更多时称作门户网站,主要提供基于网站目录的搜索服务,通过将网站分门别类地存放在相应的目录中,用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。通过关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站的。与标准的搜索引擎相比,目录索引不使用robot来自动进行搜索工作,而完全依赖手工操作完成。用户提交网站后,目录索引编辑人员会亲自浏览该网站,然后根据一套自定的评判标准及编辑人员的主观印象,决定是否接纳申请。主要代表是雅虎、新浪等。此外还有多元搜索引擎。多元搜索引擎又被称为搜索引擎之上的搜索引擎。它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作。这类搜索引擎的优点是返回结果的信息量更大、更全;缺点是不能够充分利用所使用搜索的功能,用户需要做更多的筛选。多元搜索引擎中的关键技术包括查询语句的转换、页面的解析技巧等,著名的多元搜索引擎有Dog-pile、Vivisimo等。
搜索引擎存在的问题
搜索引擎在给人们带来搜索便利的同时也存在许多问题。目前搜索引擎主要存在以下方面问题:
信息的覆盖面不广
搜索引擎的数据库规模和覆盖面都是极其有限的。美国科学期刊Nature的一篇报告中指出最大的搜索引擎也只能覆盖现在网页资源的16%。美国NEC研究所的两位博士的研究表明,现在的搜索引擎漏掉了大约84%的网页信息。
2.检全率偏低,检准率不高
据权威机构统计因特网上约有100多亿网页。而世界上目前搜索量最大的Google也只能搜索33亿网页,就是说再大的搜索引擎也不可能使检全率达到100%。而且据Excite统计只有不到1%的用户会看200条以后的结果,几乎100%的用户不会看超过1000条的结果,对于大多数用户来讲检全率是次要的,而检准率更具有意义。
2.输出的相关信息少,输出的无用信息多
目前主要的搜索引擎返回的相关结果其比率不足45%。当输入一个关键词后,在百度搜索的结果中总会有70%~80%的无用信息,有时是100%无用。原因是:关键词检索输出的结果相关度排序方式单一,不能根据用户需要来选择信息输出的排序方法;主题分类检索输出的往往只是网站,而不能快速准确地提供网页信息,用户登录到相关网站后又往往找不到所需要的信息无功而返;不论是关键词检索还是主题分类检索,信息输出的结果显示格式简单,不能向用户提供相关的更好的途径和信息;数据更新速
您可能关注的文档
- 抓好两学一做自查报告 _0.doc
- 抓实第一生产力开创科技工作新局面.doc
- 抓行为养成 重品德教育,为学生绿色生命奠基xx.doc
- 投资or赌博,90%的人都搞错的事情.doc
- 投资借款合同范本 _0.doc
- 投资是中国—巴拿马合作的优先领域.doc
- 投资电影的双翼.doc
- 投资者情绪研究.doc
- 抗战时期的德国军事顾问.doc
- 抢占制高点找准结合点.doc
- 《GB/T 46383.302-2025电气运输设备 第3-2部分:载物电气运输设备移动性能测试方法》.pdf
- GB/T 46383.302-2025电气运输设备 第3-2部分:载物电气运输设备移动性能测试方法.pdf
- 中国国家标准 GB/T 46383.302-2025电气运输设备 第3-2部分:载物电气运输设备移动性能测试方法.pdf
- 《GB/T 31270.7-2025化学农药环境安全评价试验准则 第7部分:生物富集试验》.pdf
- GB/T 31270.7-2025化学农药环境安全评价试验准则 第7部分:生物富集试验.pdf
- 《GB 5135.2-2025自动喷水灭火系统 第2部分:湿式报警阀、延迟器、水力警铃》.pdf
- GB/T 19412-2025蓄冷(热)空调系统的测试和评价方法.pdf
- 《GB/T 19412-2025蓄冷(热)空调系统的测试和评价方法》.pdf
- 中国国家标准 GB/T 19412-2025蓄冷(热)空调系统的测试和评价方法.pdf
- GB/T 46611-2025电光调制器用铌酸锂单晶薄膜.pdf
原创力文档


文档评论(0)