一种基于微格式的垂直搜索引擎实现方法.pdfVIP

一种基于微格式的垂直搜索引擎实现方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于微格式的垂直搜索引擎实现方法.pdf

第二十届伞围计算机信息管理学术研讨会 一种基于微格式的垂直搜索引擎实现方法 北京文献服务处梁珂 00036) (北京167信箱,1 【摘要】垂直搜索是针对特定领域、特定人群或特定需求提供的信息服务,是一种新兴发展起来 的搜索引擎,应用前景非常广阔。无论是搜索引擎巨头,还是各种专业站点,都开始或有意在此方 向发展。但由于互联网上信息的特点:海量、分布、结构与表现脱离等等,造成了垂直搜索的技术 壁垒。微格式是微内容的表现形式,由于它本身具有结构化、语义化的特点,将其应用在垂直搜索 引擎中,可大大降低数据采集、提取和加工等步骤的难度。本文基于这个想法,在介绍了垂直搜索 和微格式等相关概念的基础上,提出了一种利用微格式来实现垂直搜索的方法模型。 【关键词】垂直搜索,搜索引擎,信息过载,元数据,RSS,微内容,微格式 1什么是垂直搜索引擎 1.1搜索引擎现状 随着互联网的发展,信息量的几何级增长,搜索引擎已经成了上网冲浪必不可少的』=具。google、 yahoo以及百度(在中国范围内)等等搜索引擎巨头,主宰着互联网搜索市场,全球人多数网民都是 通过这儿人搜索引擎杏找自己所需的信息的。作为通用搜索引擎,它们为用户提供的都是横向的海 量信息搜索。用户通过输入关键词进行全文检索,使用起米方便灵活,但查询结果数以百万计,但 很难兼顾搜索的准确性与相关度的质量,对于内容外的搜索更是难以做到,如文章的引用量,新闻 的相关评论等等。随着网络服务的深入,传统的搜索引擎已经不能良好的服务于用户,搜索开始细 化,服务向多元化发展:个性化搜索、社会化搜索、个人门户、桌面搜索、手机平台搜索……,各 种特定搜索应运而生,垂直搜索就是其中之一。 1.2垂直搜索引擎定义 如果说通用搜索引擎是横向的,那么垂直搜索引擎就是纵向的。所谓垂直搜索,是针对某一特 定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。它是相对丁通用搜索 而言的,是搜索引擎的细分和延伸。它可以有效缩短搜索时间,提供更精准结果。垂直搜索是一种 高度专业化的搜索服务。 举个简单的例子:假如客户要查询从北京到上海的航班,如果使用通用搜索引擎,只能把“航 班”、“北京”、“上海”作为关键词进行组配来奄询,得到的结果也只是包含了这三个词的网页,这 其中不相干或错误的信息很多,而垂直搜索引擎能明白是在“航运”行业内,对“北京”、“上海” 地域的查询。不仅范围明确,并且还会把时间、地点、价格等相关信息分门别类,再返回给用户。 由丁垂直搜索的优越性,各大搜索公司都把它作为下一步的发展方向。Google提供的公司目录 查询、生活地图查询,Looksmart公司推出的汽车、城市、教育、健康、家庭生活、音乐、娱乐等搜 求职类的职搜,旅游类的“去那儿”等,都是基于垂直搜索的服务。垂直搜索行业发展得很快,相 信会在越来越多的领域内出现相关的垂直搜索服务。 394 第二十届全国计算机信息管理学术研讨会 1.3垂直搜索引擎特点 l、数据来源。垂直搜索引擎抓取的数据来源于因特网,比如相关的行业站点,或通用搜索引擎 的相关检索结果。它抓取的数据是分散的,后继的人工干预比较少,这使它有别于那些专有检索 系统。如清华的中国期刊全文数据库,图书馆的借阅系统,机场的航班查询系统等等。 2、结构化数据。垂直搜索引擎和通用搜索引擎的最大区别是对网页信息进行了结构化信息抽取, 也就是将网页的非结构化数据抽取成特定的结构化信息数据。比如,与上作相关的职位名称、公 司名称、公司地点等会被从网页中单独抽取出来。 3、语义检索。搜索不再是简单的文本比对,而是基于文本真实含义的理解。它的实现是建立在 结构化数据的基础上的。当用户输入“计算机”时,‘对于黄页搜索,他能理解是要找对“计算机” 的定义,而不是别的什么。垂直搜索引擎的目标是帮助用户解决问题,而不只是向通用搜索引擎 一样发现信息。 4、搜索主体相关。搜索不止关心网页上的数据,还关心内容外的信息,用户的信息。搜索以人 为本。俗话说物以类聚,人以群分,垂直搜索引擎定位于一个行业,服务于一群特定需求的

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档