第一“中国软件”大学生软件设计大赛比赛题目一:聚焦搜索引擎.docVIP

第一“中国软件”大学生软件设计大赛比赛题目一:聚焦搜索引擎.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一“中国软件”大学生软件设计大赛比赛题目一:聚焦搜索引擎

比赛题目一:聚焦搜索引擎2011-12-12 10:10:05?来源:?作者: 【大?中?小】 浏览:15820次 评论:0条?比赛题目一: ? ? 聚焦搜索引擎 ? ? 赛题简介:介绍整个赛题的思路和整体要求 ? 随着各种B2C、C2C、B2B的网站的成长和各种测评网站的建设。足不出户的网络购物已然成为大家生活中的一部分。但是随之而来想要从各种网站中找到最好、最划算的商品也非常困难。所以提供一个高质量的在线商品搜索平台无疑会为网络购物带来更好的未来。虽然用户可以通过Google、百度、Yahoo等通用搜索引擎,在海量的网络数据中取得一些信息。但是通用性搜索引擎也存在着一定的局限性,如:    不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的信息。    通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。   万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。 为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 ? 赛题业务场景:描述赛题相关的真实企业业务背景。从真实场景中,适当简化或者提炼出适合比赛的赛题场景 传统网络爬虫是一个通过网络,自动下载网页信息,并未搜索引擎提供信息来源的一个重要组成部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。在这个过程中对于URL的来源和内容不做强制性的要求,统一的提取关键字建立索引以备搜索引擎使用。 聚焦爬虫的特点从“聚焦”两字便可以体现,它的搜索和下载会只针对特定的信息和网站。需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。并会针对抓去的页面按照所需的信息进行分析、过滤,提取出有用的信息并建立相关索引。在后续的分析过程中得出的信息,将为后续的抓取过程给出反馈和指导。 针对目前各大网络购物平台的数据,提供一个聚焦于出售商品的网络爬虫无疑会为网络用户的购物行为带来更友好的搜索和对比。最终让用户能用最快的时间找到最合适的商品。 ? 功能性需求 对网络上的各种商品建立统一数据模型 能够针对目前各种购物平台和测评网站给出的复杂信息,建立一套适用于各种不同类型商品的数据模型。如,笔记本电脑存在属性:品牌、CPU主频、内存、硬盘、电源、屏幕尺寸、操作系统、显卡、电池类型、重量等;服装存在属性:品牌、款式、尺码、颜色、面料、风格、季节等。对比笔记本和服装可以看出,不同类型的商品的属性数量和含义都各不相同,且存在较大的差异。 考核标准:??? 建立统一的数据模型存储数据(必须完成):统一的数据模型是通过多张表能够描述各种类型商品的基本属性,而不需要针对每种商品建立不同的存储表。 模型的可扩展性(可选):可以方便的在模型中添加商品属性,而不需要大量重构表结构。 模型的存取性能(可选):在保证前两点的基础之上,提升该数据模型存取数据的速度。 对网页和数据的分析过滤 能够在指定的网页入口(如:、?)中通过爬虫按照1中建立的模型分析商品的有效信息(基本属性),并保存相应数据信息。如:淘宝网针对某个商品的描述,除了基本属性外还包括了一些详细描述、商家信息、成交记录、付款方式等。我们需要剔除除了商品信息以外的部分,做到准确分析。 考核标准: 可以自行设置网页入口(必须完成) 准确找到网页中的属性信息(必须完成):如:下图中只有红色部分的信息为有效的商品信息。而针对退货说明等对于商品信息的建立是不需要分析处理的。 ? ? 利用商家其他信息指定搜索策略(可选):如部分商家的信誉等级较高(皇冠)、商品出货量较大,则认为该商家的商品信息较为可信,提高该商家的所有商品信息的爬取等级,重点爬取。反之如果一个商家评价较差、且几乎没有更新、没有成交,则认为商家的商品信息可信度不高,降低该商家等级,遇到该商家的URL可以放弃。 针对网页分析结果和数据的展示 通过用户输入搜索关键字,可以展示用户所搜索的商品的相关信息。 考核标准: 根据关键字,搜索商品信息,提供商品展示界面(必须完成

文档评论(0)

yuerang3062 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档