网站大量收购闲置独家精品文档,联系QQ:2885784924

酷比网购物比价系统.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
酷比网购物比价系统

酷比网购物比价系统 HowCool小组:郑爽、邴立东、关涛、崔尙卿 酷比网购物比价系统 一.题目背景 二.系统功能 三.分析设计 四.相关技术及问题的解决 五.查询过程 六.效果演示 七. 评估 八. 将来的工作 九.总结体会 一.题目背景 1.1 背景 1.2 酷比网的作用 1.3 酷比网的意义 1.1背景 随着电子商务的迅猛发展,喜欢网上购物的人越来越多。人们希望在网上购物能够经济实惠、方便有效。 有关电子商务的网站繁多,以至于用户在网上购物时面临着选择网站的问题,同一商品不同网站价格会差异很大,如果一个一个网站进行搜索又会比较麻烦。 如何使人们能够在网上购物时迅速有效地找到最廉价的商品呢?答案就是,酷比网 1.2酷比网的作用 酷比网可以根据用户指定的商品信息,比较各个大型购物网站(China-Pub、蔚蓝书屋、2688网店等)的价格,帮用户找到该商品最实惠的网站。用户在看到搜索结果之后,点击结果就会像搜索引擎一样被引导到信息原本所在的网站,在目标网站,可以看到更详细的信息。 1.3 酷比网的意义 酷比网的实现将会给用户带来极大的方便与实惠,为用户节省下不少时间与金钱。 增强各个电子商务网站的之间的竞争,促使一个更透明的价格体系的形成,并促使各商家的商品在网络上保持一定的廉价水平。从而,为广大用户带来了长远利益。 酷比网的实现有利于提升我国电子商务的竞争能力,促进我国电子商务的发展,有利于满足广大用户的需求 二.系统功能 目前以书籍信息为例,实现其价格比较,比较了蔚蓝书屋、China-pub、2688这三个网站的价格。在今后,我们将对系统进行进一步的完善与优化,实现多个物品多个网站的价格比较。 2.1 物品检索 1)简单搜索(已实现):输入想买的商品名称,返回匹配关键词的商品列表,选择某一商品,返回各网站的价格,并标记最便宜者,点选商品可直接进入商品所属的网站进行购物 2)高级搜索:可选择商品的名称、类型、价格范围、选择需要比较的购物网站、货源地址、选择用户在各网站的会员级别、送货方式等 3)再次搜索:在结果集中再次搜索(根据价格范围、类型进行简单搜索或高级搜索) 二.系统功能 2.2、酷比小车功能(已实现) : 可选择多件物品统一结算比价 2.3、会员功能: 1)可定制在各个购物网站的会员等级、需要比较的购物网站、货源地址、送货方式,以便于根据定制条件选择相符的最低价格物品 2)会员评价:可对某本书添加评论及星级评定 三.分析设计 3.1酷比网工作流程 3.2酷比网总体设计 3.3信息提取 3.1酷比网工作流程 3.2酷比网总体设计 3.3信息提取 3.3.1 网页抓取 1)URL获取 各网上书店的网站提供用户查书功能,我们就利用这一功能来获取可用于抓取网页的URL格式,通过页码的不同来获取不同的URL。蔚蓝书店的一个URL如:/Search/Search.aspx?orderStyle=1dir=bookindex=3q=%BB%FA%D0%B5%B9%A4%D2%B5%B3%F6%B0%E6%C9%E7page=1,其中参数q为出版社,参数page为页码。 2)网页抓取 在抓取网页的时候,不能开过多线程,因为如果线程开的过多,频繁地向同一个服务器发出请求,很可能被服务器当成网络攻击屏蔽掉,我们开了3线程。 3.3信息提取步骤 3.3.2 信息提取 因为我们向服务器发出的请求由服务器端程序来响应,响应网页格式是固定,通过分析网页的格式,找到需要的图书信息前后的特殊标记,进而通过字符串匹配方式,提取出我们要的图书信息。 每条图书信息包括9个条目:ISBN、书名、作者、出版社、原价、折扣价、书店名称、图书URL和封面URL。 四.相关技术及问题的解决 4.1 URL格式不可知 在我们试图获得“卓越”的URL格式时,发现该网站搜索结果翻页是通过java脚本实现的,不论翻倒第几页,都是同一个链接。这样就没有办法知道如何提交请求才能达到搜索结果翻页的效果。 我们想通过在商用搜索引擎中搜索“卓越”图书信息,来看看商用搜索引擎以何种链接格式来指向“卓越”图书信息信息列表中某一页的,结果我们找到“pageNow”这个参数。 四.相关技术及问题的解决 4.2 网页不可获取 在抓取过程中,遇到了网页信息不可抓取的情况,比如“当当”就不允许抓取其网站的图书信息。这些网站很可能对除了大规模商用搜索引擎的爬虫以外的进行了限制,这就没有任何办法了,除非联系其网站负责人,进行交涉。 4.3 信息提取方法不通用 在提取来自不同网站的信息时,必须分析各自网站网页的独有格式,因为来自不同网站的网页格式不同,所以提取所需信息的方法不能通用。 如果能和这些图书网站进行合作,直接获取规范

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档