抓取更多类手机游戏网页数据(CH2).pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
抓取更多类手机游戏网页数据(CH2).pdf

抓取更多类手机游戏网页数据 定义 demo_list_game_basic 主题时,我们选择了样本页面 /html/game/dongzuo/ ,我们继续研究这个网页的结构,我们看到两处分 类列表( 如图 1 A 和 B )。 分析以后,发现两个列表都导向相同的网页,但是网页的URL 不太一样(实际上是一样,A 使用网页URL 的路径名,从而访问缺省的index.html 页, 而 B 使用完整的URL 地址),选择 A 或者B 都可以,但是,为了保持与 demo_list_game_basic 一致,我们选用A 。 图 1 放大) 为其它类手机游戏列表定义网页数据抓取规则时可以采用一种快捷方式,如果其它类的手机 游戏列表页的网页结构与动作类的相同,快捷方式十分有效,如果不同,需要重新定义一个 符合目标类的信息结构。下面我们讲解怎样使用快捷方式。 用快捷方式定义其它类别的网页数据抓取规则 在 MetaStudio 的Schema List 工作台上,找到这个主题,并加载,待MetaStudio 下部的状态 条显示完成。将运动射击类的网页URL (/html/game/sheji/ )输入到 MetaStudio 的URL 输入栏,回车,待网页加载完成(状态条显示完成),点击菜单文件- 分析页面 ( 如图 2 ),如果网页结构完全与动作类的一致,中间不会弹出对话框说某某信息 属性无法定位,而是在最后弹出对话框说: 请检查 Theme Editor 和 Clue Editor 工作台上的主题名。也许需要重新命名 这是提示信息,表示分析成功,页面结构一致,demo_list_game_basic 主题的网页数据抓取 规则可以用来抓取其它类别的游戏列表信息。至此,需要做决策: • 运动射击类游戏列表的主题是否要与动作类一致? • 运动射击类游戏详细信息网页的抓取主题是否与动作类的一致? 图2 放大) 上面所述的提示框就是要操作员做这个决策。不同决策,可能产生 如图 3 所示 4 种不同的网 络爬虫路线图。 • 图3A,表示游戏列表页和游戏详细信息页都用一致的数据抓取主题 • 图3B,表示游戏列表页用不同的数据抓取主题,而游戏详细信息页使用相同的主题 • 图3C,表示游戏列表页用相同的数据抓取主题,而游戏详细信息页使用不同的主题 • 图3D,表示用不同的游戏抓取主题 图3 放大) 命名主题的 目的一方面是给定题网络爬虫规定路线图,另一方面是为了数据集成软件能够 区别处理抓取的网页数据。所以,原则上,不同语义的网页应该用不同的主题名,例 如, 采用图 3D 的方式。但是,语义的理解本身也是一个分类问题,如果不想区别对待动作类手 机游戏和射击类游戏,语义可以是“游戏”,那么就可以采用图 3A,此时,网页数据抓取 结果程序就不要试图区别对待手机动作类游戏还是射击类游戏。 一般来说,没有理由采用图 3B,一开始分开,后来又混合在一起,没有理由这样处理。图 3C 可以采用,当抓取列表数据时混在一起抓,因为只是为了抓取 后续主题的超链接,区别 对待意义不大,但是抓取手机游戏详细数据时区别对待,抓取结果处理程序可以按类别进行 不同处理,这是一种高级技巧,不一定总是成 行,要根据实际情况,看网页上是否有区别 标志,参见下一节。 我们不妨采用基本原则,每一类手机游戏用不同主题,即图3D 。进行下面的步骤 1. 在 Theme Editor 工作台上命名主题:demo_game_list_sheji 2. 在 Clue Editor 工作台上命名 Info 类线索 (用于

文档评论(0)

cnsg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档