抓取手机游戏网页内容(CH1).pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
抓取手机游戏网页内容(CH1).pdf

抓取手机游戏网页内容 也许受此手机游戏网站的动作游戏所吸引,想为自己做一个手机动作类游戏搜索引擎或者仅 仅是个简单的索引库,那么网页内容抓取软件工具包 MetaSeeker 就派上用场了,首先使用 工具包中的MetaStudio 工具定义抓取规则,从加载样本页面到生成游戏抓取规则,全部在 MetaStudio 图形化界面上操作,自动生成的内容抓取规则交给DataScraper ,后者爬行网站并 抓取网页内容。现在,我们要抓取这个网站上的动作类手机游戏列表,这是最简单的情形, 有下面几步: 操作步骤 运行 MetaStudio 运行 MetaStudio 加载样本页面 在 MetaStudio 的URL 地址输入框输入:/html/game/dongzuo/ ,回车后, 该页面作为样本页面被加载,MetaStudio 自动将网页内容的DOM 树显示出来, 如图 1 图 1(放大 命名主题 在 Theme Editor 工作台上命名主题,本例为:demo_game_list_basic 定义内容抓取规则 在 Bucket Editor 工作台上创建整理箱并定义内容抓取规则。此网页的游戏列表显示的有关游 戏的信息很少,实际上,该网页只是一个门户,用户在此找到喜欢的游戏后点击此游戏的超 链接进入详细的游戏页面。所以,从该网页上抓取内容的整理箱结构很简单,主要抓取游戏 名称和指向详细的游戏页面的超链接。 如图 2 图2 (放大) 怎样定义网页内容抓取规则在 MetaStudio 用户手册 中说明,图2 是执行了数据映射后的整理 箱结构,将 DOM 中的text 节点(编号 2392 )映射给name 信息属性;将@href 节点(编号 2391 )映射给game page 节点。至此,可以验证抓取结果了,点击 MAP 按钮,可以看到下 栏转换到 MAP 文件窗口,再点击右边的TestThis 按钮,即显示抓取结果(如图 2 )。 只抓取到一个游戏实例,显然不是我们的目的,怎样抓取列表中所有的游戏信息?这就是要 指导MetaStudio 计算出多实例重复规则。 MetaStudio 提供两种途径提取多实例: 1,FreeFormat 技术;2 ,样例复制品。前者在以后章节讲解,本网页上的FreeFormat 标志 很少,我们采用样例复制品方法。 样例复制品使用方法参见 MetaStudio 用户手册 , 图 3 显示映射完样例复制品后的界面,样例 复制品映射到容器节点game 上,右栏样例复制品管理栏中显示 DOM 节点号 2381 和 2393 作 为样例(都是HTML LI 元素)。验证抓取结果,看到整个列表都抓到了(图 3 )。 图3 (放大) 注意:从图2 可以看出,两个信息属性都设置了key 特性,如果要使用周期性提取的加速机 制,一个整理箱至少有一个信息属性设置key 特性,否则会报错。 定义下一层抓取线 抓取这个网页的主要目的是想进入每个游戏的详细信息页面,抓取详细内容,也就是说从当 前这个网页上抓取超链接,等网络爬虫下一轮调度时利用现在抓到 的超链接专门抓取游戏 详细信息,从图 2 可以看到,给信息属性 game page 制定特性时勾选了clue 和url ,表示要从 game page 信息属性中将超链接拿出来,作为下一层内容抓取的线索。 转到 Clue Editor 工作台,可以看到已经自动建立了一个Info 类的线索,它对应于game page 信息属性。同样我们要给他命名主题,起名为 demo_game_basic,不要与当前主题名相同, 因为分别表示不同的语义。 另外,这个列表页分页显示,所以,要指导网络爬虫翻页抓取,我们利用

文档评论(0)

cnsg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档