微信公众平台信息爬取.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
微信公众平台信息爬取

微信公众号的信息获取分析 目录 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc467745217 1微信公众平台背景 PAGEREF _Toc467745217 \h 1 HYPERLINK \l _Toc467745218 2采集的方案及难点 PAGEREF _Toc467745218 \h 1 HYPERLINK \l _Toc467745219 2.1微信没有公开的搜索接口 PAGEREF _Toc467745219 \h 1 HYPERLINK \l _Toc467745220 2.2常规思路及问题 PAGEREF _Toc467745220 \h 1 HYPERLINK \l _Toc467745221 3国内研究现状 PAGEREF _Toc467745221 \h 2 HYPERLINK \l _Toc467745222 3.1提出的方案 PAGEREF _Toc467745222 \h 2 HYPERLINK \l _Toc467745223 3.1.1旧方案 PAGEREF _Toc467745223 \h 2 HYPERLINK \l _Toc467745224 3.1.2新方案 PAGEREF _Toc467745224 \h 3 HYPERLINK \l _Toc467745225 3.2成熟的分布式微信公众平台信息爬取 PAGEREF _Toc467745225 \h 4 HYPERLINK \l _Toc467745226 3.3公众号信息存储 PAGEREF _Toc467745226 \h 9 HYPERLINK \l _Toc467745227 3.4文章信息存储 PAGEREF _Toc467745227 \h 9 HYPERLINK \l _Toc467745228 4个人设想 PAGEREF _Toc467745228 \h 10 HYPERLINK \l _Toc467745229 5总结与展望 PAGEREF _Toc467745229 \h 12 1微信公众平台背景 微信是腾讯公司于 2011 年推出的移动社交平台,目前已累计超过 6亿的注册用户。而 2012 年推出的微信公众平台依托于微信的海量用户也迅速流行起来,目前该平台的注册公众号账号早已超过 800 万,累计发布了超过 2亿的文章。依托大量的移动端用户,微信公众平台推出服务号,订阅号和企业号,通过这三种账号达到消息推送,信息交流,信息互动的目的,且越来越多的企业和用户通过微信公众平台进行网络营销,网络信息化服务,网络宣传等, 微信公众平台已经成为了继微博和QQ之后新型网络平台,平台通过提供私密接口的方式让微信用户与服务端进行信息交流与互动,这大大节省了服务端企业对其服务产品的再包装和再推广的费用,再加上公众号内简单易操作的界面使大量的用户对其青睐有加。所以对微信公众平台的关键信息爬取,能够及时获取有价值的信息,为企业和个人提供信息指导,对企业和个人的决策做到参考作用。因此对微信公众平台的信息爬取的研究有重要意义。 2采集的方案及难点 2.1微信没有公开的搜索接口 由于微信尚未有公开的搜索接口供第三方的搜索引擎爬取,而且微信也未提供官方权威的微信公众号的导航网站或推荐服务,因此指望完成对所有微信公众号的爬取并不现实,只能对指定微信公众号的内容进行爬取。 2.2常规思路及问题 已知对所有公众号直接爬取占时不现实,那么对微信公众号的指定内容爬取主要分为如下一些步骤: 第一步就是获得需要爬取的微信公众号列表 微信公众号列表可以参考那些微信导航站的做法,人工维护维护行业精品微信号列表。当然也可以直接爬取那些微信导航站,但质量很差。好在真正高质量值得爬取微信公众号也就至多上万个。 第二部就是要获取每一个微信公众号的内容入口页面。 随便留意一下某个微信公众号,会发现每个微信公众号的“查看历史消息”中有此公众号已发布的所有微信内容,剩下的问题是怎样获取这个地址。 一般程序员的思路是通过抓包、反编译等手段来获取此入口地址。好消息是要获取此微信公众号的入口地址并不复杂,你会欣喜发现此入口地址是一个普通的网页。 坏消息是:当你多测试一下,你会发现如下问题: 1)、此入口地址并不是固定不变的,一天左右就会变化的,主要是里面的key值。因此指望通过人工手工抓包一劳永逸地获取的地址并无太多实用价值 2)、此入口页面对未关注的用户只能看第一页,需要关注后才能看后续页面,要获取后续页面,只能关注此账号,但要人工关注上万个来自更多账号的关注并不现实 3)、微信对一个账号关注的公众号数是有上限限制的 应对此难题最一劳永逸的方案当然是反编译代码,获取微信的通信协议,

文档评论(0)

celkhn0303 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档