一种基于网络爬虫技术的价格指数编制模型.PDF

一种基于网络爬虫技术的价格指数编制模型.PDF

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于网络爬虫技术的价格指数编制模型

一种基于网络爬虫技术的价格指数编制模型 国家统计局城市社会经济调查司 孙易冰、刘洪波、赵子东 摘 要 近年来,大数据技术在信息技术领域获得了巨大成功的同 时,也给传统统计学带来了冲击。本文结合实际,参照CPI 指数 编制模型,提出了一种基于网络爬虫技术的价格指数编制模型, 并进行了实证分析。通过与官方数据对比,计算结果较为合理, 证明了该种计算模型的可行性。 关键词:大数据 网络爬虫 价格指数 中国电子商务研究中心发布的报告显示,2013 年中国网络 零售市场交易规模达1.85 万亿元,占社会消费品零售总额的8%。 2013 年10 月份我国社会消费品日均零售额为693 亿元,阿里巴 巴一家在“11.11”促销活动中交易额突破 350 亿。火爆的网络 销售给零售业带来冲击的同时,也给价格统计部门带来了挑战, 如何利用大数据完善价格指数编制工作。 一、相关背景 当前,国外学术界和电商都在参照居民消费价格指数(以下 简称CPI )编制方法,积极开展大数据条件下的网络价格指数计 算。基于不同的数据获取方式,有以下两种方式: 1 (一)使用内部数据计算价格指数 2008 年,阿里巴巴公司推出阿里巴巴网购核心商品价格指 数 (aSPI-core )。原始数据基于淘宝网、天猫网、支付宝等网络 平台,权重基于淘宝网支付宝成交金额的比重,分成11 个大类, 且每年调整一次。由于网络销售中有大量批发业务,所以该指数 并不是纯正的消费者物价指数,而是一个结合了批发、零售、消 费等多种市场行为的综合类价格指数。 图1 阿里巴巴的aSPI-core (二)使用外部数据计算价格指数 麻省理工学院开发的十亿价格项目 (Billion Price Project,以下简称 BPP )是通过爬虫技术计算价格指数的成功 典范。该项目每天从网上抓取50 万笔商品价格信息,计算出20 多个国家的“每日网上价格指数(Daily Online Price Index )”, 反映月度和年度通货膨胀程度。下图为美国网络价格指数与官方 CPI 的曲线图。可以清晰地看到和美国官方CPI 指数相比,该指 数表现出了极好的相关度。 2 图2 美国网络价格指数与官方CPI (三)几种价格指数的比较 价格指数的计算和统计制度、抽样方法、价格数据来源、权 数资料来源高度相关。下表是几种价格指数的具体情况对照表。 表1 几种价格指数具体情况对比表 价格数据 权数资料 典型指数 典型指数 指数计算方法 获取数据量 获取方式 获取方式 中国国家统 城乡居民家庭消 中国CPI 人工采价 链式拉式公式 定时调查 计局 费支出调查 淘宝iSPI 淘宝网 内部数据库 内部精确销量 链式拉式公式 全时间段数据 美国麻省理 网络爬虫抓 参照美国劳工局 BPP价格指数 链式拉式公式 某时间点价格 工学院 取数据 相关权数资料 从上表可以看出,基本上指数编制方法都是基于链式拉式指 数,主要区别在价格和权数数据获取方式。鉴于官方统计部门难 以获得电商详细数据,参照BPP 指数编制方法,采取外部数据获 取方式是一种合理的选择。 二、基于网络爬虫技术的价格指数计算模型 1921 年美国

文档评论(0)

l215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档