- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.2 采集并统计形成行业数据——第二章 数据采集实验目的01了解行业数据的统计方法02实操数据采集方法实操行业数据统计方法03一、行业数据的统计方法第三方公司统计行业数据的方法通常是基于统计学原理,根据某个行业的销量排序,从高到低采集固定数量的样本,统计样本的销量或者销售额来代表整个行业的数据。采集工具选用Power BI(个人免费版)。Power BI是微软旗下的一款(BI)商业智能软件,它包含桌面版(Power BI Desktop)、网页版和移动版。二、总体与样本总体包含所研究的全部个体(数据)的集合。个体总体中每一个考察对象称为个体。总体个体样本研究中实际观测或调查的一部分个体称为样本。总体与样本样本容量样本中个体的数目称为样本容量。为了研究某中学九年级学生的身高情况,从全部九年级学生中抽取了60名学生的身高。在这个案例中,总体、个体、样本、样本容量各指什么?样本样本容量二、总体与样本总体是一个确定的数字集合,而样本可以有许多。“在总体中取出的一部分个体叫作总体的一个样本”,如果取出另一部分个体那就构成另一个样本,即使每次抽取身高作为样本的学生都是60人,每次抽取的情况也不会相同。所以样本里面的数都是一些变量,这些变量的特点只有在一次具体的抽取完成之后才能知道它们的值。从上述的分析可以得出结论:样本一般不等于总体,但样本来源于总体,因而用样本估计总体才有一定的依据,这是统计的基本思想。研究电商行业大数据的基本思想也是如此,行业里面有庞大的数据量,就商品数据来说,每个商品又有多种不同的属性。我们通常对数据整体进行抽样采集,获取具有代表性的、能够尽可能地代表整体趋势的数据,数据拿到手之后,再抽取不同的属性特点作为研究对象,以分析不同的趋势特征。三、采集数据流程采集储存清洗将整个HTML或者JS文件下载到本地,此时数据在文件中,文件可转换成文本这种可读的类型。存储数据一般将下载的文件或者文本整个存入数据库。从文件或者文本中提取目标资料,并组织成表格形式,形成可供分析的原始资料。四、反爬虫1、IP限制:最基础的反爬虫方式,也比较好破解,通过变换网络IP即可破解。2、账号权限限制:必须登录账号才可以访问,且可能账号有访问的权限限制,如限制页面或者限制访问次数,破解的方法是上传身份信息给服务器,一般使用cookie字段。对于限制访问权限的,需要使用具备对应权限的账号,如果暴力破解则是黑客范畴。对于访问次数的限制,只要频繁变换账号即可。3、密钥匹配:密钥匹配是目前比较难破解的,需要具备密码学的知识,破解密钥的算法,然后自行生成密钥和服务器匹配。实验内容业务背景:分析数据之前需要先有数据,数据一般可以通过数据产品和页面收集,收集数据时如果使用手动的方式将耗费大量的时间和精力,因此使用软件构建采集脚本可极大节约时间成本。下面我们将带领大家体验通过传统的源码采集方式实现数据采集。一、实操数据采集方法——明确目标链接/search?q=%E8%B7%AF%E7%94%B1%E5%99%A8sort=sale-desc服务器地址:/search参数:q(搜索词),sort(排名方式)。也就是说链接中“q”后面是搜索词字段,“sort”后面代表的是排序方式。可直接复制该链接到浏览器中进行检验,如图所示,可以发现搜索词为“路由器”,排序方式为“销量从高到低”。一、实操数据采集方法——明确目标链接例:淘宝搜索“路由器”,设置“销量从高到低排序”,得到的链接为:/search?q=%E8%B7%AF%E7%94%B1%E5%99%A8imgfile=commend=allssid=s5-esearch_type=itemsourceId=tb.indexspm= a21bo. 2017. 201856-taobao-item.1ie=utf8initiative_id=tbindexzort=sale-desc将中间字段删除,即可得到只包含“q”和“sort”参数等必要字段的目标链接:/search?q=%E8%B7%AF%E7%94%B1%E5%99%A8sort=sale-desc“q”后面的搜索词由“路由器”改为“连衣裙”,可以发现淘宝宝贝搜索框中的关键词也对应变成了“连衣裙”。这说明该链接已经包含了必要的搜索字段。该链接可通过复制淘宝搜索链接然后去除部分字段而得到。一、实操数据采集方法——测试单页采集数据M语言(M代表Microsoft),编程语言,是微软新Oslo发展和面向服务策略的一部分。在M语言中,实现网络抓包的核心函数是Web.Contents,它能够对指定的URL向服务器发出request并接受返回的response。在测试单页采集数据中M语言的公式为:=Web.BrowserContents([URL])。1
文档评论(0)