- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深圳市场调查大数据与“共享单车”-上书房信息咨询
深圳市场调查:大数据与“共享单车”2016年底以来,国内共享单车毫无征兆的就火爆了起来,彼时一张手机截屏蹿红网络—在这张截图上,24个共享单车应用的图标霸满了整个手机屏幕,昭示着共享单车市场抢夺大战的激烈和残酷。数据统计:共享单车领域两大巨头—摩拜单车和ofo近一年的客户端用户增长数据,二者的用户增长曲线别无二致,都是一路高歌猛进,共享单车领域的火爆势头在短时间内不会遏止。同时,在全国各大城市,在街头巷尾,在居民小区和创业园区,排满了各种颜色的共享单车,仿佛一夜之间,共享单车如“千树万树”的梨花一般,盛开到了泛滥成灾的地步了。与此同时,各种乱象也是接踵而至,触目惊心:人为肆意毁坏单车、车身乱贴小广告、街上随意停放…对于当下共享单车在互联网界的火热状况,从大数据文本挖掘的角度来做一番分析,主要是从海量的文本数据中找到有价值的讯息和观察视角,透过文本挖掘了解共享单车相关的热门话题和潜在趋势。以下是本文的行文路线图和所涉及的文本挖掘方法。1、数据采集和预处理在数据采集部分,想采集跟共享单车关联性强的文本数据,没有去写爬虫去爬取数据,而是用到了新浪微舆情“信息监测”中的“数据导出”功能,根据设置的关键词检索逻辑,将所有涉及到共享单车的各类媒体文章的标题、发布时间、媒体名称、正文及正文分词等数据下载下来,省去文本数据的清洗和预处理过程,直接进行文本挖掘部分。在这里,选取了市场上主流的26个共享单车品牌,再加上关键字“共享单车”,形成如下的关键词检索逻辑:共享单车+(永安行 |ofo|小鸣单车 |小蓝单车 |智享单车 |北京公共自行车 |骑点 |奇奇出行 |CCbike |7号电单车 |黑鸟单车 |hellobike |酷骑单车 |1步单车 |由你单车 |踏踏 |Funbike单车 |悠悠单车 |骑呗 |熊猫单车 |云单车 |优拜单车 |电电Go单车 |小鹿单车 |小白单车 |快兔出行 |摩拜单车 | 绿游GreenBike)选取2017-3-1~2017-6-30之间的数据,经由上面的检索关键词,可以得到我们想要的数据,为节省时间,仅选取“新闻”这一信息来源的文本数据作为分析对象,因为这部分的数据比较符合要求,包含的噪音较小。2、常规描述性数据统计在正式的文本分析之前,再对上述预处理后的数据进行描述性分析,先从表层获得这些数据的直观印象。首先是这4个月有关共享单车的文章数量的分布情况。经统计,共有4056个媒体发布了跟共享单车有关的文章,在Excel中使用“数据分析-描述统计”对这些媒体发文数据进行描述统计,得出如下结果:由此可见,在文章总数88,291篇、发文媒体4,056个的情况下,平均每个媒体的发文数约为22篇(21.66),其中的中位数为3篇,众数为1篇,最大发文数为4,815篇。结合下面的直方图,数量分布呈现明显的左偏态,主要集中在“0-300篇”这个区间内(其中绝大部分为1篇)。再来展示发文数量TOP30媒体的情况。排名榜首的是突袭网,它是一个信息资讯“大杂烩”(上面有各类转载过来的信息和琳琅满目的广告,而且经常不标明信息来源……),其次是腾讯新闻、搜狐媒体平台、新浪和网易这样的综合信息门户网站。有点意外的是,汉丰网(www.kaixian.tv)的关于共享单车的发文量竟然排在第四位,它原名“开县新闻网”,原本是一个地方性质的媒体,于2010年成立,为把网站建设为报纸、电视、电台“三网合一”的网络媒体,汉丰网全面整合开县主流媒体资源,单从发文信息量这点来说,该网站发展着实迅猛。对于接下来的文本数据挖掘,用到的是Python,以及常用的数据科学分析包,如jieba、sklearn、gensim、snownlp等。3、关键词提取在这部分,除了对上述经分词处理的正文文本进行词频统计的同时,还用到了信息检索领域里的TF-IDF(Term Frequency–Inverse Document Frequency)关键词统计方法:它用以评估一字/词对于一个文件集或一个语料库中的其中一份文件的重要程度,字/词的重要性会随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。由此可见,在提取某段文本的关键信息时,关键词提取较词频统计更为可取,能提取出对分析文本具有重要意义的关键词。根据上面的阐述,权重值大小与词频数不呈正比。对这88,291篇文章的关键词提取和词频统计如下。从上表可以看出,提取出的关键词跟共享单车的关联性很明显,大致上有如下几类:共享单车的品牌及其创始人:“小黄车”(ofo)、“摩拜单车”、“永安行”、“小鸣(单车)”、“胡玮炜”、“戴威”等。投融资、资本运作:“资本”、“投资”、“融资”、“战略”、“资金”、“金融”、“商业”、“投资人”、“合伙人”等。政府对共享单车行业的监管:“政府”、“规范”
文档评论(0)