- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
警惕大数据中的“陷阱”
警惕大数据中的“陷阱”供稿:集中组 李永安泉州移动支撑中心大数据运营中心2016.1.21(一) 导读【摘要】关于社会大数据的研究近年来不断扩大、繁荣,发展为集社会学、计算机学、物理学、心理学等多个学科于一身的交叉学科。与此同时,新的数据获得渠道、数据处理方法和工具也不断被研究者们引入社会研究领域。然而,正是因为该领域的快速兴起,社会大数据的研究方法往往未能得到足够的重视和讨论。未成形的方法规范、模糊的样本收集范围及边界等诸多问题导致类似研究难以复制,更难以像传统社会学研究方法一样可以通过实证研究结果的梳理总结得出系统的理论。本期【大数据与社会】将梳理总结关于大数据研究“陷阱”的文章,介绍大数据研究实践中所勘测到的“雷区”。(二)正文 1948年11 月3 日,哈里? 杜鲁门赢得美国总统选举的第二天, 芝加哥论坛报发表了新闻史上错得最荒谬的头条之一:“杜威击败杜鲁门”。这个头条来源于电话样本调查,但是却在抽样过程中由于对杜鲁门支持者采样过少而导致了错误的估计。此次事件并没有全盘否定民意调查方法本身,但是却启发调查者使用更成熟的技术、制定更严格的标准,从而使得今天的民意调查更加准确、在统计意义上更加严谨。现在,我们停滞在一个相似的技术转折点,人类行为研究所使用的私人和社会网络数据不断。强大的计算机资源和可使用的大型社交媒体数据集结合,涌现出一个研究群体:他们使用机器学习,自然语言处理,网络分析和统计学对人口组成与人类行为进行前所未有的大规模测量。然而,越来越多的证据表明,基于大数据的预测和分析却曲解了现实社会现象。在社会大数据的研究逐渐成为“显学”的同时,社会学家需要与不同领域的学者增强方法领域的合作,从简单地使用大数据研究社会问题,过渡到优化大数据社会研究的操作、共同探讨符合学术标准并且行之有效的研究规范。Derek Ruths 和 Jurgen Pfeffer 均来自于计算机研究领域,他们发表在《科学》(Science)杂志上的一篇《基于社交网站的大规模行为研究》(Social media for large studies of behavior)[1] 却深入探讨了社交媒体的研究通常出现的问题,并讨论了如何为大数据研究方法制定更高的标准规范样本代表性:大数据≠全部许多以大型社交媒体数据为基础的人类行为研究都潜藏着一个假设:足够大的数据样本量能排除由平台本身带来的“噪音”。然而,不同的社交媒体平台各自有大量不同的总体统计偏差。例如Instagram(译者注:大型图片分享及社交网站)对18到29岁的成年人,美国非裔,拉美裔,城市居民,特别有吸引力,而Pinterest(译者注:同样是图片分享网站)主要用户是女性,25到34岁,平均年收入10美元。两个平台用户具有不同的特征,然而,这样的样本代表性差异却从未被研究者严肃地纠正亦或是承认。此外,很多基于社交媒体的研究倾向于用社交网站的社会网络特征归纳总结人类行为。然而,发展中国家互联网使用率甚至还不足50%。用户主要以发达国家为主的社交媒体显然无法代表全世界更大范围的人类群体。根据社交网站所得出的“大数据”,其边界也需要更加审慎地界定。图 SEQ 图 ARABIC 1 世界互联网使用率 (数据来源:ITU国际电信联盟是; 制图:闫蒲,Ralph Schroeder 牛津互联网研究所)蓝线代表发达国家互联网使用率,红线代表发展中国家互联网使用率。数据“黑匣子”:被操控的数据在《黑匣子: 操纵金钱与信息的秘密算法》(译者注:原著名为The Black Box Society: The Secret Algorithms That Control Money and Information,由哈佛大学出版社出版)一书中,作者Frank Pasquale警告公众:“(网站)可以包容、排斥、排名的权力决定了何种公众言论可以长期存在,何种会日渐式微。”在大数据领域,网络平台同样具有操纵研究的能力和渠道。近年来,基于社交媒体数据的研究层出不穷,不少研究者都使用了网站所提供的应用数据接口(即API,Application Programming Interface)获得数据。通过API获得社交媒体数据主要有两种渠道:搜索接口(Search API),即通过搜索一周内所发布的相关信息;另一种为即时接口(Streaming API),即通过保证接口开放接受即时信息,对于非商业伙伴的研究人员而言,网站返回的即时接口数据仅为全部数据量的1%。当研究人员日益依赖于两种API获得研究数据,并通过此类数据获得对人类网络活动、情感、组织方式认识的同时,该类数据是否具有可靠性、代表性也成为开始大量使用社交媒体数据前必须回答的问题。Gonza?lez-Bailo?n等人在《大型社交网络抽样调查偏差评估》(Asses
您可能关注的文档
最近下载
- 水泥基工程复合材料ECC的研究与应用论文.pdf VIP
- 血透室品管圈.pptx
- 《新能源汽车维护与保养》教案 第11课 车身电气设备维护与保养.doc VIP
- GB 20951-2020 油品运输大气污染物排放标准(高清版).doc VIP
- 2025-2026学年小学信息技术(信息科技)三年级上册湘科版(2024)教学设计合集.docx
- 优质纪念中国人民抗日战争暨世界反法西斯战争胜利80周年PPT课件.pptx
- 第八章 现代生物技术在环境保护中的应用.ppt VIP
- 千年古县申报材料-牟平.doc VIP
- 慢性咳嗽诊治指南ppt课件.pptx VIP
- 企业安全生产风险辨识评估管控指导手册-件杂货码头.pdf VIP
文档评论(0)