- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
规律和因果大数据对社会科学研究冲击之反思
规律和因果大数据对社会科学研究冲击之反思
摘要:在社会科学中,大数据研究还刚刚起步,但也取得了一定成果。大数据为社会学和社会科学重新发现社会历史发展规律提供了可能性:它提供了认知宏观社会、检验社会现象的“异质性假设”和“结果稳定假设”的数据基础;它以实时记录的特点较大程度上排除了获取数据时的人为干扰;它将抽样数据中被排斥的极端值重新纳入统计分析。在因果关系上,大数据有助于从根本上克服由于抽样偏颇所引起的样本选择性偏误;匹配数据可以克服或缓解变量遗漏问题;作为面板数据和分层数据,大数据对确定因果效应、检验因果关系比抽样数据更为有利、稳健和可靠。大数据也许可以重构社会学和社会科学的研究目标。
关键词:大数据;规律;因果关系;冲击;反思
中图分类号:C91-03
文献标识码:A
文章编号:0257-5833(2016)0943067-14
作者简介:刘林平,南京大学社会学院教授、博士生导师;蒋和超,南京大学社会学院博士研究生;李潇晓,南京大学社会学院博士研究生
(江苏
南京210023)
一、大数据特征与社会学相关研究
“数据”是系统收集到的关于世界的信息要素。“大数据(Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。”由于互联网的普及和相关设备的广泛使用,人类活动的痕迹几乎都可以转化为可以储存的数据,如日常起居、运动、购物、旅行、休闲、人际交往、写作(发表意见、评论和文章等)等等莫不如此。在社会和国家的层面,经济、政治、军事、科学、教育、社会和文化活动,及人类对自然界的影响,都会留下可储存的海量数据。这些数据可以用来分析人类活动的特点和规律。因而,大数据必然会对传统社会科学的研究方式产生巨大冲击、挑战并提供新的机遇。本文从社会学和社会科学研究的基本目标人手来进行反思。
大数据不同于传统数据之处在于:它不是通过抽样调查所获取的样本数据,而是人类活动的实时记录,并大都可以通过互联网存储、获取、交换和分析。大数据是“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”。大数据有多方面的来源,一般而言可以分作五类:企业公司数据,指来自公司企业的销售、交易等数据,比如阿里巴巴的销售数据、证券公司的交易数据等;网络数据,主要是指来自互联网、社交媒介的数据,比如Facebook、Twitter、新浪微博等;期刊图书数据库,是指取自某一个具体的数据库的数据,比如CNKI期刊数据库、Web of Science、Google图书等;政府数据,是指源自政府的总体数据,比如人口普查数据、全国用水用电数据等;其他,是指除上述四类数据之外的其他数据,但不包含抽样调查数据。有关大数据的基本特征,我们可以在与传统数据的比较中进行描述和分析。
1.样本与总体
和以往抽样调查获得的数据不同,大数据不是抽样数据而是一个总体数据。但是,这个总体是一定范围里的总体,而不是绝对总体。比如,人们通过京东商城购物,所有的购物过程都可以转化为数据,所得到的总体就是在京东商城发生购物行为的总体。这个总体不是所有网上购物者的总体,更不是包括线下购物者的全部购物者的总体。不过,有一些数据的总体,就是一个完整的总体。比如,美国国防气象卫星计划(Defense Meteorological Satellite Program)的夜间灯光图像数据,就是每天对地球进行扫描的数据,其平均灯光强度可以作为代表区域社会经济发展的指标,现有研究表明这一指标与GDP的相关度非常高。这个数据的总体,就是整个地球。因而,我们不能笼统地说总体,而要具体看该数据所代表的总体是什么样的总体。这样所得结论的界限就比较明确。
作为总体的大数据,在统计上至少有两个意义:其一,它可以给抽样数据提供参照,纠正其偏差。抽样调查采用抽样数据推断总体,实际上,很大程度上对总体认识不清,并不知道推论的实际效果,只是根据统计的显著性来进行检验。大数据的出现为抽样数据提供了总体的基本特征,抽样数据可以与大数据进行比较,看到底有没有偏差,偏差有多大。所以,大数据给小数据(抽样数据)提供了一个标杆和判断的标准。其二,运用大数据进行统计时,显著性检验可能就是不必要的了,实际数据差异是多少就是多少,因为它就是总体。
2.结构化与非结构化
与人们的一般想象不同,大数据其实主要不是结构化的数据,而是非结构化(含半结构化)的数据。“据统计,只有5%的数据是结构化的且能适用于传统数据库。”非结构化的数据对社会科学研究提出了如下问题:其一,它对数据
您可能关注的文档
最近下载
- 第6课 欧洲的思想解放运动(新教材课件)-【中职专用】《世界历史》同步精品课堂(高教版2023•基础模块).pptx VIP
- 1000HP钻机总结.doc VIP
- 机械制图(第二版)全套PPT课件.pptx
- (2025秋新版)北师大版二年级数学上册《数学好玩 猜数游戏》PPT课件.pptx
- 江苏省连云港市东海县实验中学2024-2025学年九年级上学期第一次月考语文试题(含答案).pdf VIP
- Sharp夏普扫描仪DW-D20HZ-W DW-D20NZW3 CF-20HZW 3用户手册.pdf
- 2024-2025学年九年级语文上学期第一次月考试卷附答案解析.pdf VIP
- C站JUE-85中文操作说明书-07-9-10.pdf VIP
- 智能融合终端通用技术规范2025.docx
- 2024年中级经济师《经济基础》真题卷(1116下午).pdf VIP
文档评论(0)