- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
听课笔记大数据概论课案
大数据与社会科学概论
刘涛雄
大纲
大数据概论
大数据的主要技术手段
数据分析技术:机器学习概论
“大数据社会科学”
何为大数据?(Big Data)
特点:大。超过常用软件工具的收集、管理和处理数据的能力范围的数据集。
但是,也不是简单地以规模论大,而是相对的复杂程度。
如果以现在计算机的能力:
针对简单查询(如关键词查询),数据量为TB或PB是即可称为大数据。
针对复杂查询(如数据挖掘),数据量为GB至TB时即可称为大数据。
大数据特性:4V
Volume:体量巨大
Velocity:速度极快
Variety:模态多样
Veracity:真伪难辨
无所不在的数据生成源:
全社会(发言、网状结构)、
网络用户(浏览行为、搜索行为)、
管理者(发票、医院记录、交通检测)、
商业机构(手机记录、信用卡记录、保险记录、商场购物记录)、
健康数据(电子医疗设备记录、医疗检测)、
卫星信息系统(物联网)
我们都有哪些数据?
文本信息
中文分词
多媒体
时间序列(高频数据)
空间数据
网页数据
社会网络
大数据与社会科学
第一层次:基于数据的知识发现(Knowledge Discover in Database, KDD)
有理论假设的好处:可以节省信息量,缩小搜寻范围。
当数据获取和处理能力足够强,KDD也能体现其优势。
例子:Hedonometrics and Twitter
How Obama’s Data Crunchers helped him win
活跃领域:
数据挖掘(data mining)
政治学、经济学、社会学、心理学、管理学
如:price index
预测(forcasting)和现测(nowcasting)
如:对google trends的利用
社会计算(Computational Social Sciences)
Computation about(of) the people:如社会情感
Computation for the people:如信任计算、风险计算
Computation by the people:如主体参与、群体智能
大数据的主要技术手段
关键技术
Hadoop:分布式管理平台
来自Google的设计思想:
一个分布式文件系统和并行执行环境(HDFS和MapReduce)
方便用户处理海量数据
云计算
机器学习
计算机针对特定任务(Tasks)和效果评价指标(Performance Measurement),基于已有经验(Experiences),自动地不断改进算法,并随着E的扩大不断提高对T的执行效果(P)
T:任务
P:效果评价
E:经验集(训练集)
训练和预测
最佳预测:Bias-Variance平衡
一般来说,模型越复杂,变量越多,Bias2越低,但var(f(x))越大
所以对于模型选择,一个很重要的准则是降维。
大数据对社会科学的机遇与挑战
机遇
数据来源极大拓展
获取信息速度大大加快
计算能力极大增强
核心:技术、数据+人
挑战
数据太多 维数灾难?
数据太乱 结构化与非结构化
生成机制难掌握(DGP, Data Generating Process)
谁是总体?谁在创造数据?
总体创造数据的动机和行为机制是什么?
官方统计还有存在必要吗?
结构化数据与非结构化数据
社会科学:因果与相关
社会科学的核心:因果解释
自然科学与社会科学:可控实验与自然实验
困难:反向因果与共因变量
统计学:从相关到因果
大数据:相关易于因果,相关重于因果?
大数据对研究还有意义吗?
大数据同样会促进“因果解释”
社会科学的研究范式:假设检验(演绎法)
大数据:寻找相关(归纳法)
信息增加与避免错误因果
政策:预测与因果
我们是不是过于重视“因果”?
关键:数据生成机制是否稳定?
两类政策问题:“降雨术问题”与“雨伞”问题
降雨术:因果(干预问题)
雨伞:预测(对策问题)
但任何一个政策措施,其影响可能是十分复杂的,有能被解释的部分也有不能被解释的部分。
互联网金融简介对中国的贡献
征信
财富管理
P2P
大数据要和先进的方法一起使用
一、传统金融业务
传统方式(支付、个人理财)放在互联网上支付
二、互联网和金融的化学反应、
支付体系
互联网征信
P2P贷款
众筹
网络虚拟
支付功能
0.5%费率
资源分配
投融资渠道不畅,超过30%中国人储蓄率在20%以上
征信的分类
资产(个人企业)
是否诚信(个人)
中国征信市场的现状
人民银行的征信系统有8亿数据(活跃的有3亿)
25%的人有征信数据
美国有70%的人
电商有个人消费数据(大概有3亿)
征信与消费的结合
租车
4W+1H
5P
5C+1S
支付数据——财务关系
消费数据——消费习惯
金融数据——信用记录
社交数据——个人特征
行为数据—
您可能关注的文档
- 古代建筑之柱、柱础.doc
- 可编程控制技术教案第三章课案.doc
- 可靠性专业术语集课案.doc
- 可视化编程作业SDI应用程序设计课案.docx
- 可视化管理系统技术方案课案.doc
- 台州继续教育第二阶段答案课案.doc
- 台州书生中学2014上学期期中初三数学试卷课案.doc
- 台帐六:各类事故及处理结果.doc
- 城市GIS_空间数据结构与管理.ppt
- 台州市书生中学2015学年第一学期第一次月考七年级历史与社会试卷.doc
- 2025年健康家纺市场创新趋势与智能家居融合分析.docx
- 《绿色建筑行业报告2025:超低能耗建筑标准与光伏建筑一体化应用市场》.docx
- 2025年宠物医疗行业职业发展国际交流合作报告.docx
- 2025制药行业创新药研发并购重组趋势分析.docx
- 《2025年预制菜社区门店自提与C端即时配送效率》.docx
- 2025年智慧物业数据分析与运营决策支持系统报告.docx
- 2025年循环经济模式在碳管理中的应用潜力.docx
- 2025年数字孪生智能温室智能灌溉.docx
- 2025年宠物医疗行业职业发展晋升通道设计报告.docx
- 2025年前置仓模式创新:生鲜电商农产品上行渠道优化方案.docx
原创力文档


文档评论(0)