- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实现大数据,从小样本中做筛选海量样本
实现大数据 ,从小样本中筛选海量样本
从小样本到大数据 :概念与误区
最近两年产生并记录的数据 ,总量占到人类文 以来所有数据总和的90%。我们源源不断记录着一
切有价值的信息 ,世界和万物的变化数据变成一座“自动生长”的金矿 ,数据挖掘技术则负责从矿山
中挖出金子。
“大数据”这个词早期是IBM和EMC鼓吹的一种商业概念 ,自诞生之日就有概念包装的商业基因。
白这一道理就不会过分纠结“到底什么是大数据” ,“多大数据算大数据”之类的问题。这一概念包含了
我们在面对海量数据环境下的哲学迷思、技术困境、解决方案和由此引发的商业机会。
探讨大数据问题前我们先回顾另一个数据界的经典问题——小样本问题。小样本的“小”表面指的是数
据样本少 ,本质则是说现存样本对特征空间的刻画能力不足。
“过拟合”问题是小数据时代的核心问题之一 ,也成就了vapnik这样的理论巨匠及svm算法。大数据 ,
其显性特征是超出一般算法或一般硬件计算处理能力的“大”规模数据;其伴随的另一个特征 ,就是拥
有足以刻画样本特征空间以外的”超额”样本。前者显性特征推动了并行/云计算的软硬件发展 ,后者
则从商业模式和数据分析的方法论层面推动了行业变化。
怎么理解这些”超额的样本”带给我们的价值呢?显然 ,通过数据刻画对象的全局特征 ,获得全体统计
规律及关联规则并不需要这些“超额的样本” ,因此才有“大数据是不是越多越好” ,“大数据是否需要
抽样”这样的辩论 ,这是在大数据时代之前关心的问题。可以说 ,纠结于这些问题的人还未触及大数
据的核心价值。归纳一下就是 :大数据时代之前 ,我们处理的是小样本或适度抽样后的小数据进
群体规律的知识发现(KDD);在大数据时代 ,我们依赖从小样本挖掘出的或原本就已知的经验规则 ,
通过搜索海量样本数据发现目标个体来兑现商业价值。
从理论到价值 :政府应用实例
大数据在何处?这些拥有富矿的金主包括 :工业、金融、通信、科研机构、互联网企业等。除此
之外 ,还有一个超级矿山拥有者——政府。以美国为例 ,在公开的美国政府网站Dat a.gov上 ,大约
有超过4 0万各种原始数据文件 ,涵盖农业、金融、就业等近 0个分类。美国官方称这么做的目的是“
方便公众更便捷地获得联邦政府数据 ,并通过鼓励创新突破政府的围墙而创造性地使用这些数据”。
同时 ,各行业大数据又能极大改进政府的决策行为。
近些年大数据对国家及政府领域的应用案例开始涌现 :
1.情感测量及幸福指数
2008年 ,法国总统萨科齐组建了一个专家组 ,成员包括以诺贝尔经济学奖获得者约瑟夫·斯蒂格里
茨和阿马蒂亚·森在内的20多名世界知名专家 ,进行了一项名为“幸福与测度经济进步”(Happiness
and Measuring Eco no mic Progress)的研究。该项研究将国民主观幸福感纳入衡量经济表现的指标
,以主观幸福程度、生活质量及收入分配等指标来衡量经济发展。
佛蒙特大学计算实验室的项目Hedo no met er
(1)2011年 :幸福度来自旅 的远度
佛蒙特大学的克里斯多夫·丹佛斯主持研究了幸福度与地理位置的关系 ,他们在2011年从从Tw it t er
上筛选带有博主地理位置的Tweet 。全世界逾18万用户发布的3700万条tweet 中 ,约1%的微博含有
这类经纬度信息。
研究发现 ,人们通常会有两个最常去的地方 ,且这两个地方相距不远 ,应该就是家和工作地。为了
评估博主的幸福额度 ,佛蒙特大学的研究小组研制了一种“幸福测试仪”(hedo no met er) :这种测试仪
能检测出文本中表示积极、快乐情绪的词汇(比如 ,“新鲜的”、“极好的”、“咖啡”和“午餐”)以及表示消
极情绪的词汇(比如 ,“没有”、“不”、“讨厌”、“该死的”、“无聊的”)。幸福测试仪会以此为根据评出每
一条微博的幸福指数。研究团队发现 ,离家越远 ,人们所发微博中含有的开心词汇就越多。
(2)2011年 :人们没有以前快乐
2011 12月21日消息 ,美国佛蒙特大学学者对Tw it t er上的用词进行分析后 ,最终得出“人们没有以前
快乐”的结论。研究称 ,自2009年4 月以来 ,人们的幸福感总体呈下行趋势。该研究报告的主要作者
、佛蒙特大学的应用数学家Pet er Dodds表示 ,“人们的幸福感正在下降。”这是多兹团队对6300
万Tw it t er用户所发tweet 时用的4 60亿个单词分析得出的结论。
(3)2013年 :周六幸福度最高
佛蒙特大学计算实验室的Hedo no met er项目组发布了一份推特情感分析报告。这
文档评论(0)