- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
社交网络发展的新动力:
大数据与众包
参与腾讯犀牛鸟项目的思考和体会
许小可 (大连民族学院)
腾讯商业帝国的核心:社交网络
国内社交网络领域研究现状
1. 产业界不给学术界提供数据
2. 学术界不愿(不能)给产业界
提供理论方面的帮助
经典社交网络理论:六度分离
问题:需要多少个
中间人就可以联系
任何两个互不相识
的美国人?
1967年哈佛大学
教授米尔格拉姆寄
出60封信给堪萨
斯州自愿参加者,
请他们转交到马萨
诸塞州某指定地点
的股票经纪人。
上图参见:/wiki/Small_world_experiment
六度分离理论的小数据验证
最后发现平均只
需要5个中间人
就可以联系任何
两个互不相识的
美国人。
》六度分离理论
小数据验证的
结果不一定正
确,传统社交
网络结论不一
定具有普遍性
上图参见:/wiki/File:Six_degrees_of_separation.png
六度分离理论的大数据验证
1. MSN数据:
Jure Leskovec 和Eric Horvitz通过研究
2006年某个单一月份的MSN短信,利
用2.4亿使用者的300亿通讯进行比对,
结果发现任何使用者只要透过平均6.6
人就可以和全数据库的人产生关连。
六度分离理论的大数据验证
2. Facbook数据:
Facebook 的研究对象是2012年一个月内访
问Facebook 的7.21亿活跃用户,超过世界
人口的10%,他们确定世界上任何两个独
立的人之间平均所间隔的人数为4.74 。
其他大规模社交网络数据上的验证:
LinkedIn,Twitter,…… ,六度分离成立!
结论:
大数据背景下,传统的研究者自己收集小数据的
研究范式已经过时,社交网络研究需要在线社交
网络运营商提供大数据。在社交网络领域,研究
者没有大规模实证数据就做不出有用的研究。
思考的问题:
1. 国外互联网企业为什么愿意提供数
据给研究人员?
2. 为什么国内互联网企业不愿意提供
数据给外部研究人员?
大数据背景下一流企业面临的难题
1. 如何能找到会分析自家数据的优秀人才?
2. 如何能动员整个社会的智力资源解决企业内
部难以解决的各种难题?
3. 对于腾讯这样的世界顶级企业,如何面对突
破性技术时引发的颠覆性失败(创新者的窘
境):柯达、诺基亚公司的反面案例
解决途径:企业将大数据通过众包方式分享出去
众包分享大数据是很好的人
才招聘途径:以阿里为例
众包分享大数据是很好的解
决问题途径:以百度为例
犀牛鸟的故事
CCF犀牛鸟项目信息(2013年度)
5大专业领域、10位特邀专家、
12个学科方向、19个项目获奖(
入取率11%)、30+核心项目成
员、40所国内外重点高校及国家
重点实验室170位青年学者申请
、优秀提案172份、媒体新闻
200+。
众包下的科技创新方式变革
传统模式:招聘业界最优秀的人做研发
新模式:让所有人作研发,挑选出最优秀的解决方案
2006年,在线电影租赁公司Netflix曾经用百万美元悬赏,
奖励能够将其电影推荐算法准确性提高至少10%的人。
三年后,一个拥有ATT工程师的团队实现了这一目标,
提供了一个比Netflix专家还要精确10.05%的推荐算法,
拿走百万美元奖金的同时书写了大数据百万富翁童话。
Netflix电影推荐引擎的算法是Netflix击败传统影视租赁
公司的看家法宝,将其推荐精度提高10%带来的消费体
验提升和商业价值远远不止百万美元。
无知者无畏的意义
在追踪调查了由26家公司张贴出来的
166个问题后,Lakhani得出这样的
结论,“ ‘解决者’越是对某个领域
不熟悉,越是容易出成果”。
案例1:Kaggle网站上一个对汽车行业
的小型数据分析团队将不同
文档评论(0)