- 47
- 0
- 约7.27千字
- 约 12页
- 2021-04-20 发布于天津
- 举报
大数据的开放式创新
:Big data is the technical foundation of an evolving
society ,from the networking to intelligent age,and plays the role of critical assets and currencies of future data economy. However, today big data innovation is limited to technical stacks and within the organizations ,and suffers
from unavailability of data
, lack of processing and
analytics technologies , and closed-world thinking. This paper discusses key factors of open innovation for big data : unleash the data supply via open data and data marketplaces with secure exchange and pricing democratize the technologies through open data
, anda ”crossover ”
, and
a ”
crossover ”
大数据创新的最高境界是用构建数据生态来改变竞争格 局――数据源解决数据供给, 数据创意者从数据中创造价值, 这又有赖于大数据处理和分析技术。在开放式创新的体系中, 种元素扮演 3种角色。
?数据源:开放数据,基于数据安全流通和定价的数据市场;
?大数据分析和处理技术:开放的基础设施,以及开放的社
会化分析服务;
?数据创业者 / 应用服务:跨越领域界限的开放数据思维。
它们五行相生,互相作用,形成价值的涌现。
开放数据的发展及问题
数据开放的主体首先是政府和科研机构, 即把非涉密的政府
数据,以及纳税人支持的一些科研数据开放出来。 越来越多国家 进大数据发展行动纲要》,将开放数据作为工作重点。在开放数 据运动的风起云涌之下, 现在更多的企业也开始开放数据, 实现 数据的价值化,并建构生态系统和护城河。
推出了统一的政府开放数据门户。中国在
推出了统一的政府开放数据门户。
中国在 2015 年也推出了《促
万维网之父 Tim Berners Lee 提出了数据开放的五星标准
[1] ,以保证数据质量:一星是开放授权的格式,比如说 PDF;
二星是结构化, 把数据从文件变成了像 Excel 这样的表; 三星是 开放格式,如CSV四星是能够通过统一资源标识符(URI)定 位每一个数据项; 五星是能够跟其他数据链接, 形成一个开放的 数据图谱。
数据开放与开源软件也形成了共振。主流的数据开放门户, 像 data.dov ,都基于开源软件。 Data.gov 用 WordPress 做数据 内容呈现,用CKAN做数据目录,甚至data.gov的整个架构也在
GitHub 开源了。英特尔在麻省理工学院的大数据科研中心研发
了开源的DataHub系统,支持对开放数据的多人协作分析, 具有
数据版本管理和多编程语言交互的能力。
数据开放中会碰到很多问题。
1)数据权属的问题。数据属于谁?属于采集人?还是属
于生产人?抑或是属于被观察的客体?在特定情况下, 拥有权如 何分割(比如离婚)或者转移(比如继承)?
2)敏感数据的界定。比如位置信息数据在欧洲属于敏感
数据,而在日本不属于敏感数据。 另外各个不同行业有进一步规 定,比如美国的《健康保险便利和责任法案》对个人健康信息的 隐私性、机密性和完整性做了规定;而在征信领域则有《公平信 用报告法》 对个人信用方面的信息做了规定。 敏感数据需要法律 和行业法规的界定。
3)敏感数据的脱敏。如果开放数据中具有敏感数据,就
要做数据的脱敏。 脱敏最简单的做法是去标识, 但是去标识未必 能够彻底脱敏。美国研究显示:即使把姓名、地址等标识信息拿
掉,只要有邮政编码、性别、生日等 3项信息,就有60%-90%
的可能性锁定个人。 即使去标识很彻底, 仍有“阿喀琉斯之踵 (致 命弱点) ”。一种攻击的方法是通过多数据源的比对来缩小搜索 范围,重新标识;另一种方法是基于统计的攻击,比如根据两个
打分再加上一定的时间范围约束,还是有接近 70%的可能性锁定
个人。
4)防止隐私攻击的匿名化技术。 比较典型的如 k-anonymity
或攻击者具有背和 L-diversity 等,但在敏感属性不够多样化,
或攻击者具有背
景知识时, 这两
您可能关注的文档
- 大数据告诉你,到底该不该生二胎!.docx
- 大数据在电视新闻中的应用.docx
- 大数据对因果思维影响.docx
- 大数据技术与智能电网-2019年文档.docx
- 大数据时代下的传统农业营销创新研究.docx
- 大数据时代的个人信息民法保护.docx
- 大数据时代的微版权战略-精品文档.docx
- 大数据时代的高校个性化教育一种过程支持框.docx
- 大数据时代背景下中医古籍面临的机遇与挑战-2019年文档资料.docx
- 大数据时代背景下自动化面临的机遇和挑战-2019年文档资料.docx
- (2026春新版)部编版八年级语文下册《第一单元》PPT课件.pptx
- 2018电力监控系统网络安全监测装置技术规范.docx
- 2022电力监控系统安全防护方案审核要点.docx
- 2014电力电缆光伏系统EN 50618欧标.docx
- (2026春新版)人教版二年级数学下册《第三单元 万以内数的认识》教案.docx
- (2026春新版)人教版二年级数学下册《第四单元 万以内的加法和减法》教案.docx
- (2026春新版)人教版二年级数学下册《综合与实践 时间在哪里》教案.docx
- (2026春新版)苏教版二年级数学下册《综合与实践 时间有多长》教案 .pdf
- (2026春新版)部编版三年级语文下册第3单元(教案).docx
- (2026春新版)部编版三年级语文下册第8单元(教案).docx
原创力文档

文档评论(0)