大数据的开放式创新-精选文档.docxVIP

  • 47
  • 0
  • 约7.27千字
  • 约 12页
  • 2021-04-20 发布于天津
  • 举报
大数据的开放式创新 :Big data is the technical foundation of an evolving society ,from the networking to intelligent age,and plays the role of critical assets and currencies of future data economy. However, today big data innovation is limited to technical stacks and within the organizations ,and suffers from unavailability of data , lack of processing and analytics technologies , and closed-world thinking. This paper discusses key factors of open innovation for big data : unleash the data supply via open data and data marketplaces with secure exchange and pricing democratize the technologies through open data , anda ”crossover ” , and a ” crossover ” 大数据创新的最高境界是用构建数据生态来改变竞争格 局――数据源解决数据供给, 数据创意者从数据中创造价值, 这又有赖于大数据处理和分析技术。在开放式创新的体系中, 种元素扮演 3种角色。 ?数据源:开放数据,基于数据安全流通和定价的数据市场; ?大数据分析和处理技术:开放的基础设施,以及开放的社 会化分析服务; ?数据创业者 / 应用服务:跨越领域界限的开放数据思维。 它们五行相生,互相作用,形成价值的涌现。 开放数据的发展及问题 数据开放的主体首先是政府和科研机构, 即把非涉密的政府 数据,以及纳税人支持的一些科研数据开放出来。 越来越多国家 进大数据发展行动纲要》,将开放数据作为工作重点。在开放数 据运动的风起云涌之下, 现在更多的企业也开始开放数据, 实现 数据的价值化,并建构生态系统和护城河。 推出了统一的政府开放数据门户。中国在 推出了统一的政府开放数据门户。 中国在 2015 年也推出了《促 万维网之父 Tim Berners Lee 提出了数据开放的五星标准 [1] ,以保证数据质量:一星是开放授权的格式,比如说 PDF; 二星是结构化, 把数据从文件变成了像 Excel 这样的表; 三星是 开放格式,如CSV四星是能够通过统一资源标识符(URI)定 位每一个数据项; 五星是能够跟其他数据链接, 形成一个开放的 数据图谱。 数据开放与开源软件也形成了共振。主流的数据开放门户, 像 data.dov ,都基于开源软件。 Data.gov 用 WordPress 做数据 内容呈现,用CKAN做数据目录,甚至data.gov的整个架构也在 GitHub 开源了。英特尔在麻省理工学院的大数据科研中心研发 了开源的DataHub系统,支持对开放数据的多人协作分析, 具有 数据版本管理和多编程语言交互的能力。 数据开放中会碰到很多问题。 1)数据权属的问题。数据属于谁?属于采集人?还是属 于生产人?抑或是属于被观察的客体?在特定情况下, 拥有权如 何分割(比如离婚)或者转移(比如继承)? 2)敏感数据的界定。比如位置信息数据在欧洲属于敏感 数据,而在日本不属于敏感数据。 另外各个不同行业有进一步规 定,比如美国的《健康保险便利和责任法案》对个人健康信息的 隐私性、机密性和完整性做了规定;而在征信领域则有《公平信 用报告法》 对个人信用方面的信息做了规定。 敏感数据需要法律 和行业法规的界定。 3)敏感数据的脱敏。如果开放数据中具有敏感数据,就 要做数据的脱敏。 脱敏最简单的做法是去标识, 但是去标识未必 能够彻底脱敏。美国研究显示:即使把姓名、地址等标识信息拿 掉,只要有邮政编码、性别、生日等 3项信息,就有60%-90% 的可能性锁定个人。 即使去标识很彻底, 仍有“阿喀琉斯之踵 (致 命弱点) ”。一种攻击的方法是通过多数据源的比对来缩小搜索 范围,重新标识;另一种方法是基于统计的攻击,比如根据两个 打分再加上一定的时间范围约束,还是有接近 70%的可能性锁定 个人。 4)防止隐私攻击的匿名化技术。 比较典型的如 k-anonymity 或攻击者具有背和 L-diversity 等,但在敏感属性不够多样化, 或攻击者具有背 景知识时, 这两

文档评论(0)

1亿VIP精品文档

相关文档