- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据时代,数据与信息安全如何完美平衡?
在我们谈信息安全的时候,我想先澄清一个概念,什么叫做信息安全。在我眼中,我把信息安全分
成三大类:
我们逐个来讲。
信息层面的信息安全
这是我最弱的一环,我只能简单的谈谈我的看法。从最简单的说起:
我们为什么要从 HT T P切换到 HT T PS ?为什么有一天大家都抛弃了 HT T P而投向了 HT T PS
的怀抱?毕竟 HT T PS 需要消耗比 HT T P更大的硬件开销,在架构层面同样需要做出很多的
调整。
那是因为 HT T P无论对于网络传输的内容,还是对于协议本身信息都没有做过任何的加密,从而使
得用户的任何信息在网络中都可能被捕获。这时,我相信有人会讲:那我们是一个内容浏览类的
网站,用户并不需要输入信息,那是不是就可以不使用 HT T PS 了呢?答案是使用 HT T P不仅会发
生泄漏数据,还会发生注入数据;这也是我们常常提到的流量劫持。
当然,由于 HT T PS 对于服务器资源的消耗, HT T P也推出了 HT T P/2 ,除了一些新的特性之外,当
然也加入了信息加密的功能。另外,密码的加密也是老生常谈,密码的加密是一个听上去简单实际
很复杂的事情,归根结底,密码加密是一个需要平衡的事情,如果采用简单加密方式 (例如 MD5) ,
那么自然也会容易被解密,但是如果采用复杂加密算法,自然也对 CPU 提出了更高的要求。
用户层面的信息安全
用户隐私在近年来被提升到了一个前所未有的高度。大数据时代人人都在做数据分析,却又人人都
在做用户隐私。那么如何把握数据分析和用户隐私之间的平衡?
也许我们在很久之前就触犯了 用户隐私“ ”,当我们在电商网站上点击 喜欢“ ”的时候,这个数据来源于 “
用户隐私 ”;当我们在搜索引擎上看到 搜索广告“ ”的时候,这个数据也来源于 用户隐私“ ”;甚至我们可
以说:如果我们严格地去界定 用户隐私“ ”,我们如今的产品会死掉 90% 甚至更多。
那么我们到底如何去客观地理解用户隐私?我对隐私的红线是:用户的数据分析是机器可读但是人
工不可读的。举个例子:
我们在做用户的垃圾邮件过滤的时候,我们需要对每封邮件抽取特征,其中包括发件人,发
件时间以及对于邮件正文内容的结构化抽取,然后通过分类算法对邮件进行分类。
但是我们要注意一点,这个过程,我们对 人“”是不可见的,我们会对几千万的数据进行机器处理,
我们处理的是宏观上的 大数据“ ”;但是如果我们是通过人去扫描数据库,然后提取出了邮件记录并
且去做人眼识别,那么这个行为是侵犯用户隐私的。
再者,是否侵犯用户隐私的一个隐含区分点是 侵犯隐私“ ”之后做了什么?例如我们对搜索记录进行
数据分析后为用户推荐了更好的结果,我们说这并不是侵犯数据隐私;但是如果我们对搜索结果进
行分析后,将用户的资料提供给了某医院,那么用户隐私就被侵犯了。
一言结之,是否侵犯隐私一定程度上关联与后续的操作是否侵犯到了用户切身的利益。
最后,是否侵犯隐私的一个标准在于我们最终暴露的是用户的什么信息。
我们都知道 DMP 行业提供 API 使得 DSP 可以进行更加精准的广告投放,但是提供什么样的信息成为
了关键。如果提供的是用户的消费记录,这个是侵犯隐私的,如果提供的是通过数据挖掘得到的收
入水平,那么这个信息也许是不侵犯隐私的。
其实用户隐私是一个很敏感的词,也许这个词天生就与数据挖掘、数据分析互相抵触,法律上也并
没有对相关的标准拉过红线,如何把握也许值得我们更深入地探讨。
关于架构层面的安全
这一层面的安全说起来比较复杂,我只举两个例子。
第一,一份数据应该存多少份才能保证数据不丢,什么样的存储架构可以较好地平衡数据备份和存
储成本之间的平衡?在存储上,我们希望平衡成本和可靠性,例如我们可以通过 EC2 冗余算法来
平衡;再者我们需要多机房的互备来防止数据中心的灾难性事故;但是是否我们就是盲目地将存储
成本除以 2 ?这不但对于成本是巨大的消耗,对于网络带宽、磁盘压力也是种巨大的消耗;那么我
们可以去折中地拆分数据的冷热分区,以及适当采用廉价磁盘
文档评论(0)