一种面向安全领域身份识别与关联方法.docVIP

下载本文档

2
0
约6.43千字
约 12页
2018-08-13 发布于福建
举报
版权申诉

一种面向安全领域身份识别与关联方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种面向安全领域身份识别与关联方法

一种面向安全领域的身份识别与关联方法　　摘要摘要：大数据蕴藏的巨大商机引发了大数据产业化浪潮，互联网数据以其庞大的数据和简单的获得方式成为了首要分析目标。得益于互联网大数据的发展，安全领域的侦查手段从传统的事后侦查和重点监控，发展到可以进行预防性分析，在某种程度上可避免危害发生。使用互联网数据进行产业化挖掘面临着两个基本问题：多源数据的解析、清洗与整合；互联网身份的实体识别。结合具体安全服务，给出了一种普适的基于Map Reduce的互联网大数据去冗降噪的统计方法，可大幅降低数据存储空间，并在此基础上流程化地完成互联网虚拟身份识别模型。它能够量化互联网用户身份关系的可靠性和关联稳定性，并结合R语言给出了可视化展示。　　关键词关键词：互联网大数据；身份识别；身份关联；HADOOP；安全领域；产业化　　DOIDOI：10.11907/rjdk.1511305 　　中图分类号：TP309 　　文献标识码：A文章编号文章编号2016）002017005 　　0引言　　目前，我国在公共领域对大数据[1，2]的运用主要集中在电力行业、智能交通、电子政务和司法系统4个方面。在司法系统，公安市场大规模的信息化和装备投资产生了海量的非结构化数据，公安的实战应用是大数据的重要应用领域；在安全领域，大数据的来源不仅包括公安市场自身信息化产生的数据，同时也涉及到互联网、网络通信、智慧城市、金融、医疗等多个途径的海量数据。安全领域的特殊地位导致其成为大数据产业化革命的先行者。例如：主要面向美国政府安全领域的硅谷Palantir公司[4]2015年9月的估值达到200亿美元，成为继Uber、小米、Airbnb之后，全球估值第4高的创业公司。　　安全领域的数据可大体分为3类：① 公安内部数据；②社会数据，如工商局注册信息、水电煤气费用数据、法院文件资料等；③互联网数据。其中，由于互联网数据易于采集、便于分析，且数据量大，能够直接产生价值，因此作为大数据标杆应用领域的互联网领域越来越受到安全领域企事业单位的重视。考虑到前两类数据的数据量增幅远低于互联网数据的增幅，互联网数据已成为安全领域数据分析技术的主要突破点。　　使用互联网数据进行产业化挖掘面临着两个基本问题[3]：①多源数据的解析、清洗与整合。据统计，目前采集到的数据 85%以上是非结构化和半结构化数据，需要按照内容对数据进行清洗、去冗降噪并重新整合，规范成便于并行处理的结构化数据；②对互联网身份进行实体识别，即判断数据中哪些是用于描述同一实体。无论是网络社区的群组发现、好友推荐，还是电商的用户画像、广告精确投放，以及安全领域对可疑犯罪分子的描述及定位，都必须建立在互联网身份准确关联的基础上。　　1面向身份识别的数据定制　　本文侧重互联网身份识别，因此分析的原始数据为经过降噪处理的结构化数据。由于互联网数据的特性，数据内部存在大量冗余信息，如不同时间采集到的信息内容可能相同。　　行业内部统一规范了部分标准协议，每个标准协议具有相同的表结构。能否通过对数据的重构获得高价值密度的数据直接决定了公司的盈利能力。本文提出一种建立在实体识别需求基础上的数据重构方式，用于数据的冗余处理。经过测试，使用该方法可使数据存储空间下降为初始数据的400分之一，相当于使用相同的存储，却能承载重构前400倍的数据量，且与后续业务需求更加紧密，从而节省计算成本，极大地提升办案效率。　　1.1关注信息提取　　分析的第一步，是在不损失关注数据的前提下，将接入的数据中关注的信息转换为等效且统一标准的结构化数据。使用pig调度MapReduce[5，6]分析Hadoop 分布式系统（Hadoop Distributed File System ： HDFS）上存储的数据，同时在pig脚本内部通过“through”命令调用awk工具实现相关功能。　　1.1.1数据按协议分离　　将接入数据按照不同规范进行分类，存储到相应位置。以webuser和 http两个协议为例，伪代码如下：　　DataInput = LOAD hdfs：//hbasename0：9000/flumebcp_.*；　　Data = filter DataInput by （$0 == http） OR （$0 == webuser）；　　split Data into d_webuser if $0 == webuser， d_http if $0 == http ；　　store d_webuser into /bigdatawebuser using PigStorage（t）；　　store d_http into /bi