密码字典数据去重算法探究.docVIP

下载本文档

6
0
约3.62千字
约 7页
2017-06-13 发布于福建
举报
版权申诉

密码字典数据去重算法探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

密码字典数据去重算法探究

密码字典数据去重算法探究　　摘要对直接去重算法、Hash去重算法和Hadoop集群数据去重算法进行研究分析，得出各算法在密码字典数据去重中的适用场合。去重后的密码字典作为密码字符子集，为面向暴力破解的密码字典生成提供了有效方法关键词数据去重；密码字典；暴力破解 DOI DOI： 10.11907/rjdk.162429 中图分类号： TP312 文献标识码： A 文章编号文章编号：2017）002005702 0 引言密码作为一种常见的认证方式之一，为用户合法利用网络信息系统提供了安全保障，同时也给不法分子运用VPN、加密邮件系统等，进行恶意软件传输、敏感数据和网络攻击提供了逃避打击的庇护。计算机网络信息系统的安全性很多都是依靠密码来加以保障，密码破解对于网络安全监管部门等追踪网络犯罪、进行电子取证和互联网内容审计都有着十分重要的意义。而对于用户而言，在设置密码时，为了便于记忆，往往选择位数较短、有规律的密码，会选择自己姓名、生日和有特殊意义的字母单词，而且大多数用户，在不同场合可能采用相同的密码。通过不同网站公布的已泄露密码整合的密码字典发现，用户密码存在重复，因此，密码字典数据去重对构建面向暴力破解密码字典的密码集合研究具有重要意义 1 数据去重研究现状计算机信息数据的海量增长带来了重复数据的指数级增长。中国知网上检索“数据去重”、“重复数据删除”等关键词，发现其在相似文档检测[1]、海量图片处理[2]、信息安全[3]和移动终端通讯录[4]等方面研究较多。而在中国知网上检索“数组去重算法”去重，发现几乎没有相关研究，也缺乏海量数据去重方面的研究文献[1]提供了一种文本去重检测方法，主要包括复制检测和语义检测，其主要内容是根据网页文章长度取出除去停用词后的短文本，即文章的指纹长度，使用综合权值打分标准。文献[1]得出结论如下：无论是原本的LCS（Longest Common Subsequence）还是改进后所得到的文档集合都优于VSM（Vector Space Model）。文献[2]针对图片具有的数据特征，提取图片集的特征值，计算任意图片及其欧氏距离，判断其是否为相同图片。文献[5]通过Mapreduce采用WordCount算法对文本进行键值排序，将文本中出现的单词，按关键词进行统计，实现对重复单词的去除。该文对WordCount算法进行了探究，实现了单词不区分大小写排序和去重，但没有对去重算法作深入研究，同时也没有对去重算法作进一步比较。文献[3]分析了不同群体密码特征，介绍了一种利用马尔科夫模型生成专用密码字典的方法。该文构建密码字典方法是在泄露密码预处理和去重的基础上开展，虽然详细介绍了如何利用马尔科夫预测模型构建专用的密码字典，但并没有研究密码字典数据去重算法 2 密码字典数据去重 2.1 数组去重算法（1）直接去重。直接去重是通过遍历到元素集合，检测是否是数组重复，存在两层嵌套遍历[6]。采用indexOf函数的方法是通过检测数组在所在元素集中是否存在重复，从原理上也是一种直接去重的方法[7] （2）Hash去重。Hash函数，就是用于将数组对象转换成一个随机地址空间，数组采取散列表存?Γ?实现去重引擎以O（1）的时间复杂度来访问对象的数组属性。不同的去重引擎使用不同的Hash函数，常见的有MD5、SHA等。所以Hash去重的方式需要唯一ID才可以作为Hash索引，最后通过遍历Hash索引，去除重复数据。与直接去重算法相比较，Hash索引去重方法需要对原始数据进行操作，建立Hash索引，此ID可以是临时的，在算法结束时销毁。Hash去重流程如图1所示 2.2 Hadoop集群密码字典数据去重算法 Hadoop由HDFS和MapReduce两个核心部件组成，HDFS实现文件的分布式存储，MapReduce实现数据的分析处理。MapReduce基本思想：将待执行的任务分解成Map（映射）和Reduce（归约）过程，其中每个过程都是以键值（key，value）作为输入输出，输入输出类型可以选择。WordCount是通过Hadoop系统统计文档中每个单词出现的次数。Map函数检查文档，结束标示符为基准，标识出每一个条目，并标识出条目出现的次数为1，并记录为的键值对。Reduce函数以key值为统计，输出新的键值对，实现对key出现的频率进行计数。密码字典去重的目的主要是实现密码字典条目的清理，并不需要统计密码字典中密码条目出现的次数，只需在Reduce函数中作出修改，将计算词频的参数换成置null，就可以达到去重的目的。本研究的实验环境是基于Hadoop 1.x（Hadoop-1.0.3）的3个计算节点