- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MD5算法在重复邮件识别方面的研究和实现.doc
MD5算法在重复邮件识别方面的研究和实现
摘要描述MD5信息-摘要算法。这种算法可以将任意长度的信息 处理成一个128bit (定长)的“指纹”或“信息摘要”。任意两个不同 信息不可能处理成同样的信息摘要,同时根据得到的信息摘要也不可 能逆推出原始信息。MD5算法主要用于数字签名,出于安全的考虑, 任何信息(明文)在用公钥加密系统(例如RSA)加密传送前,都要用MD5 算法处理出一个信息摘要。并应用MD5算法,实现对重复邮件的识别, 从而准确、快速地将无用邮件过滤出来。
本文采集自网络,本站发布的论文均是优质论文,供学习和研宂 使用,文中立场与本网站无关,版权和著作权归原作者所有,如有不 愿意被转载的情况,请通知我们删除已转载的信息,如果需要分享, 请保留本段说明。
关键词MD5;信息-摘要算法;秉复邮件的识别;邮件过滤
中图分类号TN918文献标识码A文章编号1674-6708 (2011) 57-0185-02
随着网络和通信技术的发展,国际互联网正H渐成为全球最大的 信息媒体,在人们的生活中发挥着越来越重要的作用。其中,电子邮 件作为一种新的联系方式,在互联网上的应用十分普遍,邮件服务器 众多,用户数量巨大。通过电子邮件,人们可以方便、快捷地向他人 传递信息,可以和他人实现跨时间、跨地域的相互交流。电子邮件正 代替传统的通信信件,成为人们生活当中不可或缺的一部分。
在实际的应用中,舆情监测系统每天从互联网上实时获取大量的 电子邮件信息,存储在本地之后,再进行后续地处理和分析,因为存 在着以下的情况,很多重复的邮件也被采集存储下来:同一封邮件同 时向地址簿中的多个联系人发送;向同一个人重复发送同一封邮件。 重复邮件的存在,不仅浪费了宝贵的存储空间和带宽资源,而且大大 增加了后端人员对邮件的处理和分析工作量。因此,对重复邮件进行 识别和过滤,成为提高工作效率的关键环节。
但是,若采用直接比较邮件内容的方法来识别重复邮件,不仅需 要将邮件原文全部保存入库,而且对大文本进行逐字匹配的效率也不 高,算法在时间复杂度和空间复杂度上都有较大的缺憾,还会影响新 邮件的实时接收。鉴于此,我们经过认真研究,决定在邮件分析程序 中构造邮件要素的特征值,并应用MD5算法,实现对重复邮件的识别, 从而准确、快速地将无用邮件过滤出来。
1 MD5算法描述
MD5 的全称是 Message-Digest Algorithm 5(信息-摘要算法)[2], 在 90 年代初由 MIT Laboratory for Computer Science 和 RSA Data Security Inc 的 Ronald L. Rivest 开发出来,经 MD2、MD3 和 MD4 发 展而来。它的作用是让大容量信息在用数字签名软件签署私人密匙前 被“压缩”成一种保密的格式(即将一个任意长度的字节串变换成一 个定长的大整数)。MD5的典型应用是对一段信息产生信息摘要
(Message-Digest),以防止信息内容被篡改。比如,在UNIX下有很 多软件在下载的时候都有一个相同的扩展名为.md5的文件,在这个文 件中通常只有一行文本,大致结构如:
MD5 (tanajiya. tar. gz) =0cal75b9c0f726a831d895e269332461
这就是tanajiya. tar. gz文件的数字签名。MD5将整个文件当作 一个大文本信息,通过其不可逆的字符串变换算法,产生了这个唯一 的MD5信息摘要。如果在以后传播这个文件的过程中,无论文件的内 容发生了任何形式的改变(包括人为修改或者下载过程中线路不稳定 引起的传输错误等),只要对这个文件重新计算MD5,就会发现信息摘 要不相同,由此可以确定得到的是一个不正确的文件。
MD5还广泛用于加密和解密技术上。比如在UNIX系统中,用户的 密码就是以MD5 (或其它类似的算法)经加密后存储在文件系统中。 当用户登录的时候,系统把用户输入的密码计算成MD5值,然后再去 和保存在文件系统中的MD5值进行比较,进而确定输入的密码是否正 确。通过这样的步骤,系统在并不知道用户密码的明码的情况下就可 以确定用户登录系统的合法性。这不但可以避免用户的密码被具存系 统管理员权限的用户知道,而且还在一定程度上增加了密码被破解的
难度
MD5算法输入是一个任意长度的字节串,每个字节是8个bit。算
法的执行分为以下几个步骤:
1)补位
MD5算法先对输入的数据进行补位,使得数据的长度(以byte为
单位)对64求余的结果是56。即数据扩展至LEN=K*64+56个字节,K 为整数。补位方法:补一个1,然后补0至满足上述要求。相当于补 一个0x80的字节,再补值为0的字节。这一步里总共补充的字节数为 0个~63个。
2)附加
您可能关注的文档
最近下载
- 铁路施工组织设计.pdf VIP
- 路由交换技术微课版左浩课后参考答案.docx
- 颈椎病教学查房_图文.ppt VIP
- 精品解析:2023-2024学年山东省滨州市阳信县统编版六年级下册期末考试语文试卷(解析版).docx VIP
- 精品解析:2023-2024学年山东省滨州市阳信县统编版六年级下册期末考试语文试卷(原卷版).docx VIP
- 第八章 半导体探测器.ppt VIP
- 初中信息技术中考excel操作题.pdf VIP
- 05SFG04防空地下室室外出入口部钢结构装配式防倒塌棚架结构设计.docx VIP
- 多团队协作下的加速康复外科ERAS.pptx VIP
- 3气体探测器完整版.ppt VIP
文档评论(0)