MD5算法在重复邮件识别方面的研究和实现.docVIP

MD5算法在重复邮件识别方面的研究和实现.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MD5算法在重复邮件识别方面的研究和实现.doc

MD5算法在重复邮件识别方面的研究和实现 摘要描述MD5信息-摘要算法。这种算法可以将任意长度的信息 处理成一个128bit (定长)的“指纹”或“信息摘要”。任意两个不同 信息不可能处理成同样的信息摘要,同时根据得到的信息摘要也不可 能逆推出原始信息。MD5算法主要用于数字签名,出于安全的考虑, 任何信息(明文)在用公钥加密系统(例如RSA)加密传送前,都要用MD5 算法处理出一个信息摘要。并应用MD5算法,实现对重复邮件的识别, 从而准确、快速地将无用邮件过滤出来。 本文采集自网络,本站发布的论文均是优质论文,供学习和研宂 使用,文中立场与本网站无关,版权和著作权归原作者所有,如有不 愿意被转载的情况,请通知我们删除已转载的信息,如果需要分享, 请保留本段说明。 关键词MD5;信息-摘要算法;秉复邮件的识别;邮件过滤 中图分类号TN918文献标识码A文章编号1674-6708 (2011) 57-0185-02 随着网络和通信技术的发展,国际互联网正H渐成为全球最大的 信息媒体,在人们的生活中发挥着越来越重要的作用。其中,电子邮 件作为一种新的联系方式,在互联网上的应用十分普遍,邮件服务器 众多,用户数量巨大。通过电子邮件,人们可以方便、快捷地向他人 传递信息,可以和他人实现跨时间、跨地域的相互交流。电子邮件正 代替传统的通信信件,成为人们生活当中不可或缺的一部分。 在实际的应用中,舆情监测系统每天从互联网上实时获取大量的 电子邮件信息,存储在本地之后,再进行后续地处理和分析,因为存 在着以下的情况,很多重复的邮件也被采集存储下来:同一封邮件同 时向地址簿中的多个联系人发送;向同一个人重复发送同一封邮件。 重复邮件的存在,不仅浪费了宝贵的存储空间和带宽资源,而且大大 增加了后端人员对邮件的处理和分析工作量。因此,对重复邮件进行 识别和过滤,成为提高工作效率的关键环节。 但是,若采用直接比较邮件内容的方法来识别重复邮件,不仅需 要将邮件原文全部保存入库,而且对大文本进行逐字匹配的效率也不 高,算法在时间复杂度和空间复杂度上都有较大的缺憾,还会影响新 邮件的实时接收。鉴于此,我们经过认真研究,决定在邮件分析程序 中构造邮件要素的特征值,并应用MD5算法,实现对重复邮件的识别, 从而准确、快速地将无用邮件过滤出来。 1 MD5算法描述 MD5 的全称是 Message-Digest Algorithm 5(信息-摘要算法)[2], 在 90 年代初由 MIT Laboratory for Computer Science 和 RSA Data Security Inc 的 Ronald L. Rivest 开发出来,经 MD2、MD3 和 MD4 发 展而来。它的作用是让大容量信息在用数字签名软件签署私人密匙前 被“压缩”成一种保密的格式(即将一个任意长度的字节串变换成一 个定长的大整数)。MD5的典型应用是对一段信息产生信息摘要 (Message-Digest),以防止信息内容被篡改。比如,在UNIX下有很 多软件在下载的时候都有一个相同的扩展名为.md5的文件,在这个文 件中通常只有一行文本,大致结构如: MD5 (tanajiya. tar. gz) =0cal75b9c0f726a831d895e269332461 这就是tanajiya. tar. gz文件的数字签名。MD5将整个文件当作 一个大文本信息,通过其不可逆的字符串变换算法,产生了这个唯一 的MD5信息摘要。如果在以后传播这个文件的过程中,无论文件的内 容发生了任何形式的改变(包括人为修改或者下载过程中线路不稳定 引起的传输错误等),只要对这个文件重新计算MD5,就会发现信息摘 要不相同,由此可以确定得到的是一个不正确的文件。 MD5还广泛用于加密和解密技术上。比如在UNIX系统中,用户的 密码就是以MD5 (或其它类似的算法)经加密后存储在文件系统中。 当用户登录的时候,系统把用户输入的密码计算成MD5值,然后再去 和保存在文件系统中的MD5值进行比较,进而确定输入的密码是否正 确。通过这样的步骤,系统在并不知道用户密码的明码的情况下就可 以确定用户登录系统的合法性。这不但可以避免用户的密码被具存系 统管理员权限的用户知道,而且还在一定程度上增加了密码被破解的 难度 MD5算法输入是一个任意长度的字节串,每个字节是8个bit。算 法的执行分为以下几个步骤: 1)补位 MD5算法先对输入的数据进行补位,使得数据的长度(以byte为 单位)对64求余的结果是56。即数据扩展至LEN=K*64+56个字节,K 为整数。补位方法:补一个1,然后补0至满足上述要求。相当于补 一个0x80的字节,再补值为0的字节。这一步里总共补充的字节数为 0个~63个。 2)附加

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档