一种新的基于对称性的字符串相似性处理算法-燕山大学学报.pdf

一种新的基于对称性的字符串相似性处理算法-燕山大学学报.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种新的基于对称性的字符串相似性处理算法-燕山大学学报

38 卷 1 期 燕山大学学报 Vol. 38 No. 1 20 14 1 Journal of Yanshan University Jan. 2014 年 月 文章编号:1007-791X (2014) 01-0049-08 一种新的基于对称性的字符串相似性处理算法 1 1, * 2 1 1 王燕 ,周军锋 ,汤 显 ,陈子阳 ,郭景峰 1. , 066004 2. , 066004 ( 燕山大学 信息科学与工程学院 河北 秦皇岛 ; 燕山大学 经济管理学院 河北 秦皇岛 ) 摘 要:对于给定的两个字符串集合,基于相似度的连接操作可用于从中找出相似的字符串对,该操作是数据 清洗、数据集成以及协同过滤等应用中的核心操作之一,其执行效率直接影响系统的整体性能。本文提出一种 Trie-TSS trie 高效计算字符串集合间连接操作的算法 ,该方法基于 树进行处理,利用对称性来减少冗余计算。提 出一种 在减少冗余编辑距离计算操作的优化技术来进一步提升系统性能。最后通过实验验证了Trie-TSS 算法 的高效性。 trie Trie-TSS 关键词:字符串相似性; 树;编辑距离; ;优化技术 中图分类号:TP311 文献标志码:A DOI:10.3969/j .issn.1007-791X .20 14.01.008 0 引言 开销。 trie 3 Trie-Traverse 在基于 树的 种算法中, 通 对于给定的两个字符串集合,基于相似度的连 trie 过遍历 树,根据双亲结点的有效结点集来计算 接操作用于从中找出相似的字符串对,是数据集 其孩子结点的有效结点集。和Trie-Traverse 算法相 成、数据清洗以及协同过滤等应用中频繁使用的核 比,Trie-Dynamic 和Trie-PathStack 算法通过利用 心操作之一,用于从不同字符串集合中识别近似匹 对称性减少了冗余计算,更适用于字符串集合的近 配的实体。对于大规模数据集来说,其执行效率 似自连接操作;对于不同字符串集合的近似连接操 是影响系统整体性能的关键因素之一,成为近些年 [1-8] 作来说,其优势难以体现。 研究的热点问题 。 针对求解两个字符串集合的近似连接操作, 对于给定的两个字符串,其相似度可以使用

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档