- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种新的基于对称性的字符串相似性处理算法-燕山大学学报
38 卷 1 期 燕山大学学报 Vol. 38 No. 1
20 14 1 Journal of Yanshan University Jan. 2014
年 月
文章编号:1007-791X (2014) 01-0049-08
一种新的基于对称性的字符串相似性处理算法
1 1, * 2 1 1
王燕 ,周军锋 ,汤 显 ,陈子阳 ,郭景峰
1. , 066004 2. , 066004
( 燕山大学 信息科学与工程学院 河北 秦皇岛 ; 燕山大学 经济管理学院 河北 秦皇岛 )
摘 要:对于给定的两个字符串集合,基于相似度的连接操作可用于从中找出相似的字符串对,该操作是数据
清洗、数据集成以及协同过滤等应用中的核心操作之一,其执行效率直接影响系统的整体性能。本文提出一种
Trie-TSS trie
高效计算字符串集合间连接操作的算法 ,该方法基于 树进行处理,利用对称性来减少冗余计算。提
出一种 在减少冗余编辑距离计算操作的优化技术来进一步提升系统性能。最后通过实验验证了Trie-TSS 算法
的高效性。
trie Trie-TSS
关键词:字符串相似性; 树;编辑距离; ;优化技术
中图分类号:TP311 文献标志码:A DOI:10.3969/j .issn.1007-791X .20 14.01.008
0 引言 开销。
trie 3 Trie-Traverse
在基于 树的 种算法中, 通
对于给定的两个字符串集合,基于相似度的连
trie
过遍历 树,根据双亲结点的有效结点集来计算
接操作用于从中找出相似的字符串对,是数据集
其孩子结点的有效结点集。和Trie-Traverse 算法相
成、数据清洗以及协同过滤等应用中频繁使用的核
比,Trie-Dynamic 和Trie-PathStack 算法通过利用
心操作之一,用于从不同字符串集合中识别近似匹
对称性减少了冗余计算,更适用于字符串集合的近
配的实体。对于大规模数据集来说,其执行效率
似自连接操作;对于不同字符串集合的近似连接操
是影响系统整体性能的关键因素之一,成为近些年
[1-8] 作来说,其优势难以体现。
研究的热点问题 。
针对求解两个字符串集合的近似连接操作,
对于给定的两个字符串,其相似度可以使用
您可能关注的文档
最近下载
- 河南省建设工程安全生产标准化图集.docx VIP
- 别克英朗GT说明书.docx VIP
- 洪水计算(推理公式法).xls VIP
- 初中音乐 西南师大课标版 七年级上册 走进歌乐山 《走进歌乐山》 课件.ppt VIP
- (高清版)DBJ∕T 13-278-2025 《福建省电动汽车充电基础设施建设技术标准》.pdf VIP
- 带式输送机头尾部基础荷载计算书.xls VIP
- 建筑《工程质量》首件验收制度.docx VIP
- (高清版)DB21∕T 4071-2024 沥青路面再生集料应用技术规程.pdf VIP
- 中国冰沙机行业市场现状分析及竞争格局与投资发展研究报告2024-2029版.docx
- Word操作培训ppt课件.pptx VIP
文档评论(0)