- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
计算机技术
ComputerTechnology
一种基于指令流水线的数据匹配算法
杨嘉佳,李正,郑儿,赵静,燕玮,刘金
(中国电子信息产业集团有限公司第六研究所,北京100083)
摘要:基于正则表达式的数据匹配技术在基础数据治理和清洗方面有着重要的应用价值。然而,在高性能计算领
域的数据处理过程中因算法匹配吞吐率低,无法满足大数据处理环境下对算法的高性能要求,造成其应用范围受
限。针对此现象,提出一种基于指令流水线的数据匹配算法,称之为γFA:利用Intel架构内置的向量指令流水式读入
若干字符段,通过大宽度向量比较函数进行字符段与非信任字符集的流水比值处理并转换成整型向量,通过位置定
位函数累加定位出所有整型向量的首个非信任字符位置,计算出可略过的总字符数,减少正则表达式匹配引擎因处
理非信任字符集导致访问低速内存而带来巨大的时间开销,实现正则表达式匹配算法的性能提升。实验结果表明,
γFA算法的吞吐率是原始DFA算法的15.88~53.06倍,相比于ßFA算法,吞吐率提升了35.12%~63.26%,取得较好的性
能加速效果。此外,通过对γFA算法进行优化后,性能可接近100Gb/s,为原始DFA匹配算法性能的15.88~64.94倍,
相比于γFA算法性能提升了2.15%~43.09%。
关键词:正则表达式匹配;指令流水;高性能数据匹配
中图分类号:TP391.1文献标志码:ADOI:10.16157/j.issn.0258-7998.245345
中文引用格式:杨嘉佳,李正,郑儿,等.一种基于指令流水线的数据匹配算法[J].电子技术应用,2025,51(2):81-85.
英文引用格式:YangJiajia,LiZheng,ZhengEr,etal.Adatamatchingalgorithmbasedoninstructionpipeline[J].Applicationof
ElectronicTechnique,2025,51(2):81-85.
Adatamatchingalgorithmbasedoninstructionpipeline
YangJiajia,LiZheng,ZhengEr,ZhaoJing,YanWei,LiuJin
(TheSixthResearchInstituteofChinaElectronicsCorporation,Beijing100083,China)
Abstract:Thedatamatchingtechnologybasedonregularexpressionshassignificantapplicationvalueinbasicdatagovernance
andcleaning.However,inthedataprocessingprocessofhigh-performancecomputing,thelowperformanceofalgorithmmatch‐
ingcannotmeetthehigh-performancerequirementsofalgorithmsinthebigda
您可能关注的文档
- 1.ppt制作及优化;2.办公模板制作;3.文案制作及优化。 + 关注
-
实名认证服务提供商
教师资格证、公共营养师持证人
本人专注ppt制作、办公模板编辑六年有余,可以根据客户需求做出高品质ppt、办公表格等模板,以及文案等。
原创力文档


文档评论(0)