- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第47卷第1期华北理工大学学报(自然科学版)Vol.47No.1
2025年1月JournalofNorthChinaUniversityofScienceandTechnology(NaturalScienceEdition)Jan.2025
文章编号:2095-2716(2025)01-0043-10
基于中间态的网络安全机器翻译模型
韩睿1,于复兴12,董海琳²,韩阳4
(1.华北理工大学人工智能学院,河北唐山063210;2.河北省工业智能感知重点实验室,河北唐山063210;3.华北理
工大学外国语学院,河北唐山063210;4.华北理工大学理学院,河北唐山063210)
关键词:网络安全;机器翻译;依存分析;Transformer模型
摘要:针对网络安全领域的中译英机器翻译存在大量专业术语,数据规模小以及不同语言的
句法结构存在差异等问题,提出了一种基于中间态的网络安全机器翻译模型。通过研究中英句
法结构上的差异,制定将中文转换为中间态的规则。结合BERT与SpaCy生成包含语义嵌入的
中间态词向量,利用BERT捕捉句子的上下文语义信息,通过SpaCy解析依存关系,将两者整
合为高维特征向量。实验结果表明,所提出的翻译模型在低资源网络安全双语数据集BLEU值
达到了28.2,提升了1.0个BLEU值,WMT18公开中英双语数据集BLEU值达到了21.1,提升
了0.9个BLEU值。可见通过中间态以及捕捉上下文语义信息和句法结构信息,模型能够更准
确地处理专业术语、复杂句法等问题。
中图分类号:TP3911文献标识码:A
引言
当今时代信息化快速发展,网络的应用更加广泛,使得网络安全变得至关重要。网络安全是支撑数字经
济,保护国家安全以及社会稳定的关键环节。在网络安全领域中,英语的使用频率极高,以及术语的高度专业
化,这对翻译的准确性有着很高的要求。人工翻译虽然精确,但耗时费力,网络安全事件响应需要接近实时的
操作。因此,机器翻译成为解决英语译文问题的一个有效途径。机器翻译技术由传统的统计机器翻译,规则
机器翻译发展到现在的神经机器翻译,模型翻译性能不断提高。其中主流的机器翻译架构为Transformer,
Transformer基于自注意力机制,能够同时处理输入序列中的所有词汇,大大的提高了翻译性能。
然而,尽管机器翻译取得了显著进展,仍然面临许多挑战。例如,翻译结果可能存在语法不通顺、断句错误、
表达生硬等问题2]。造成这些问题的主要原因在于汉语与英语在表达逻辑上的差异,以及机器翻译技术尚未完
全具备全面考虑这些差异的能力。对于网络安全这种专业性强、术语复杂的领域,直接翻译有时会导致出现结
构混乱的句子。机器翻译在处理网络安全领域的内容时,常常会出现语义模糊、术语使用不当等问题,其准确
性和语言流畅度都会受到影响。网络安全双语语料非常稀缺,使得训练高性能的机器翻译模型变得更加困难。
基于此,提升机器翻译在网络安全领域的表现,不仅需要增强对专业术语和语料的处理能力,还需要深人
理解汉英两种语言在表达逻辑和语法结构上的根本差异。网络安全领域平行语料稀缺,使得训练机器翻译模型
更加困难。预训练模型BERT[3.4在处理低资源语言和数据稀疏问题上,通过利用预训练和微调策略以及强大
的模型容量和语言理解能力,能够显著提高低资源的机器翻译性能。
针对上述问题,结合汉语表达和英语表达之间的逻辑差异性,完善机器翻译的逻辑分析,本文提出中间态
概念。首先对中文语句进行句法分析,通过SpaCy[5.6]识别句子的成分和结构,根据中文的句法结构将其转换
收稿日期:2024-07-23
基金项目:教育部产学研协同育人项目(221006043084307):华北理工大学网络安全硕士专业英语的机器翻译科学应用改革项目。
第一作者:韩睿,硕士研究生,研究方向:机器翻译。E-mail:HanR@.
通讯作者:于复兴,硕士,副教授。研究方向:大数据处理,图形图像处理。E-mail:yfx626@126.com.
D0I:10.3969/jjssn.2095-2716.2025.01.006
44
原创力文档


文档评论(0)