- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第35卷第9期 计算机应用与软件 Vol35No.9
2018年9月 ComputerApplicationsandSoftware Sep.2018
濒危语言与汉语平行语料库动态构建技术研究
1 1 1 2 1 1
于重重 曹 帅 张青川 尹蔚彬 孙沁瑶 刘 畅
1(北京工商大学计算机与信息工程学院 北京 100048)
2(中国社会科学院民族学与人类学研究所 北京 100081)
摘 要 利用自然语言处理的各种技术完成濒危语言的口语记音、转写、标注和翻译是保护国家濒危语言非物
质文化遗产的主要途径。濒危语言是低资源语言,在机器翻译过程中,构建其语言模型面临的主要问题是语料不
足。以濒危语言———吕苏语的语料作为被扩展对象,首先提取吕苏语的关键词,然后依据提取的关键词在静态网
页下爬虫获取大量的中文文本,最后通过基于最小哈希的Jaccard算法来计算吕苏语语料与获取的中文文本之间
的相似度,将相似度较高的中文文本作为吕苏语的汉语平行扩展语料。这一过程有效地解决了濒危语言在机器
翻译过程中的语料不足问题。
关键词 濒危语言 吕苏语 语料扩展 平行语料库
中图分类号 TP3 文献标识码 A DOI:10.3969/j.issn.1000386x.2018.09.011
DYNAMICCONSTRUCTIONTECHNOLOGYOFENDANGEREDLANGUAGE
ANDCHINESEPARALLELCORPUS
1 1 1 2 1 1
YuChongchong CaoShuai ZhangQingchuan YinWeibin SunQinyao LiuChang
1(SchoolofComputerandInformationEngineering,BeijingTechnologyandBusinessUniversity,Beijing100048,China)
2(InstituteofEthnologyandAnthropology,ChineseAcademyofSocialScience,Beijing100081,China)
Abstract Usingthenaturallanguageprocessingtodealwithsomeproblemofendangeredlanguageisanimportant
solutiontoprotectthenationalendangeredlanguagesintangibleculturalheritage.Endangeredlanguageisalowresource
language.Themainprobleminconstructingendangeredlanguagemodelisthelackofcorpus.Theexperimentusedthe
corpusofLizulanguageastheobjectofexpansion,thenextractedthekeywords,obtainedalargenumberofChinese
textsinthestaticwebpageaccordingtotheextractedkeywords,calculatedthesimilarityvaluebetweentheLizulanguage
andtheChinesetextsbyJaccardalgorithmbasedontheminimumhash.TheChinesetextswithhighsimilaritywereused
asaparallelcorpusofChineseinLizulanguage.Thisprocesseffectivelysolvestheproblemofinsufficientcorpusinthe
processofma
文档评论(0)