壮族典籍多语平行语料库建设与应用研究.docVIP

壮族典籍多语平行语料库建设与应用研究.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
壮族典籍多语平行语料库建设与应用研究.doc

壮族典籍多语平行语料库建设与应用研 究 秀苗 广西百色学院国际教育学院 摘要: 文章综述Y壮族典籍多语平行语料库的设计、建设和应用研宂,该语料库具有库 容大、开放性、便捷性等特点,为语言、文化、文学比较,翻译研宂提供真实语 料数据、技术支持等研究基础平台,还可以为其他少数民族典籍多语平行语料库 建设提供借鉴和参考。 关键词: 壮族典籍多语平行语料库;设计;建设;应用; 周秀苗(1974—),女,广西百色学院国际教育学院教授,院长,主 要研宄方向为民族戏剧与翻译研宄。 基金:国家社会科学基金2015年度研究课题“中越跨境民族民间戏剧比较研 宄”(批准号:15XZW040) 近几十年來,语料库、语料库语言学、语料库翻译学研宂在国A外如火如荼,这 一研宄广泛应用于词汇、语法、语义、语言对比、词典编撰、二语习得、翻译、 文学等领域中,并取得显著成效。为了应用或者研究需要,国内外先后建设了跨 学科、多语言、内容多样、库容不同的语料库。目前,语料库特别是平行语料成 为国内多语平行语料库建设与应用研究的热点,但语料库语料存在单语或双语 语料库为主、多语语料库数量少以及民族典籍多语语料库建设滞后等问题。本研 宄首先构建壮族典籍(壮、汉、英)多语平行语料库,然后基于壮族典籍多语平 行语料库检索数据,对壮、汉、英三种语言进行语言、文化、文学比较和翻译研 宄,以期为其他少数民族典籍多语平行语料库建设提供借鉴和参考鉴。 一、多语平行语料库研宄现状 就语料库建设而言,近五年,国际上较具代表性的多语平行语料库有:欧洲委员 会联合研宄中心研制的 DGT-Acquis (2011)、ECDC-TM (2012)以及 EAC-TM (2012) 等三个语料库,语料主要涉及教育与文化、公共卫生和法律;比利时根特大学 (Ghent University) (2011)研制的用于翻译学研究的荷兰语平行语料库 (Dutch Parallel Corpus, DPC)。这些语料库大多存在语料来源范围单一,主 要用于语言识别、文档级对齐、专业术语提取等自然语言处理研究。具体信息见 如卜表: 在国内,多语平行语料库建设研究成果不显著。主要有:张姝、赵铁军等(2004) 建设的英、日、汉三语平行语料库一 “而向事件的多语平行语料库”,王成平 (2012)建设了彝、汉、英三语平行语料库。就平行语料库应用研宄而言,国内 专家、学者主要在词汇、词典、语法、教学及翻译等领域开展应用研究。词汇,如 谢元花的语料库与词汇研究(2002):语法,如秦洪武、王克非(2009)基于对 应语料库的英译汉语言特征分析;词典,如李德俊(2006)的基于英汉平行语料 库的词典编写系统Cps Diet;翻译与教学,如于莲江(2004)的基于语料库的翻 译教学研宄。 EAC-TM 文化与教育 26种欧洲 家语言 5种激育、 文献、文学、 行政管理文 件、国际通 讯、新闻报 3个语种淺 语、法语、呑 兰语 ECDC-TM 公共卫生 25种欧洲 家语言 新闻(基于 4个新闻文 本语料库) 3个语种识 拉伯语、西0 牙语、英语 DGT-Acquis 法律 由此可见,国内多语平行语料库建设与应用研究主要存在以下问题:1.国内语料 库语料内容不够丰富,主要为单语或双语语料库,多语语料库数量少。2.平行语 料库多以英语为中心的双语语料库为主。3.国内多语平行语料库应用研究领域发 展不平衡,主要集屮于语言学、外语教学与词典学研宂,较少用于文学和文化研 宄。4.国内民族典籍多语语料库建设滞后,不能适应文化“走出去”的耍求。以 上问题为本项目关于壮族典籍多语平行语料库建设与应用研宄留下了空间,本 研宄具有以下意义: 学术价值:壮族典籍多语平行语料库建成可以对现有的壮族史诗、民歌、戏剧 等优秀民族文化遗产进行数据采集和档案式保护。同时,为民族语言、文化、文 学等领域的比较研宂提供跨语言信息检索服务,也为翻译学和翻译教学研宂提 供真实语料与语言转换数据支持,通过课题相关研宄成果,为民族语言文化、文 学比较研宄、民族典籍翻译学和翻译教学研宄提供新思路、新方法。 应用价值:基于语料库检索数据进行以下研究,为壮、汉、英比较提供多学科 新思路、新方法:语言、文化比较研宂;文学比较研究;民族典籍翻译与翻译教学 研宄;为其他少数民族典籍多语平行语料库建设提供借鉴和参考鉴。 二、壮族典籍多语平行语料库前期设计思路 (一)整体研宄思路如下图所示: 建立与壮语文本和对齐的三大典籍的壮语音频子库。壮族典籍多语平行语料库音 频子库,下设三个二级子库,每个子库内建立壮语与音频对齐的平行子库。 三、壮族典籍多语平行语料库的构建与应用研宄 (一) 壮族典籍多语平行语料库使用的是ELAN软件。 ELAN全称是ELAN-Lingui

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档