- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多语种语言资源建设原则与方法
多语种语言资源建设原则与方法
【摘要】高效率地建设多语种语言资源,为信息化条件下的语言教学提供有力支持是当前亟待解决的问题。笔者在分析多语种语言资源的类型及其特点的基础上,提出了以人机互助为主要原则的多语种语言资源建设思想,并对多语种语言资源建设中涉及的主要方法与环节进行了描述,还对未来工作进行了展望。笔者认为在语言资源建设中,要区分机器与人的不同角色,在语言资源的获取、加工、管理和使用等阶段充分发挥机器的作用,而在语言素材的选择、语言资源的挖掘与利用等方面要充分发挥人的作用,实现人机结合,将人的主要精力投放于任务指导、语言分析等知识性活动层面,而将机器工作的重点投放在指令执行、重复操作等技术性层面,从而为语言资源建设提供有效解决方案。
【关键词】语言教学;语言技术;语言资源;人机互助
【中图分类号】G40-057 【文献标识码】B 【论文编号】1009―8097(2011)05―0073―06
一 研究背景
高效率地建设多语种语言资源,为信息化条件下的语言教学提供有力支持是当前亟待解决的问题。随着信息技术的迅猛发展,互联网已经成为当今人类生活中信息存储、传播和使用的主要媒介,各类基于互联网的资源和应用层出不穷。互联网上的信息内容之庞大,更新之迅捷,影响之广泛,是人类历史上任何媒体形式都无法与之相比的。互联网的出现同时也为语言资源的获取和使用提供了极大便利,国外一些研究者都在试图更好地挖掘互联网的潜在语言资源价值,面向教学等应用建设语言资源库[1][2][3]。本文着重从人机互助的角度讨论基于互联网的文本类型语言资源的建设工作,并对已经初步建成的多语种语言资源获取和加工系统进行简要介绍。
为了更好地开展语言资源建设工作,我们根据互联网上文本资源的生产时间和生产者特征将其分为三类:(1)互联网产生之前就已经存在的语言资源,其生产者不是网络用户。这类资源的年代一般较为久远,并且在其数字化之前,一般都是以纸质等非数字化媒体为存储和传播媒介。当这类语言资源经过数字化处理,并以网络为媒介进行存储、传播和???用后,就成为基于网络的语言资源。这类资源的主要特征是语言较为规范,内容较为可靠,经过数字化处理后便于计算机存储和使用,但是其规模有限,语言缺乏时代性。(2)互联网出现后,由专门媒体机构生产的语言资源,如报纸、期刊、广播、电视等传统媒体机构,通过建立网站而使得媒体内容在网络上存储、传播和使用。这类资源的主要特点是语言鲜活真实,内容可信度较高,具有较快的更新速度,同时由于这类资源具有了数字化形式,比传统媒体形式的资源更便于计算机存储和处理。(3)互联网出现后,由普通网络用户生产的语言资源。这类资源是互联网出现后发展极快的一类语言资源,并日益成为网络资源的主体,其代表形式主要包括邮件列表(Mail List)、新闻组(News Group)、论坛(BBS)、博客(Blog)、微博(Micro Blog)、维基百科(Wikipedia)等。这类资源的主要特征是用户直接参与网络信息的创造,其参与范围不再局限于少数人或机构,由于参与的广泛性使其具有较大的规模,并覆盖多种语言,具有传统媒体不具备的及时更新性,例如微博的出现已经成为新闻发布最迅捷的渠道。但是由于这类资源的生产者参差不齐,且缺乏有效监督和规范,因此其语言的规范性和内容的可靠性等都较第一和第二类资源要差。
综合考虑以上三类语言资源的特征,本文的工作主要集中于第二类语言资源的获取和使用。第一类资源由于其规模一定,内容具有封闭性,因此其获取和加工的难度相对要低,本文不做过多讨论;第三类资源由于其语言内容的可靠性和规范性难以得到保证,因此目前并不将其作为语言资源建设的主要来源。但第一与第三类资源都对语言教学都有着重要价值,第一类语言资源是传统的语言教学素材,对于这类资源应着重于其内容的深度加工和使用;而第三类语言资源由于其语言的鲜活性和时代性也对于语言学习有着重要帮助作用,对于这类资源应着重于资源的获取和筛选。
基于第二类网络资源的语言资源建设工作也并非易事,因为存在于互联网上的信息资源并不能够直接拿来被语言教学所使用,如果将其转化为语言教学资源还需要经过获取、评估、整理、加工、推送等一系列环节。如果所有环节都依靠人力完成,那么将耗费大量的人力物力,且由于人力的有限使得获取规模有很大局限性,难以适应实时更新的要求。目前,利用网络资源开展的语言资源建设中,还主要是以人力为主,因此尽管网络信息资源规模巨大,且不断更新扩张,但以网络资源为基础开展的语言资源建设工作还很不够。例如,目前国内外语教学资源的主体来源还是来自第一类语言资源,即对已有的非数字化形式的语言资源进行数字化处理后得到的语言资源,如英文小说库、散文库、教材库、大学英语
文档评论(0)