- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析辞书编纂中语料库数据分析的原则.doc
浅析辞书编纂中语料库数据分析的原则
摘 要:随着计算机技术的发展,语料库技术作为一种更为科学的、经济的手段,被越来越多地引入到辞书编纂领域。在汉语辞书释义方面的语料库技术运用,不仅能提高辞书释义的客观性、准确性,还能进一步增强汉语辞书编纂的科学性。语料库的出现在为我们提供方便的同时,也带来了一些问题。为了确保辞书编纂中语料分析的合理性、科学性,我们在进行数据分析时,应把握真实性、穷尽性、有效性和定量分析与定性分析相结合的原则。
关键词:辞书编纂 语料库 原则
一、引言
自20世纪80年代以来,随着计算机应用技术的不断发展,以语料库为基础的语言学研究在语言学和计算机科学领域中都取得了丰硕成果,语料库的建设也受到了世界各国的广泛重视。近年来,语料库规模的扩大及配套的检索技术的完善,为辞书编纂带来了新的思路和角度。大量电子文本的出现,不仅给辞书编纂带来了大量的信息来源,使我们节省了很多人力、物力,也给读者提供了一种新的更加快捷的语料查找渠道,便于人们进行有关方面的学习和研究。但与此同时,为了确保辞书编纂中语料分析的合理性、科学性,我们在进行数据分析时,还应把握真实性、穷尽性、有效性和定性与定量相结合的原则。
二、真实性
所谓真实性,主要是指语料的真实性和数据的真实性。在我们进行数据分析前,首先要确保的是语料库中语料的真实性。语料库中的语料应该是在现实生活中真实应用于自然语言交际的真实话语和真实文本材料。语料库素材的构成和取样范围要按照明确清晰的语言学原则和严谨科学的语料库设计宗旨,通过科学的实际调查和合理的数据统计来完成,而并不是由随意拼凑的或随机抽取的某一部分语言材料堆积而成。因此,我们在进行数据分析时常常选择一些规模较大语料库,它们都是国家或者有实力的大学设计和建设的,从而使我们能方便快捷地找到大量真实可靠的数据。例如:国外的语料库有布朗语料库、伦敦―隆德口头英语语料库、国际英语语料库等,国内的语料库有现代汉语语料库、北京大学计算语言学研究所开发的人民日报语料库等。这些大型的语料库为我们提供了大量的真实可靠的语料,这也为我们下一步进行数据统计的真实性奠定了坚实的基础。
其次,我们还要保证统计数据的真实性。我们从语料库中筛选出需要的语料,然后就要进行相关方面的数据统计,切记要一一进行查找,不能偷懒进行类推或者大致推算。因为每一个数据都有自身的独特性,它所具有的某些性质也许只是这一个例子所表现出的特征,并不能代表全部。例如,我们要对“给力”这个词条进行调查研究,在资料考证过程中我们发现“给力”在给定的语料库2012年的语料使用中频率较高,但是我们不能简单推测在2013年的语料中它也大量使用,具体它的使用频率是多少,是否在2013年的语料中同样有较高的使用率,还要认真地在2013年的语料中进行实际的考察和统计才能得出真实可信的定论。如果我们的调查失去了真实性,那么也就失去了调查的意义,就更不要谈语言研究的价值了。因此,真实性是辞书编纂中语料库数据分析的首要原则。我们要确保数据统计的真实性,做好数据分析的基础工作。
三、穷尽性
在确保真实性的基础上,我们还要保证数据分析的穷尽性。所谓穷尽性,就是我们在检索语料的过程中,要把语料库中关于调查内容的语料全部检索一遍,应该将含有检索条目的语例尽可能完全地收录进来。这样我们不仅可以全面了解词语的使用情况,而且还能为进一步的全面分析打好基础。如果搜集的语料没有穷尽所调查的使用领域,就会导致分析结果有一定程度的偏差,语料抽样比例越小,最终所得到的的结果偏差就越大。比如说我们现在要对“问讯”这个词条进行考察,通过在语料中的检索我们发现,它通常有三层意思:作动词,表示“询问”;作动词,表示“讯问,审问”;作动词,带有书名面色彩,表示“问候”。其中在含有“问讯”一词的153则语料中,还有6个语例是表示僧尼跟人应酬时合十招呼――也叫“打问讯”。这一用法虽然只占到总数的4%,但如果在调查过程中忽略了这6个用法,就不仅没有真实地反映语言在现实生活中的应用,而且在读者遇到此类用法时也查无依据,还给语言的发展带来不必要的麻烦。语料库数据分析区别于传统分析的最大特点,就是它建立在大规模真实语料数据的基础之上,分析的方法较之过去更加客观全面,分析的结果较之以往也有更加详实充分的依据,因此也就具有了高度的科学性和说服力。
当然穷尽性是相对而言的,通用型的语料库数据范围和数量都极大,要想进行穷尽性的分析统计有时还需要借助相关的专业工具和技术。而专门语料库数据量较小,进行穷尽性的分析难度较低,操作起来比较简单易行。所以不论难度高低,我们都要进行穷尽性的检索和统计,这样我们最后得出的结果才有意义,有一定语言研究价值。因此,穷尽性是辞书编纂中语料库数据分析的重要
您可能关注的文档
最近下载
- 六年级语文上册生字表识字表《写字表》字帖人教版同步字帖描红2.pdf VIP
- 第8课 用制度体系保证人民当家作主 教案 -2023-2024学年中职高教版(2023)中国特色社会主义.docx VIP
- 高二数学(含创意快闪特效)-【开学第一课】2023年高中秋季开学指南之爱上数学课.pptx VIP
- 第8课 用制度体系保证人民当家作主中职专用【2023年秋最新版】.pptx VIP
- 2025年秋新北师大版数学2年级上册全册同步教学设计.pdf
- 某热电厂1×300MW供热机组工程安全预评价报告.doc VIP
- 四年级语文上册《写字表》字帖.pdf VIP
- 地埋管计算方法.doc VIP
- 太极拳理论教学课件.pptx VIP
- 八年级上册语文学习笔记.pptx VIP
文档评论(0)