- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国际辞书现代化技术的新理念:
辞书语料数据化
章宜华
摘 要 在辞书现代化技术方面,国内辞书界的主要精力仍放在语料库的建设和使用上。
然而,国际研究重点已转向语料的深加工和数据库建设,因为他们认识到,编者要想梳理
海量语料并从中找到有用的东西绝对是一件既耗时又费力的事情。文章结合国际辞书
现代技术的经验 ,阐述辞书现代化的新理念——辞书语料数据化,即应用语言学研究的
新成果和数据挖掘技术,在海量的语料 中提取词典所需的各种有效语言数据 ,把语料库
变为词;r/词典数据库,从而大大提高语料使用和词典编纂的效率。
关键词 语料库 数据化 词汇特性速描 语料库模式分析
以前,“辞书现代化技术”使人联想最多的是借助语料库编词典,或者是把纸质词典装
进计算机或芯片。在国内,以语料库为代表的辞书现代化技术的研究方兴未艾,检索 “中国
知网”发现,近五年来有关语料库的论文有2341篇,与词典或辞书相关的有 1011篇,仅 《辞
书研究》就刊登有关辞书语料库的论文20余篇。在近年召开的中国辞书学会辞书编纂现
代化专业委员会历次年会上,语料库的功能、特色、建设和管理,以及语料应用等个案研究
都是重要议题之一。而在国际词典学的会议上,有很多新理念已经取代了这类语料库的话
题,其中之一就是语料库的深加工或数据化研究及开发。
一 、 辞书语料数据化的新理念
在语料库发展的初级阶段,信息数字化程度很低,语料完全靠人工录入,建设成本很
高,因此语料库的规模都不大。但人们对语料的评价和期望都十分高,似乎有了语料库,词
典的一切问题都解决了:释义和义项划分有了依据、例证的采集可以变得轻松、词典的编纂
效率可以大大提高,等等。而实际情况是,每天都会产生大量的电子信息,其数量越来越庞
大,语料库的建设变得很容易;而另一方面,在大规模语料库环境下,海量语料往往会让词
典编者无从下手,甚至会大大增加其工作量,影响辞典编纂的进度。因此,西方词典学家早
在上世纪八九十年代就开始了语料的数据化加工,早期的有 WordNet、MindNet、FrameNet
本项研究工作得到了上海市科学技术委员会的资助 ,资助课题编号为08dz1501100。文章参考了
关于 “WordSketch”、“DANTE”和 “CorpusPatternAnalysis”的网站 (http://W-t~CW.sketchengine.CO.uk/;http:
//deb.fi.muni.cz/;www.webdante.coln)和相关文章。
2 辞书研究2012年第2期
等,近期有wordSketchEngine(词汇特性速描)、DANTE(英语词汇数据库)和CorpusPat—
ternAnalysis(CPA:语料库模式分析)等。这些词汇数据库大多是在语料库的基础上,利用
数据挖掘技术从海量的语料中提取有用的词汇数据,以描述词汇的各种语言属性。下面将
对近期的几个语料数据化项 目做一介绍。
二、词汇特性速描
1.词汇特性速描的主要功能
词汇特性速描(WordSketchEngine)是建立在语料库基础上的词汇语言属性的处理和
描述平台,对词汇语法和搭配特征进行全面、详尽的归纳和展现。主要功能有:
(1)一定分布模式中的词汇语料检索。用户可以查询语词、短语、搭配和语法模式,并
根据各种规则区分出不同文本来源(口语、书面语等)的相关索引行。
(2)词汇的处理和特征速描,如词位化处理、词类标注、数据输入格式、搭配结构和搭
配特征、语法关系的定义与表述等。
(3)同义词或近义词的检索和显示。根据语料库中大量的语法关系结构,利用统计分
析和结构相似性的方法,自动生成近义词集合 ,譬如根据 (object,drink,beer),(object,
drink,wine),即可以把 “beer”和 “wine”看作近义词。
(4)词汇速描的对比。当你查询近义词时,可以通过对比其释义和不同的语言属性来
发现它们的区别特征,达到语义消歧的作用,以便正确理解和使用。
(5)语词搭配显著性的计算和描述。利用搭配词在语料库中各 自出现的频率和共现
频率及其关系来计算语词搭配关系的显著性。后来又吸收了互信息(MI,即mutualinforma-
您可能关注的文档
最近下载
- 装饰图案概述.ppt VIP
- 香港中學會考試題(甲部).doc VIP
- 德阳市城市道路更新技术导则(2022).pdf
- 2023年香港亚洲国际数学奥林匹克公开赛(AIMO)竞赛复赛数学试卷.doc VIP
- “双减”背景下家长的教育焦虑及消解路径.docx VIP
- 装饰图案第6章 装饰图案色彩.ppt VIP
- 海尔基于工业4.0智能制造工厂服务平台智能柔性生产线方案(224页).ppt VIP
- 装饰图案第8章 装饰图案与应用设计.ppt VIP
- 房屋市政工程生产安全重大事故隐患判定标准(2024版)危险性较大的分部分项工程专项施工方案严重缺陷清单解读.pdf VIP
- 装饰图案第5章 装饰图案的造型、构图及组织形式.ppt VIP
文档评论(0)