- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
俗语语料库与语典编纂相关问题思考
俗语语料库与语典编纂相关问题的思考
摘要 文章首先论述俗语语料库的建立过程,介绍了俗语语料库的特点;其次分析了应用数据库技术建起的俗语语料库,至少能够为语典的编纂提供四个方面的支持和帮助:加快排序工作,帮助选择主条,发现语目多义项以及语的交叉现象;最后提出了如何解决俗语资料提取和语性标注的人工化等需要继续探索的相关问题。
关键词 语料库 数据库 语典编纂
语料是辞书编纂的基础,语料库是辞书编纂重要的支撑平台和技术手段。合理运用语料库进行辞书编纂,是辞书编纂现代化发展的必然趋势。汉语俗语(包括谚语、歇后语、惯用语、俗成语),是历代群众创造并在口语中广泛流传的语言单位。它题材广泛,内容丰富,几乎涉及社会生活的各个方面,是人们世代集体经验和智慧的结晶,是中华民族文化的重要组成部分。编纂俗语语典不仅是对传统文化的一种继承和发扬,而且能够进一步促进汉语研究的深入发展。
研究俗语这种特殊的语言材料,编纂高质量的语典,更需要语料库的支持。由于俗语的特殊性,在建设语料库时,也需要我们特殊对待,以便同其他专业语料库区分开来。笔者曾在国家社科基金项目“汉语俗语语料的计算机处理与相关语言学问题研究”中承担“汉语俗语语料库”的开发研制工作,并承担完成了山西省社会科学院2008年度青年课题“基于计算机语料库的歇后语研究”任务,完成了“歇后语语料库模型”。现总结两个语料库的经验教训,对俗语语料库的建设及应用做一介绍。
一、利用数据库技术建立俗语语料库
(一)现代语料库的定义
现代意义上的语料库(即狭义的语料库)应具备以下特征:
(1)有明确的建库目的(学习、研究、编纂辞书等);
(2)按照一定标准收集的类型多样、真实自然的语言材料(口语或书面语);
(3)存储在计算机中,并能借助各种计算机技术对语料进行加工;
(4)具有多种功能、满足多种用途的语料集合。
用一句话来概括,现代意义上的语料库是指按一定目的和标准收集各种类型的真实语料,并利用计算机的存储、检索等技术手段对语料进行加工而建立起来的、满足多种用途的语料集合。语料也是一种特殊的数据,承载着一定的信息。新世纪,在科学技术飞速发展的强力推动下,计算机处理文字的能力愈来愈强,数据库技术已经发展得比较成熟,语料库的设计和实现完全可以借鉴数据库技术的发展成果。
(二)建库过程总述
总的来说,“汉语俗语语料库”、“歇后语语料库模型”的建设主要分三个阶段:收集整理语料――建立语料模型――编写应用程序软件。
收集整理语料,要有目的性,并有一定的标准,这是建立语料库的前提。语料的性质和特点,从一定程度上决定了语料库建设的类型和方法。语料信息是语料库的核心内容。建设俗语语料库时,以汉语语汇学理论为指导,,根据俗语的性质和特点去甄别收集语料。首先界定什么是俗语;然后对俗语内部的歇后语、谚语、惯用语、俗成语进行区分;进而保证所收集的俗语全面而典型。
语料库中的语料应该如何存储,才能全面反映俗语语料的各种特性,显示出单个语料之间的联系,便于用户从中研究出各种规律,这就是语料模型的问题。语料模型是语料库系统运行的后台和基础,正如不同的数据模型具有不同的数据结构一样,对于不同的语料,应采用不同的语料模型。例如,英汉双语平行语料库和《四库全书》语料库中,对于语料的组织、存储等,就不能采用相同的处理方法。语料模型要根据语料的自身特征来确定,俗语语料库的建设,关键也在于抓住俗语语料的特点,进行分析,寻找最合适的语料构成方式,合理组织语料库的结构模型。
一条俗语语目,附带有语性、书证、例句等属性特征,完全可以采用二维表格的形式来描述。因此我们主要采用关系模型来组织俗语语料。关系模型是数学化的模型,一个表格代表一个关系,是一个集合,概念清晰,便于用户理解和使用。关系模型是一种成熟的数据模型,Visual FoxPro、Access等多种数据库软件都用其组织数据。另外,采用关系模型组织的语料很容易转化为XML数据格式,具有很大的通用性。
编写应用程序软件,是指根据需求有针对性地开发出各种功能(如排序、检索等),有效地实现人机互动,从庞大繁杂的语料库中抽取有用信息,使资源得以合理共享。“汉语俗语语料数据库”共有四种排序方式,实现了四种检索方式,并在每次检索完毕后,自动进行使用频率统计;“歇后语语料库模型”则在此基础上,根据歇后语的结构特点,增加了前语和后语分别排列、分别检索的功能,并实现了整个语料库程序的可移植性。
(三)俗语语料库的特点
目前国内建设的语料库主要包括英语语料库、汉语语料库和平行语料库。汉语语料库主要包括口语语料库、书面语语料库,书面语语料库主要为词汇研究服务,涉及
原创力文档


文档评论(0)