- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
“人”“机”分词差异及规范词典的收词依据
——对645条常用词未见于《现汉》的思考
刊《辞书研究》2000年第2期
厦门大学 苏新春 顾江萍
一、
笔者在最近作的一项词语调查中,偶然发现一个颇有意味的数据,《现代汉语频率词典》(下称《频率》)统计出来的8548条常用词, 《现代汉语频率词典》,北京语言学院语言教学研究所编,北京语言学院出版社,1986版。491-656页:使用度最高的前8000个词词表。
《现代汉语频率词典》,北京语言学院语言教学研究所编,北京语言学院出版社,1986版。491-656页:使用度最高的前8000个词词表。
《现汉》是我国目前为止反映现代汉语词汇最具权威性的词典。调查的《现汉》是第二版,即1983年版,内容与1979年第一版基本相同。《频率》是我国第一部有严格计量统计数据的现代汉语汇频率词典,1986年出版,实际研究工作始于1979年。两书截取语料的时间相当接近,具有较好的可比性。《现汉》在1996年出版了修订本,645条常用词中只有80条增收其中,而占88%的词语仍未收,因此以第二版的《现汉》为基本比较材料,再辅之以与“修订版”的比较。
未见于《现汉》的645条常用词中,双音词370条,单音词169条。645条中使用度最高的位于第57位(动词的“到”),最低的位于8547位(名词的“比方”),平均数为4921,这个平均数表明它们在8548条常用词中排在比较前的位置。在各千字段的分布情况如下:
曲线图显示645条未见词语在8548条常用词的各千字段中呈缓慢上升的趋势,但差别不大,也就是说645条未收词语均衡分布于按序号排列的8548条常用词之中,其常用性有较普遍的性质。
那么这些未见于《现汉》的常用词有着什么样的结构特征?据此可分出以下四类:
第一类“固定语”。所谓固定语就是它们不太像一般的词语那样有较强的独立运用和较完整的意义的特点,只是在言语使用中紧密地凝合在一起。如“要不是4106”、“极为7495”、“售货2721”、“伤病员6886”、“不得不2296”、“就是说1970”、“绝大多数8297”、“这样一来4766”、“从中6337”、“为的是6013”、“恨不得5811”、“老是4183”、“较为6633”、“越来越1218”。(词语后面的数字表示8548条常用词的顺序号) 词语后面的数字为《现代汉语频率词典》按使用度统计的8548条常用词的序号,序号愈靠前的表示使用度愈高,愈常见。 本类共88例,占13.6
词语后面的数字为《现代汉语频率词典》按使用度统计的8548条常用词的序号,序号愈靠前的表示使用度愈高,愈常见。
第二类“词性分词”。指的是根据不同的语法功能而将同形同音近义,或同形近音近义的词分立为多个词语,而这些词在《现汉》中都是作为一个词出现的。如“声明(动)5794”——“声明(名)7369”,“箱(名)2502”——“箱(量)7181”,“来回(副)4698”——“来回(名)7478”,“极(副)405
第三类“固定搭配结构”。如“一面……,一面……1592”、“ 既……又……7629”、“ ……来……去4412”、“ 对……来说3982”、“ ……分之……716”、“ 有……
第四类“一般词语”。它们与人们的语感较接近,一般都看作是通用词语,如“变成509”、“高产7817”、“全会5551”、“判处6271”、“花市5705”。本类共328例,占50.9%。这部分内容相当复杂,下面将会作专门的分析。
上述一、二、三类显示《频率》对词语的切分是有其特殊之处的。主要表现为两点,首先,它看重的是在言语实际中的凝固程度与复现率,只要具备这样的条件就可以切分出来成“词”,故有了类似“来自”“较为”“不得不”“之上”“有所”“得慌”“不是吗”这样的词语。这种切分原则跟通常要求“词”具有“意义的完整性”和“使用上的独立性”有着明显的区别。把结构的凝固程度与频率的复现率放在首要地位来考虑,放在超出于词语意义的完整性和使用上的独立性来考虑,恰恰是词汇计量统计的基本特点。固定搭配结构大量出现的原因也在于此。《现汉》中已经有了34例固定搭配结构的词目,如“半……不……”、“大……特……”、“似……非……”等,只是《频率》更加注意反映这种固定搭配结构,提炼出来立目的数量多,划分细。
其次,重视语法功能的差异,不同语法功能的用法都切分出来独立为不同的词目。拙文《同形词与“词”的意义范围》 苏新春《同形词与“词”的意义范围——析〈现代汉语词典〉的同形词词目》,刊《辞书研究》2000年第5期。 曾经指出这是《现汉》分词的特点之一,如把名词的“赤膊”和动词的“赤膊”分成两个词。而《频率》在这点上更进了一步,分割的词语数量多,离析的语法功能更细微。如“包”有名、动、量三个词,“
苏新春
您可能关注的文档
最近下载
- 多层住宅小区工程监理规划.docx VIP
- NY_T 3213-2023 植保无人驾驶航空器 质量评价技术规范.docx VIP
- 盘扣式悬挑脚手架施工方案施工计划.doc VIP
- 部编版小学一年级语文上册表格式教案全册.doc VIP
- 电线电缆抗张强度检测结果的测量不确定度评定.doc VIP
- (正式版)H-G-T 22820-2024 化工安全仪表系统工程设计规范.docx VIP
- 绘本故事PPT课件之我好害怕.pptx
- 广东省惠州市博罗县泰美镇城镇总体规划项目建议书.doc VIP
- 虚拟仪器及LabVIEW知到智慧树期末考试答案题库2025年山东科技大学.docx VIP
- 2025年全国Ⅰ卷英语听力评析和听力材料二次开发(课件).pptx
文档评论(0)