- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数量短语的构成模式及其识别
白晓革 李义杰
北京大正语言知识处理科技有限公司 北京 100080
baixiaoge@163.cornliyj@hncit。com
摘要:数量短语通常由数词和量词构成,结构比较简单,但在真实语料中,
它的具体构成却有多种变化。本文从真实语料中抽取大量数量短语进行分析,归
纳出数量短语的分类和一般构成模式,并在建立数量词库的基础上进行了识别数
量短语的实验,给出了识别算法和实验结果。
关键词:数量短语,构成模式,数量词库,算法
数量短语及其识别
数量短语是指表达数量概念的短语,通常包括数词和量词两部分,其构成比
较简单,但在真实语料中,数量短语的出现形式又不尽相同,如:
30多个投资过千万元的引资项目已陆续动工兴建。
韩国将每年输送至少五百名中小学生到宁波中小学进行长期学习或接受短期
培训。
由于持续干旱,当地的农田产量比去年明显下降, 亩产只有250公斤左右。
直升机可以用1米至10米高度的飞行代替滑行。
可见,除了数词和量词之外,数量短语中还会出现其他的词语,这些词语可
能出现在数词之前,也可能出现在数词和量词的中间,还可能出现在数词和量词
之后。
数量短语的构成相对比较简单,是一个封闭自足的结构,在语句处理中可以
建立单独的识别模块,对数量短语进行先行处理。另一方面,数量短语是现代汉
语中使用频率很高的一类短语。因此,提高数量短语识别这一局部预处理的准确
率,将有助于提高整个语句理解处理的效率和准确率。
要对数量短语进行准确的识别,必须首先深入细致地分析和归纳它的构成模
式,对构成模式的描述则依赖于对数量短语所含词语的适当分类。
数量短语构成词语的分类
传统语法学上把数量短语和指量短语统称为量词短语。数量短语就是由数词
与量词构成的短语,如“60厘米”、“三本书”等;指量短语指由指示代词加上量词
构成的短语,如“那条”、“这帮”等;指量短语还包括由指示代词与数量短语构成
的短语,如:“这三个”、“那五本”,另外也有名量短语和动量短语之分。本文所
说的数量短语是一个宽泛的概念,包含数量短语、指量短语,数词又包含数量词
和限定数词(俞士汶等,1998)等,我们按照数词和量词的不同表现形式进行了
分类。
(一)数词分类
1.符号类(FH)
包含正负号等所有位于数字前并作为数字一部分的符号。例如:一95中的
“一
o
2.数字类(SZ)
包含0至9的阿拉伯数字、零到九的中文数字及其大写形式、含有量级概念的
中文数字及其大写形式。例如:1、肆、百、千、万、亿。
3.数值后缀(SZHZ)
置于数字后,与数字组合有数量的概念(不含量词),可以是汉字或符号。例
如:倍、折、%。
4.数值中问词(SZZJ)
在两个数字中间可以与数字表示一个整体概念,可以是汉字或符号。例如:
分之、:、比、/、.、点等。
5.序数词(XS)
能表示有序关系的词。例如:第一、老三。
6.前置模糊词(QMH)
放在数值前表示模糊概念的词。例如:大约八十、近一百。
7.后置模糊词(HMH)
放在数值后表示模糊概念的词。例如:一百左右、三十上下、十几。
8.中置模糊词(ZMH)
放在两个数值中间表示模糊概念的词。例如:30多万、40余亿。
9.不定数词(BD)
能够单独表示数量概念的词语。例如:若干、大量、好多、一些。
I二)量词分类
1.度量衡量词(DLH)
不包含表示时间的量词,这类量词在修饰同一具体事物的时候具有上下级包
含关系。例如:公里、米、升、毫升、千克、克。.
2.复合量词(FH)
由两个或两个以上的量词构成的、表示复合性单位的量词。这些量词收录以
后,在分析处理时,有助于快速提取。例如:架次、人次、人年、吨公里。
3.个体量词(GT)
具有个体含义的量词,语义分析时有助于揭示数词和被修饰名词短语之间的
关系。例如:只、个、本、棵、家。
4.集合量词(JH)
具有集合概念的量词,语义分析时有助于揭示数词和被修饰名词短语之间的
关系。例如:群、伙、帮。
I三)其他分类
1.表示范围的数量短语,两个数值或数量短语中间有符号“一州~”和汉字
“至“到”等连字符,如:100一200里、100年到150年、lO至14个
2.
文档评论(0)