- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器词典中按韵分词及虚词问题
机器词典中按韵分词及虚词问题
董剑平
(江西师范大学 文学院 江西 南昌 )
[内容提要] 中文信息处理中,首要的是制定规范的机器词典。如今,机器词典的制定主张结合韵律分词。本文主张按韵分词。当然,按韵分词里面也有一些问题值得注意。本文主要结合虚词来讨论按韵分词的问题。
[关键词] 机器词典 分词连写 按韵分词 虚词
一、关于按韵分词的认识问题
目前机器分词的主要倾向是能按韵分词的时候按韵分词(胡明扬2003、进明1997、孙茂松1999),以符合人们的语感,如果按韵分词出现不一致的情况,有两种方法:一是结合语法规则考虑;二是根据大规模语料库,计算它的频率,如果达到一定的值,则为分词单位。
本文倾向于按韵分词,一方面这样做自然,符合国人的说话习惯。如果根据“理论词”切分就十分费事,正如冯志伟、许福吉(2001)描写的一样,按照语法分词要区分语素与词,合成词与词组等,还要研究“鸡蛋与鸭蛋”等在国人语感中不成问题的问题。这不仅增加了切分的难度,而且按照这种方法切出来的语句也是支离破碎的。另一方面,汉语本身是语义型语言(徐通锵2000),在国人语感中,词就是韵律上自然,语义上完整的一种单位,因此不必过于强调西方的词语结构规则,《信息处理用现代汉语分词规范》(以下简称《规范》)所提倡的“结合紧密,使用稳定”正体现了国人语感对词的认识。赵元任(2002)说过“在中国人的观念中,‘字’是中心主题,‘词’则在许多不同的意义上都是辅助性的副题,节奏给汉语裁定了这一样式”。可见,韵律在汉语中的重要地位。冯胜利(2001)很好地揭示出这种存在于国人语感中的词就是“韵律词”。“吃饭、睡觉、关心”等等满足了韵律上的要求就是分词单位。
当然,按韵分词也有问题,主要是按照什么样的韵律来分词。因为每个人的语感存在或多或少的差异。如果没有一个统一的标准,就会造成混乱。本文提出两个原则:
(一)语义完整。
无论是书面语的分词连写还是机器词典,必须保证切分的词在语义上完整。如“少林寺、蛋炒饭、上厕所、教职员工、哈雷彗星、热热闹闹”等应整个作为分词单位,而不应另外切分成“少林/寺、蛋/炒饭、上/厕所、教职/员工、哈雷/彗星、热热/闹闹”等,破坏固定的语义。当然,这里面也有例外,特别是“单音节动词+单音节名词”的组合中,单音节动词可重叠,或者中间插入“下、个”等,如“散散步、打打牌、抽下烟、浇下水、跳个舞”,如果将这些特定语境中的变体也收入词典,就十分不科学,这应配合语法规则来解释。
语义完整规则还应指语义上一致的词语要统一对待。如《规范》中规定“打倒”是分词单位,“打破、打烂、打垮、打败”等不是分词单位,我们认为这些由“打”形成的词语在语义上相似,都表示“打击某物使其失去存在价值”,因此,既然“打倒”为分词单位,其它的也应为分词单位,同时,这样做也符合人们的语感。
(二)大小兼顾。
大小兼顾原则包括三方面。一是进明(1997)谈到过“就大不就小”的原则,认为汉语里有些词通常不单用,而是组合成较大的语言单位来用,如“吝”,一般要组合成“吝啬、吝惜、吝而不给”等来使用,因此可以将这些大的语言单位作为词语收入计算机,对此笔者十分赞同,类似的还有很多,如“火、打、留、呼”等等,但“火、打”等一般可以单用,这时就应大小兼收。当然,这里面也有问题,如“打”能组合出很多惯用语,除上面列举的还有“打气、打架、打包、打水”等等,是否全部收入词典?我们认为从韵律和语义上看都应收入。当然,不是所有由“打”形成的词语都应收入词典,韵律上是超音步的,如“打飞机、打手势、打比喻”等可形成“打+标准音步”格式,可不收入词典;发生变体的也不宜收入,如“打下包、打打水、打个比喻”等等。这些可交给词典所配备的语法语义规则解释。
二是按照语法规则可切分,但是按照语义完整规则不宜切分的词语,如上面谈到的“少林寺、蛋炒饭、热热闹闹”,词典一方面要把它们作为整体收入,另一方面要把其中包含的可独立出来的组合成份,如“少林、炒饭、热闹”等收入词典。
第三种情况是有些词只宜按小收入,不宜“就大不就小”,这里面主要是虚词问题(下文将谈到)。
至于大小兼顾的做法会产生更多的切分和歧义问题(如词典收入了“教职员工”一词,那么“教职员工作日志”就多了“教职员工/作/日志”这一歧义切分),我们应看到这取决于给所切分的词配备的各种语义、语法等相关知识,以及句处理过程中的分析消歧问题。当然,大小兼顾的做法必将极大地增加机器的存储空间和运算负担,但是目前的计算机存储技术和处理技术也是飞速发展,这一点不应担心。
二、按韵分词中的虚词问题
很少人谈到虚词的分词问题。因为极大部分分词问题都是由实词引起的。本文在此主要以张谊生《现代汉语虚词》中的虚词分类为依据,来分别讨论虚词如何根据语义完整和大小兼顾的
您可能关注的文档
最近下载
- 第25课《人民解放战争》(共21张ppt).pptx
- T梁预制及架设安全专项施工方案.doc VIP
- 四川省成都市武侯区九年级(上)期中化学试卷.doc VIP
- 《浙江省城市轨道交通100kmh AH型电客车架修技术规范》.pdf VIP
- 2025内蒙古锡林郭勒盟正蓝旗招聘社区工作者18人考试备考题库及答案解析.docx VIP
- 杭州西奥电梯有机房客梯使用维护说明书.docx
- 江西中烟工业公司笔试试题2025.docx VIP
- 《GB/T 40484-2021城市轨道交通消防安全管理》.pdf
- 《我是中国公民》教学设计最终版.docx VIP
- 88J14-4(2006) 北京四合院建筑要素图.docx VIP
原创力文档


文档评论(0)