面向自然语言处理的汉语虚词研究与广义虚词知识库构建.pdfVIP

面向自然语言处理的汉语虚词研究与广义虚词知识库构建.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《当代语言学 》第 11卷 2009年第 2期 124 - 135页 , 北京 面向自然语言处理的汉语虚词研究与广义虚词 知识库构建 昝红英 郑州大学 朱学锋 北京大学 提要  现代汉语虚词的研究历史悠久 , 成果丰富 。但是 目前已有的虚词研究成果大都是面向人 用的 , 对虚词个性的描写难以避免主观性和模糊性 , 很难直接应用于 NL P 的相关研究 。本文从 计算语言学的观点出发 , 根据 目前已有的虚词研究成果以及对 《人民日报 》分词与词性标注语料 中虚词用法规律的考察 , 着力构建面向 NL P 的现代汉语广义虚词知识库 , 旨在为现代汉语虚词 用法的机器识别打下一定的数据基础 。 关键词  现代汉语虚词 语言知识库 用法属性 规则库 语料库 1. 引言 汉语的词汇分为实词和虚词 。十九世纪末马建忠的 《马氏文通 》对虚实分类已经接近于 现代意义上的语法分类 。《马氏文通 》按照词汇的意义划分实词和虚词 , 即 “有事理可解者曰 实字 , 无解而惟以助实字之情态者曰虚字 ”。这种见解影响深远 , 后来许多学者大都认为有 实在意义的是实词 , 意义空灵的是虚词 。 ( ) 目前常见的自然语言处理 natu ral language p roce ssing, NL P 应用领域如信息检索 、文本 分类 、文本摘要等多是以实词的表现为主要特征 , 有的甚至直接将一些虚词列入停用词表 , 完全不予考虑 。然而 , 虚词对于汉语的语法分析和语义理解有着重要的作用 , 在其他语言中 可以通过实词的形态变化所表达的语法意义以及所完成的语法任务 , 在汉语中常常需要由虚 词来完成 。相对于其他语言来说 , 现代汉语中的虚词承担着更为繁重的语法表现和语义辨析 任务 , 因此现代汉语虚词的研究对语言文本的理解和处理具有更加重要的作用 。 ( ) 汉语属于分析性语言 , 缺乏严格意义的形态变化 吕叔湘 1979 。汉语既没有俄 、法 、 英诸语言里那种形态标志和屈折变化 , 也没有 日、朝 、蒙 、土耳其诸语言里那种黏附形式 ( ) ( ) 陆俭明、马真 1999 。吕叔湘 、朱德熙曾在 《语法修辞讲话 》 2002 [ 1952 ] : 62 中指出 , “虚字的数 目远不及实字多 , 可是重要性远在它之上 。一则虚字比实字用得频繁 ……其次 , 也是更重要的分别 , 实字的作用以它本身为限 , 虚字的作用在它本身以外 ; 用错一个实字只 是错一个字而已, 用错一个虚字就可能影响很大 。”我们来看下面的例句 : ( 1) 王洪把李斌推到讲台上 。 (2) 王洪被李斌推到讲台上 。 以上两例句 , 其中只是一对介词 “把 ”与 “被 ”之差 , 意思就完全不同了。如果语言处理时仅 ( ) ( ) 本文相关研究得到了国家 973课题 2004CB318102 及河南省教育厅自然科学基金项目 2007520050 的支持 。 124

文档评论(0)

wwqqq + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档