网站大量收购独家精品文档,联系QQ:2885784924

基于规则的汉语短语标注探讨.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于规则的汉语短语标注探讨.pdf

维普资讯 山西大学学报 (自然科学版 )25(4):301~304,2002 JournalofShanxiUniversity(Nat.Sci.Ed.) 文章编 号 :0253—2395(2002)04—0301—04 基于规则的汉语短语标注探讨 )余云杰 ,郑家恒 (山西大学 计算机科学系 ,山西 太原 030006) 摘 要 :。文章提 出了一种基于规则 的汉语句法分析方法 ,通过对 已进行分词与词性标注的句子进行短语的人工标 注形成精确度较高 的语料 ,然后提取一些规则分析 出短语的结构和功能类型 ,为 自然语 言的计算机处理提供基础 研究服 务 。 关键词 :基于规则 ;短语标注 ;句法分析 中图分类号 :TP391 文献标识码 :A 汉语短语 自动划分和标注的研究 目标 ,是要对一个已经完成了正确切分和词性标注处理的句子 ,经过 自 动分析处理 ,确定不同短语的边界位置 ,将它们用括号正确地划分 出来 ,并标 以合适 的短语标记 。由于这涉及 到汉语短语结构分析和句子排歧等种种复杂的问题 ,因此是一项很 困难的研究工作。但是它的顺利完成 ,对 于将汉语语料库的多级加工处理推进到一个新的层次 ,构造大规模 的汉语树库 ,具有重要的意义。短语标注 是树库建设的第一阶段 ,汉语 的语法特征体现了它是一种典型实际水平的句法歧义语言,它涉及汉语处理的 各个阶段。朱德熙先生通过汉语 与印欧语 的对 比总结出汉语语法 的两大特征 : 1、汉语 中词类和句子成分之 间的关系是错综复杂的。 2、在印欧语中,句子与词组的构造原则完全不同,而在汉语中句子的构造原则与词组的构造原则基本一 致 。 近年来,中文信息处理技术发展很快,进行汉语语料库句法 自动标注的条件 已基本成熟了,这是因为: 1、经过十几年的研究 ,汉语 自动切分和词性标注的处理技术已经达到成熟 ,为进一步进行句法分析研究 打下 了很好 的基础。 2、近年来 ,对汉语句法分析方法,依存关系标注 ,基本句型分析等方面的探索 ,为进行 比较全面的句法分 析积累 了丰富的经验 。u 对于汉语 ,由于词类与句法功能之间不存在直接映射 ,所 以在词类基础上建立句法规则 ,歧义性和含混 性比英文严重 。短语作为汉语语法研究中的一个单位 ,正处于联系词与句子的桥梁位置上 ,它具有与汉语句 子基本一致 的构造方法 ,这和英语的短语有很大差别。朱德熙先生认为 ,“如果我们把各类词组的结构和功能 都足够详细地描写清楚 了,那 么句子的结构实际上也就描写清楚 了,因为句子不过是独立的词组而已。”因此 短语结构研究的重要性不言而喻。[6 短语标注要以分词和词性标注的语料为基础 。我们采用 山西大学计算机科学系研制的 自动分词软件 ,对 小学语文课本 12册进行分词与词性标注 (见附录),在此基础上进行短语标注的探索。之所以选择小学语文 收稿 日期 :2002一O1—30 基金项 目:国家 863项 目(2001AA114031) 作者简介 :涂云杰 (1975一),女,河北省沧州人 ,在职研究生 ,工作单位 :内蒙古海拉尔市呼伦 贝尔学院计算机系,研究方 向:中文信息处理. 维普资讯 302 山西大学学报 (自然科学版) 课本是因为它较规范 ,较浅显 ,易于规则 的提取与生成。现代汉语 中,对短语分类一般采用下面两种标准 : 1、内部结构;2、外部功能。按照 内部结构 ,可分为联合短语 ,定 中短语 ,状 中短语,动宾短语 ,述补短语 ,主 谓短语 ,连谓短语 ,兼语短语 ,同位短语等几类 ;而按外部功能,则一般可分为名词短语 ,动词短语 ,形容词短 语和副词短语等 ,我们的句法标注集对汉语短语 的描述则采用 了结构和功能分类 的方法 。我们以人工方式标 注了小学语文课本 12册 ,形成 了一个准确度较高的由人工标注的树库 ,从其中抽取了 15O个简单陈述句 ,其 中 100句作为训练文本用于提取规则 ,余下 的5O句作为测试 ,平均句子长度为

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档