- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语口语依存树库中特殊结构处理
关润池 赵怿怡
中国传娟汰学应用语言学啄北凉100c124
E-rmil:{rmc0303,zoyiyi)@163.oom
蕾要;口语依存埘J辜的建i5趼-怛可以满足统计自然语言处理的需要,也有叻于基于语料库的句法研究。口语具
有无意识地反复、成分残缺等特点,对其各成分之间依存关系的研究有助于我耵]更好地发现言语交际过程中的特
点与规律,有助于把握口语和书酯之间的异同。本文着重对汉语口语树审嫡生:过程中遇到绗_j翻翩黼问题,
如口语中的重叠、反复、是+谓河眭成分、A不A/A没A等进行了讨论,并在参考前八观点的基础E,提出了
相应的处理方法。
关腱渝t口语;依存树库;重叠;反复; A不A/A没A
Theannotationof structuresin treebank
special dependency
Chinese
for spokenlanguage
Cman Zhao
gunchi Ywi
100024
董油枷:{l阳c∞03,zoyiyi)@163.嘲.
usefulto has
触埘瞰t NLPand
SylM捌Cstudy.Spokenlanguage
Buildingd印∞dclw觚蛐0fs脚l彻gm萨i8
some 88tmoomcious SOOn.Tlgresewdl
d】肿邮畸i8d∞8啦.,h t辨at,dc缅mlily0f∞棚pcI掰如and
spokenandwritten
spolomlangua萨.The
hlA咖.
d函瞄s。d咖曲瞄indlldcsupelp碰蛳唧删鸭bc+脚曲,A
Kbwo吨邓妇l锄罂m翳dcp锄dcI呵钿蚓b日nb鲫pc巾∞i6∞;删tioll;AbuA
1引言
树库,是经过句法分析的句子的集合。树库不仅对于计算语言学家意义重大,它也是一种其
2007)。构建讨库的句法模型可分为短语结构
他语言学家可从中获得句法信息的重要资源(Liu
和依存关系两类。本文采用依存关系,由此构成的树库为依存树库。依存关系是词与词之间的非
对称关系,构成依存树节点的基本单位是词,又可分为支配词和从属词。
口语依存树库的构建目前尚处于起步阶段,其构建目的主要是制定、完善标注方案,训练
et
口语分析器,如宾州口语树库(Taylora1.2003)及以父母一孩子的会话为语料的日本儿童
eta1.2004)等。我们构建口语依存树库的目的主要有:检验句法标注体系
口语树库(Sagae
的跨语体有效性,即检验已有的句法标注体系能否适当处理、体现口语依存关系及特点;通过和
我们之前标注的书面语依存树库的比较(赵怿恰/关润池2006),可以定量的研究两种不同语体
153
在句法层面的异同:训练和评测已有的句法分析器,观察、研究用已有句法分析方法是
文档评论(0)