- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分阶段构建汉语树库
周 强1,任海波2,孙茂松3
“3清华大学计算机系 2上海师范大学
智能技术与系统国家重点实验室 国际文化交流学院
北京100084 上海200234
摘要:本文介绍了一种分阶段构建汉语树库的研究思路。通过引进适当的中间标注层次—语块标注,
大大降低了树库构建的人力物力消耗。我们使用此方法标注完成了200万汉字的汉语功能语决库和
20万词的汉语树库,取得了很好的整体处理效果。
关键词:句法分析,语料库标注,功能语块库,树库
1引言
语料库的句法标注是语料库语言学研究的前沿课题:它的处理目标是对语料文本进行句法分析
和标注,形成树库(tree
bank)语料。在这方面,英语语料库的研究已经做了许多工作,两个比较
库规模都达到了二百万词以上。在这些工作中提出的骨架(skeleton)分析方法、机器自动分析和人
工校对相结合的处理思路,为后续的相关研究积累了丰富的经验。同时,作为一个统~的训练和测
试平台,大规模的树库语料也为各种基于统计的句法分析算法的处理性能的评估提供了客观的依据。
近年来,树库信息标注逐渐向词汇语义关系发展,出现了一些新的标注树库,包括侧重于谓词一论元
和以框架语义学为描述基础的FrameNet[FWB011,显示出一些新的发展趋势。
近几年来,中文信息处理技术发展很快,进行汉语语料库句法标注研究的条件已基本成熟了:
经过十几年的研究,汉语自动切分和词性标注的处理技术己达到成熟,已经建立了几个较大规模的
切分和词性标注语料库,包括清华大学的200万字的平衡语料库和北京大学与富士通合作开发的人
民日报语料库。为进一步进行句法分析研究打下了很好的基础。而对汉语句法分析方法、依存关系
标注、基本句型分析等方面的探索,也为进行比较系统全面的句法结构分析和标注积累了丰富的经
验。在树库构建方面,也已取得一些成果,包括美国宾州大学的UPenn树库[XPoo】和台湾中研院的
树库项目g-iccoo]。
本文介绍了我们在构建大规模汉语树库过程中的一些研究设想和具体进展。通过引进适当的中
间标注层次一功能语块标注,大大降低了树库构建的人力物力消耗,取得了很好的整体处理效果。
在下面的几节中,第2节详细介绍了我们的分阶段构建树库的设想;第3节简要介绍了功能语块标
注的处理方法和基本原则:第4节介绍了句法树标注的基本标记集和处理原则及方法;第5节介绍
了基于语块标注的句法分析器,分析了功能语块标注对复杂句子排歧效果的影响;第6节介绍了目
前大规模汉语树库构建的具体进展情况;最后的第7节是结语,主要总结了目前的工作并提出了将
来的研究设想。
2分阶段的树库构建设想
根据我们目前掌握的资料:。‘英语树库的构建基本上是这样进行的:首先进行词性标注,然后经
过自动分析和人工校对[MSM93],或直接进行人工标注[LG91],得到正确的层次结构树。在这一过
程中,首先需要解决以下问题:1)选择何种句法标注形式,2)如何确定合适的句法标记集。为此,
集,但人工标注或校对的工作量仍然是很大的。客观地说,这两个英语树库的顺利建成,很大程度
上是得益于其巨大的人力、物力投入以及英语句法理论的丰富的形式化研究成果。而对汉语来说,
目前这些条件都还不具备,这就需要我们在汉语树库的构建过程中另辟蹊径,寻找更适合于汉语信
息处理研究现状的新方法。
大规模的树库构建是一项庞大的语言工程。在目前的条件下,完全由机器自动完成是不可能的,
一定的人工投入是必需的。关键问题是如何寻找一个合适韵人工介入点,以最少的人工投入,获得
最佳的整体处理效果。就汉语而言,.目前的自动句法分析器的能力还很弱,对一些典型歧义结构,
特别是复杂句子的分析错误还很多。而在这些方面,人工处理则有优势。如果能通过人工预处理,
将复杂的句子分割戚几个县有特定句法联系的功能块,限制或排除可能出现的歧义现象,再提供给
句法分析器进行处理,就可以大大提高分析精度,从而大大降低对分析结果进行人工校对的工作量,
提高整体处理效率。
从这个思路出发,我们设想可以将汉语树库的构建分成两个阶段进行:
第一阶段:在经过正确切分和词性标注处理的汉语语料文本上,
您可能关注的文档
- 电磁超声技术在管端探伤中的应用研究.pdf
- 电磁超声快速检测技术及应用研究.pdf
- 电磁处理热轧废水技术研讨.pdf
- 电磁锤随焊锤击工艺参数的优化研究.pdf
- 电磁带隙结构EBG小型化设计研讨.pdf
- 电磁带隙结构EBG在波导缝隙天线阵中的应用研究.pdf
- 电磁阀设计中参数的计算方法研究.pdf
- 电磁法在煤矿井上下探测地质效果研究.pdf
- 电磁辐射的环境管理研究.pdf
- 电磁辐射对螺旋藻生长及胞外多糖分泌的影响研究.pdf
- 剧本杀行业2025年区域市场剧本类型与玩家偏好研究报告.docx
- 剧本杀行业2025年区域市场区域剧本市场用户行为与偏好研究报告.docx
- 剧本杀行业2025年区域市场品牌合作策略与市场推广分析.docx
- 剧本杀行业2025区域市场竞争格局下的营销策略研究报告.docx
- 剧本杀行业2025年中部市场布局策略研究报告.docx
- 剧本杀行业2025年内容创作激励体系优化策略.docx
- 剧本杀行业2025年内容创作规范与行业创新思维培养.docx
- 剧本杀市场2025年商业模式与行业风险预警分析.docx
- 剧本杀行业2025人才培养策略与实战案例深度分析.docx
- 剧本杀行业2025内容激励机制与剧本创作人才培养计划.docx
文档评论(0)