短语结构树库向依存结构树库转化研究 - 哈工大社会计算与信息检索 .pdfVIP

  • 21
  • 0
  • 约2.08万字
  • 约 6页
  • 2017-09-02 发布于天津
  • 举报

短语结构树库向依存结构树库转化研究 - 哈工大社会计算与信息检索 .pdf

短语结构树库向依存结构树库转化研究 - 哈工大社会计算与信息检索

第 22 卷  第 6 期 中文信息学报 Vol . 22 , No . 6 2008 年 11 月 J OU RN AL O F C H IN ESE IN FO RMA T ION PROCESSIN G Nov . , 2008 文章编号 : (2008) 0600 1406 短语结构树库向依存结构树库转化研究 李正华 ,车万翔 ,刘 挺 ( 哈尔滨工业大学 计算机科学与技术学院 信息检索研究室 ,黑龙江 哈尔滨 15000 1) 摘  要 : 汉语依存树库的建设相对其他语言如英语 ,在规模和质量上还有一些差距 。树库标注需要付出很大的人 力物力 ,并且保证树库质量也比较困难 。该文尝试通过规则和统计相结合的方法 ,将宾州汉语短语树库 Penn Chinese Treebank 转化为哈工大依存树库 H ITIRCD T 的体系结构 ,从而增大现有依存树库的规模 。将转化后的 树库加入 H ITIRCD T ,训练和测试依存句法分析器的性能 。实验表明 ,加入少量经转化后的树库后 ,依存句法分 析器的性能有所提高 ;但加入大量树库后 ,性能反而下降。经过细致分析 ,作为一种利用多种树库提高依存句法分 析器性能的方法 ,短语转依存还存在很多需要深入研究的方面 。 关键词 : 计算机应用 ; 中文信息处理 ;短语结构树库 ;依存结构树库 ;依存句法分析 中图分类号 : TP39 1     文献标识码 : A A Study on ConstituenttoDependency Conversion L I Zhenghua , C H E Wanxiang , L IU Ting ( Information Ret rieval L aboratory , School of Comp ut er Science and Technolo gy , Harbin In stit ut e of Technology , Harbin , Heilongj iang 15000 1 ,China) Abstract : The p rogress of Chinese dep endency t reebank con st ruction ha s fallen behind ot her languages , such a s Engli sh , in t erm s of scale and qualit y . Building a lar ge scale t reebank needs a lot of human and mat erial resources. Meanwhile , it i s very difficult to guarant ee t he qualit y of t he t reebank . In t hi s p ap er , we explore a new met hod which combines rulebased met hod and st ati sticalbased met hod to convert a con stit uent t reebank named Penn Chinese Treebank to a dep endency t reebank which follow s t he annat ation st andar d of H IT Chinese Dep endency Treebank ( H ITIRCD T) . We increa se t he size

文档评论(0)

1亿VIP精品文档

相关文档