基于自动构建语料库的词汇级复述研究.PDFVIP

  • 4
  • 0
  • 约2.97万字
  • 约 6页
  • 2017-06-01 发布于湖北
  • 举报

基于自动构建语料库的词汇级复述研究.PDF

基于自动构建语料库的词汇级复述研究

第 5 期 电  子   学   报 Vol . 37  No . 5  2009 年 5 月 ACTA ELECTRONICA SINICA May  2009   基于自动构建语料库的词汇级复述研究 赵世奇 ,刘  挺 ,李  生 ( 哈尔滨工业大学计算机科学与技术学院 ,黑龙江哈尔滨 150001)   摘  要 :  本文针对词汇级复述问题提出了一种新的方法. 该方法首先利用翻译引擎将双语平行语料库自动转换 为单语平行语料库 , 以此构建复述语料库并用于候选复述的抽取. 在此基础上 ,本文提出了一种新的统计模型. 该模型 根据特定的上下文为待复述词选择最为合适的复述. 实验结果表明自动构建的复述语料库对于词汇级复述的抽取是 有效的. 同时 ,本文提出的模型明显优于两种传统模型 ,在准确率和召回率上分别提高 10 %左右. 关键词 :  词汇级复述 ; 复述语料库 ; 复述模型 中图分类号 :  TP391    文献标识码 :  A    文章编号 : (2009) Lexical Parap hra sing Ba se d on Auto matically Con struct e d Corpora ZHAO Shiqi ,L IU Ting ,L I Sheng ( School of Comp uter Science and Technology , Harbin Institute of Technology , Harbin , Heilongj iang 150001, China) Ab stract :  This p ap er presents a new method for lexical p arap hrasing . The method first constructs a p arap hrase corpus by au tomatically translating a bilingual p arallel corpus into a monolingual p arallel corpus ,from which candidate p arap hrases for words are extracted . After that ,a new statistical model is prop osed for lexical p arap hrasing ,which selects the best p arap hrase for a word in a given context sentence . Exp erimental results show that the automatically constructed p arap hrase corpus is effective for lexical p ara p hrasing . In addition ,the presented p arap hrasing model significantly outp erforms two conventional models , enhancing precision and recall by about 10 % ,resp ectively . Key word s :  lexical p arap hrasing ;p arap hrase corpus ;p arap hrasing model

文档评论(0)

1亿VIP精品文档

相关文档