自然语言处理中资源共享.pptVIP

  • 36
  • 0
  • 约9.06千字
  • 约 33页
  • 2018-06-30 发布于福建
  • 举报
自然语言处理中资源共享

自然语言处理中的资源共享 刘群 liuqun@ 提纲 机器翻译系统开发的两种思路 英语处理中的公开资源 汉语处理中的公开资源 资源共享中面临的问题 资源共享的解决办法 建立统一的资源共享机制 中文自然语言处理开放平台 机器翻译系统开发的两种思路(1) 机器翻译系统开发的两种思路 劳动密集型 语言专家的工作是为某个具体的机器翻译系统开发词典、规则库等语言知识库 语言专家的工作依附于某个具体的机器翻译系统,不具有独立性 资源密集型 语言专家的研究成果以语言资源的形式呈现出来 语言专家不是仅仅为某一个机器翻译系统服务,其工作具有一定的独立性 机器翻译系统尽可能利用已有的公开的语言资源 机器翻译系统开发的两种思路(2) 资源密集型的开发方式是计算机专家和语言专家的一种更合理的分工形式,并将成为主流 学术研究(包括学生选题)应采用后一种方式 语言专家应该尽量做公共的资源,少做专用的资源; 计算机专家应该尽量利用公共的资源,不用或尽量少用专用的资源(可重复性) 研究工作应该注重可重复性和可比性 英语处理中的公开资源 文本语料库:Brown,BNC,LOB…… 词性标注语料库: 树库:PennTreeBank 语义词典:WordNet,Longman 词法分析器:Eric Brill,…… 句法分析器:Charniak,ApplePie,Link Grammar 汉语处理中的公开资源(1) 文

文档评论(0)

1亿VIP精品文档

相关文档