5 单词的探究论文词组的分析.pptVIP

  • 8
  • 0
  • 约2.9万字
  • 约 89页
  • 2016-06-12 发布于江苏
  • 举报
5 单词的探究论文词组的分析.ppt

例如“于山”如果是一个地名,那么加入词典中,则对“由于山区”的切分变成链长为 2 的交集歧义问题。因此,有必要研究中国地名特点、用字规律、用词规律、构词规律和地名的上下文规律,实现真实文本中中国地名的自动处理。 中国地名的特点,有一些对处理构成一定的难度。例如,中国地名的长度没有一定的限制,从一个到多个不等,像“京、津”这样的简称,长度为 1;而“北京”长度为 2,“内蒙古”长度为 3 等等。另外,汉语的常用字经常出现在地名之中,例如“大直街”、“马家沟”中的汉字都是常用字。此外,地名中含有的多字词也不利于地名的处理,例如“黄果树瀑布”中的“果树”本身就是一个词,这肯定增加了难度。 但是,中国地名的处理过程中也有可以利用的信息,例如一些后缀有利于地名的处理,像“乡、村、市、县”等。 对于地名的处理,虽然已经有不少的方法,但是一般可以采用统计与规则相结合的方法,现在举例说明如下: (1)先建立一个包括省、自治区、直辖市、市、县、区、镇、乡、村,以及山脉、河流、湖泊、峡谷、岛屿等等的中国地名库,收集尽可能多的地名。越多、越详细越好,这将为以后的高质量机器翻译打下好的基础。 (2)可以先统计出地名库中地名用字以及地名的首、中、尾用字规律及频率,然后再建立地名用字库,最后统

文档评论(0)

1亿VIP精品文档

相关文档