- 8
- 0
- 约2.9万字
- 约 89页
- 2016-06-12 发布于江苏
- 举报
5 单词的探究论文词组的分析.ppt
例如“于山”如果是一个地名,那么加入词典中,则对“由于山区”的切分变成链长为 2 的交集歧义问题。因此,有必要研究中国地名特点、用字规律、用词规律、构词规律和地名的上下文规律,实现真实文本中中国地名的自动处理。 中国地名的特点,有一些对处理构成一定的难度。例如,中国地名的长度没有一定的限制,从一个到多个不等,像“京、津”这样的简称,长度为 1;而“北京”长度为 2,“内蒙古”长度为 3 等等。另外,汉语的常用字经常出现在地名之中,例如“大直街”、“马家沟”中的汉字都是常用字。此外,地名中含有的多字词也不利于地名的处理,例如“黄果树瀑布”中的“果树”本身就是一个词,这肯定增加了难度。 但是,中国地名的处理过程中也有可以利用的信息,例如一些后缀有利于地名的处理,像“乡、村、市、县”等。 对于地名的处理,虽然已经有不少的方法,但是一般可以采用统计与规则相结合的方法,现在举例说明如下: (1)先建立一个包括省、自治区、直辖市、市、县、区、镇、乡、村,以及山脉、河流、湖泊、峡谷、岛屿等等的中国地名库,收集尽可能多的地名。越多、越详细越好,这将为以后的高质量机器翻译打下好的基础。 (2)可以先统计出地名库中地名用字以及地名的首、中、尾用字规律及频率,然后再建立地名用字库,最后统
您可能关注的文档
最近下载
- 2025_2026学年天津市天津市河北区八年级下学期4月期中数学检测试卷 [含解析].docx
- 2018年江西省中考物理试卷(含答案解析).doc VIP
- 标准图集-S501-1~2 单层、双层井盖及踏步(2015年合订本).pdf VIP
- (完整版)京东亚洲一号东莞麻涌物流园项目施组.docx VIP
- 十年高考真题(2014-2023)分项汇编 生物 专题08 有丝分裂和减数分裂 含解析.docx VIP
- 徒手整形的优势.pptx VIP
- 面部美学设计讲解.pptx VIP
- 2025年部编版四年级下册道德与法治《期中测试卷》附答案(完整版) .pdf VIP
- 横泽隆史的场合全文整理.doc VIP
- 四川农业大学研究生学位论文格式规范【模板】.docx
原创力文档

文档评论(0)