自然语言理解自然语言理解.docVIP

  • 17
  • 0
  • 约1.12万字
  • 约 16页
  • 2017-01-08 发布于贵州
  • 举报
自然语言理解自然语言理解

一 分词概述 语言学中一般将“词”定义为“能够独立运用的,有意义的最小语法单元”。自然语言中句子是由词组成的,而计算机要理解和处理自然语言就是从词这一步开始的。 汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分隔符(如空格)汉语的词法约束很不规范,而且千变万化,就给汉语分词带来了很大的麻烦。正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,自 70 年代末以来,许多人投入到了汉语自动分词的研究工作中来,也出现了好多具有应用前景的分词方法 分词过程中歧义产生的根源可归结为以下三类: (1)由自然语言的二义性所引起的歧义,称为第一类歧义。如:“乒乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。这两种切分形式无论在语法上还是语义上都是正确的,就是人工分词也会产生歧义,只有结合上下文才能给出正确的切分。 (2)由机器自动分词产生的特有歧义,称为第二类歧义。如:“在这种环境下工作是太可怕了”用机器切分可以切分为“在/这种/环境/下工/作/是/太/可怕/了” 也可以切分为,“在/这种/环境/下/工作/是/太/可怕/了”。对本句来说,只有第二种切分是正确的,用人工分词是不可能产生歧义的,歧义是由于机器机械切分产生的。 (3)由于分词词典的大小而引起的歧义,称为第三种歧义。如:“王小二是一个农民”用机器切分被分为“王/小/二/是/一个/农民

文档评论(0)

1亿VIP精品文档

相关文档