- 17
- 0
- 约1.12万字
- 约 16页
- 2017-01-08 发布于贵州
- 举报
自然语言理解自然语言理解
一 分词概述
语言学中一般将“词”定义为“能够独立运用的,有意义的最小语法单元”。自然语言中句子是由词组成的,而计算机要理解和处理自然语言就是从词这一步开始的。
汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分隔符(如空格)汉语的词法约束很不规范,而且千变万化,就给汉语分词带来了很大的麻烦。正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,自 70 年代末以来,许多人投入到了汉语自动分词的研究工作中来,也出现了好多具有应用前景的分词方法
分词过程中歧义产生的根源可归结为以下三类:
(1)由自然语言的二义性所引起的歧义,称为第一类歧义。如:“乒乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。这两种切分形式无论在语法上还是语义上都是正确的,就是人工分词也会产生歧义,只有结合上下文才能给出正确的切分。
(2)由机器自动分词产生的特有歧义,称为第二类歧义。如:“在这种环境下工作是太可怕了”用机器切分可以切分为“在/这种/环境/下工/作/是/太/可怕/了” 也可以切分为,“在/这种/环境/下/工作/是/太/可怕/了”。对本句来说,只有第二种切分是正确的,用人工分词是不可能产生歧义的,歧义是由于机器机械切分产生的。
(3)由于分词词典的大小而引起的歧义,称为第三种歧义。如:“王小二是一个农民”用机器切分被分为“王/小/二/是/一个/农民
您可能关注的文档
- 自我认识:周哈里窗自我认识:周哈里窗.doc
- 自我评价教学设计自我评价教学设计.doc
- 自我评价英文词汇自我评价英文词汇.doc
- 自我鉴定-高职自我鉴定-高职.doc
- 自我认知型自我认知型.doc
- 自护自救常识自护自救常识.doc
- 自指和转指自指和转指.doc
- 自招面试奇葩考题大盘点自招面试奇葩考题大盘点.doc
- 自控型标准化项目部标准自控型标准化项目部标准.doc
- 自控概述001自控概述001.doc
- 新疆塔城地区第一高级中学2025-2026学年高一下学期学情自测物理试卷(含解析).docx
- 苏教版五年级上册数学 期中检测卷.doc
- 新疆维吾尔自治区昌吉回族自治州呼图壁县2025-2026学年九年级上学期1月期末英语试题(含解析).docx
- 新疆维吾尔自治区和田地区和田市2025-2026学年上学期八年级英语期末试卷(含解析).docx
- 四川省绵阳市游仙区2025-2026学年七年级上学期1月期末英语试题(含解析).docx
- 苏教版三年级上册数学 第三单元测试题.doc
- 四川省绵阳市梓潼县2025-2026学年八年级上学期1月期末物理试题(含解析).docx
- 四川省绵阳市盐亭县四校联考2025-2026学年八年级下学期物理学情自测(含解析).docx
- 房颤患者太极拳练习.pptx
- 苏教版五年级上册数学 期末检测卷.doc
原创力文档

文档评论(0)