人工智能ch72(自然语言处理技术).pptxVIP

  • 6
  • 0
  • 约1.03万字
  • 约 68页
  • 2017-06-05 发布于重庆
  • 举报
人工智能ch72(自然语言处理技术)

1 人工智能 第7章自然语言处理技术 (2) 7.5 大规模真实文本的处理 7.6 信息搜索 2 7.5 大规模真实文本的处理 7.5.1语料库语言学及其特点 利用规则不可能完全准确地表达理解自然语言所需的各种知识,规则实际上是面向语言的使用者的,因此若将它面向机器则分析结果始终不尽如人意。 所需的知识蕴涵在真实文本中,通过知识库,实现以知识为基础的智能型自然语言理解系统。 3 必须对语料库进行适当的处理与加工,使之由生语料变为熟语料。 语料库语言学(Corpus Linguistics) 语料库中包括的语义信息: WordNet词典将近95,600个词形 (51500单词和44100搭配词)和70100个词义分为五类:名词、动词、形容词、副词和虚词,按语义而不是按词性来组织词汇信息。 WordNet词典中,名词有57000个,含有48800个同义词集,分成25类文件,平均深度12层。最高层为根概念,不含有固有名词。 4 传统词典把各类不同的信息放入一个词汇单元中,包括 拼音、读音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、特殊用法注释,偶尔还有图示或插图。 但不够 如, “树”,解释为:一种大型的、木制的、多年生长的、具有明显树干的植物。(上位词加上辨别特征) 5 不够。原因: (1)它没有谈到树有根,有植物纤维壁组成的细胞,甚至也没有提

文档评论(0)

1亿VIP精品文档

相关文档