- 6
- 0
- 约1.03万字
- 约 68页
- 2017-06-05 发布于重庆
- 举报
人工智能ch72(自然语言处理技术)
1
人工智能
第7章自然语言处理技术
(2)
7.5 大规模真实文本的处理
7.6 信息搜索
2
7.5 大规模真实文本的处理
7.5.1语料库语言学及其特点
利用规则不可能完全准确地表达理解自然语言所需的各种知识,规则实际上是面向语言的使用者的,因此若将它面向机器则分析结果始终不尽如人意。
所需的知识蕴涵在真实文本中,通过知识库,实现以知识为基础的智能型自然语言理解系统。
3
必须对语料库进行适当的处理与加工,使之由生语料变为熟语料。
语料库语言学(Corpus Linguistics)
语料库中包括的语义信息:
WordNet词典将近95,600个词形 (51500单词和44100搭配词)和70100个词义分为五类:名词、动词、形容词、副词和虚词,按语义而不是按词性来组织词汇信息。
WordNet词典中,名词有57000个,含有48800个同义词集,分成25类文件,平均深度12层。最高层为根概念,不含有固有名词。
4
传统词典把各类不同的信息放入一个词汇单元中,包括
拼音、读音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、特殊用法注释,偶尔还有图示或插图。
但不够
如, “树”,解释为:一种大型的、木制的、多年生长的、具有明显树干的植物。(上位词加上辨别特征)
5
不够。原因:
(1)它没有谈到树有根,有植物纤维壁组成的细胞,甚至也没有提
您可能关注的文档
- 七年级下册历史总复习课件.pptx
- 万科金地战略地图及平衡计分卡绩效管理应用44.pptx
- 三中央银行的类型与结构.pptx
- 七年级历史与社会下册52《社会舞台中的角色》课件人教新课标版.pptx
- 七年级英语下册Unit6It39;sraining公开课课件人教新目标板.pptx
- 一次性使用设备的应用及其对生物制药工厂设计的影响--AndyRaynerPMGroup.pptx
- 三层次博弈20011年宏观经济与政策趋.pptx
- 三年级上册第一单元《秒的认识》课件.pptx
- 三汇率制度和外汇管制.pptx
- 三维设计2012高考物理二轮复习课件(广东专版)第一部分专题5动量守恒.pptx
- 2026年智慧健康管理系统创新报告.docx
- 河北衡水市武强中学2025-2026学年高二下学期4月期中物理试题(含解析).docx
- 2026年人工智能行业智能老年防走失定位器创新报告.docx
- 2026年低空经济飞行器量子技术应用创新报告.docx
- 2026年农业智能农业智能育种创新报告.docx
- 河北省保定市莲池区保定市第一中学2025-2026学年高二下学期期中考试生物试题(含解析).docx
- 2026年智慧城市电子站牌充电创新报告.docx
- 河北省邯郸市平恩中学等校2025-2026学年八年级期中考试英语试题(含解析).docx
- 2026年供应链创新技术应用报告.docx
- 2026年体育智能赛事管理系统支付系统创新报告.docx
原创力文档

文档评论(0)