- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三篇章 自然语言的处理.ppt
*;*;*;*;*;*;*;“框”计算;*;*;*;输入“王菲”得到的人物关系图;*;*;*;*;*;*;*;*;*;*;*;自然语言理解的基本模型;汉语的特点:
汉语是大字符集(GBK字符集)的意音文字(图形符号既代表语素,又代表音节的文字系统);
汉语词与词之间没有空格,没有形态变化;
汉语的同音词较多;
字形复杂;
汉语的语法研究尚未规范化;
汉语的语言学知识的量化与形式化工作滞后。
;*;*;*;*;*;6、汉语的词义岐义
打乒乓球
打电话
打毛衣
7、语用岐义
你真讨厌!
;*;如何描述一种语言?;按技术路线分为:
基于语言学规则的语言处理技术
基于统计的语言处理技术
两者结合
;1、基于语言学规则的语言处理技术;语言学家:撰写“规则库”(包括“词典”)
计算机学家:编写算法程序,对“规则库”进行解释和执行。;2、基于统计的语言处理技术;语言学家:建立“语料库”——经科学取样和加工的大规模电子文本库。
存放的是在语言的实际使用中真实出现过的语言材料;
以电子计算机为载体承载语言知识的基础资源;
真实语料需要经过加工(分析和处理),才能成为有用的资源。
计算机学家:建立统计模型
利用语料库训练模型参数
编写算法解决问题;二者区别——研究对象不同;二者区别——理论基础不同;二者区别——范围不同;二者区别——方法不同;1.7 基于语言学规则的语言处理技术;*;*;*;基于规则的句法分析理论和方法;1、 chomsky的形式语言理论;用G表示形式语法,G定义为四元组:
G=(Vn,Vt, S,P)
(1)Vt:终结符集合。是一个形式语言的基本符号。它们能在一个形式语法的推导规则的输入或输出字符串存在,而且它们不能被分解成更小的单位。一个语法的规则不能改变终结符 。
下面的语法有两个规则:
x → xa
x → ax
在这种语法之中,a是一个终结符,因为没有规则可以把a变成别的符号。不过,有两个规则可以把x变成别的符号,所以x是非终结符。一个形式语法所推导的形式语言必须完全由终结符构成。;(2)Vn:非终结符集合,是可以被取代的符号,不能处于生成过程的终点,即在实际句??中不出现。在上下文无关文法中,每个推导规则的左边只能有一个非终结符而不能有两个以上的非终结符或终结符。
(3)S:起始符号。一个语法中必须有一个起始符号,这个起始符号属于非终结符的集合。
(4)P:重写规则,也叫做产生式规则集合(产生式的形式是P → a)。
;采用短语结构语法对英语子集语法的描述;VP→V NP............ 该规则表示“动词短语”由“动词 名词短语”组成
PP→Prep NP.......... 该规则表示“介词短语”由“介词 名词短语”组成
Det→the|a........... 该规则表示“冠词”由the 或 a 组成
N→girl|letter|pencil............ 该规则表示“名词”由girl 或 letter 或 pencil组成
V→write............ 该规则表示“动词”由write组成
Prep→with......... 该规则表示“介词”由with组成;在对一个句子分析过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来的话,那么这种图称作句法分析树。
对句子“the girl writes the letter with a pencil”进行分析的语法树如下:;例:已知汉语句子的分词和词性标注结果如下:
他/PRON 教/V 我/PRON 学/V 日语/N
请画出该句子的语法树,并给出上下文无关规则。
G=(Vt,Vn,S,P)
Vn={S,PRON,V,OBJECT,N}
Vt={他,教,我,学,日语}
S=S
P:S→PRON V OBJECT
OBJECT→N|S
PRON→他|我
V→教|学
N→日语;0型文法(type 0 grammar);上下文有关文法(CSG);上下文无关文法(CFG);正则文法(RG);如果所有产生式的右边部分都是以终极符号开始、含有至多一个非终极符号、如果有非终极符号则出现在最右边,那么G是正则文法。;请判断以下文法的类型;请判断以下文法的类型;请判断以下文法的类型;自动机;文法、语言和自动机;2、上下文无关文法;3、转换生成文法;4、扩充转移网络; (1)有限状态转移网络; 这个句子的识别还可以在网络中走其它弧,如由状态c输入“swallow”也可以走弧c→d,但接下来
您可能关注的文档
最近下载
- 广东长大美国科来福道路预防性养护和桥梁无缝伸缩缝系统工艺.pptx VIP
- 九年一贯制学校管理.pptx VIP
- 人力资源服务公司章程(申请人力资源许可证参考用).pdf VIP
- 四川大学生物医学工程基础课件.ppt
- 马克思的剩余价值理论课件(PPT 33页).ppt VIP
- SOC-OCV电池测试报告.docx VIP
- 纯化过滤专题报告之一:离子交换与吸附树脂行业报告,纯,现代工业生产中极致的魅力.pdf VIP
- 人类辅助生殖技术和人类精子库伦理原则.doc VIP
- 投标项目总体架构及技术解决方案.docx VIP
- 高二奋发+勇攀高峰+课件--2025-2026学年高二上学期开学第一课主题班会.pptx VIP
文档评论(0)