- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算语言学2part1
计算语言学
Computational Linguistics
教师:孙茂松
Tel
Email:sms@
TA :赵宇
Email:zhaoyu62188@
郑重声明
此课件仅供选修清华大学计算机系研究生课
《计算语言学》 的学生个人学习使用,
所以只允许学生将其下载、存贮在自己的电脑中。
未经孙茂松本人同意,任何人不得以任何方式扩
散之(包括不得放到任何服务器上)。否则,由
此可能引起的一切涉及知识产权的法律责任,概
由该人负责。
此课件仅限孙茂松本人讲课使用。除孙茂松本
人外,凡授课过程中,PTT文件显示此 《郑重声
明》之情形,即为侵权使用。
第二章 自然语言的
特点及其计算复杂性
2.1. 自然语言的特点
结构性
无限性(递归性)
This is the cat.
This is the cat that caught the rat.
This is the cat that caught the rat that ate the cheese. ……
2.1. 自然语言的特点
2.1. 自然语言的特点
歧义性(ambiguity )
Lexical ambiguity
多音字(词) (polyphone )
朝辞白帝彩云间,
千里江陵一日还。
两岸猿声啼不住, TTS for Mandarin
轻舟已过万重山。
2.1. 自然语言的特点
多义词(polysemy)
同形异义字(词) (homograph )
“Minute”: (1) a unit for measuring time(noun); (2) to
make a written record of what is said or decided. during a
meeting(verb); (3) tiny(adj)
1a. One minute has sixty seconds.
1b. Part of the job of a secretary is to minute meetings.
1c. There is only minute difference between these pictures.
“编辑”
2.1. 自然语言的特点
Structural ambiguity
亚洲语言学会 n+n+n (句法结构歧义)
彩色铅笔盒子 n+n+n (句法结构歧义)
关于鲁迅的书 prep+n+ 的+n (句法结构歧义)
他讲不清楚。 v+不+adj (句法结构歧义)
漂亮的姑娘和小伙子adj+ 的+n+ 的+n (句法结构歧义)
小张的处理意见 (语义结构歧义)
他在看病。 (语义结构歧义)
他借我一本书。 (语义结构歧义)
2.1. 自然语言的特点
中国队打败了。
中国队被打败了。
中国队打败了对手。
热爱人民的总理 v+n+ 的+n
咬死猎人的鸡 咬死| 猎人的鸡
咬死鸡的狗 咬死鸡的| 狗
咬死猎人的狗 咬死猎人的| 狗 咬死| 猎人的狗
文档评论(0)