- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                汉语的特点  语言的分类 汉语:孤立语(分析语) 英语:屈折语 日语:粘着语 基本单位 汉语:汉字(单音节,不用空格分隔) 英语:词(多音节,用空格分隔) 词语形态变化 汉语:弱(重叠、离合) 英语:强(屈折)  汉语的特点(续)  语言的层次划分 汉语:不明显:字与词、词与语、语与句、句与段,都没有明确的界限 英语:明显:词、短语、子句、句子、段落之间界限分明 词类与句法功能的对应 汉语:多对多 英语:一对一   计算语言学的研究对象  从计算的角度来研究语言的性质 将语言作为计算对象来研究相应的算法   从计算角度研究语言  所谓从计算的角度来看语言的性质,就是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来,而不是像其他语言学研究那样,在表述语言的结构规律时一般采用非形式化的表达形式。  例子 ..张三赶跑了李四 ..张三把李四赶跑了 ..李四被张三赶跑了 ..吴妈以前很喜欢阿Q的理论 ..* 吴妈把阿Q的理论以前很喜欢 ..* 阿Q的理论被吴妈以前很喜欢  语法规律  汉语中的一个基本句型是:P0: X +动词+Y P0可以变换为“把”字句或“被”字句P1: X+把+Y+动词P2: Y+被+X+动词 有些时候P0可以变换为P1,P2;有些时候P0不可以变换为P1,P2;  将语言作为计算对象  所谓将语言作为计算对象来研究相应的算法,是研究如何以机械的、规定了严格操作步骤的程序来处理语言对象(主要是自然语言对象,当然也可以是形式语言对象),包括一个语言片断(比如词组、句子或篇章)中大小语言单位的识别,该语言片断的结构和意义的分析(自然语言理解),以及如何生成一个语言片断来表达确定的意思(自然语言生成),等等  过程  S1:研究者以特定的方式对自然语言(NL0)的规律进行抽象,以计算机能够处理的形式来表述关于自然语言的规律——得到语言知识K; S2:针对特定的语言知识表示形式,研制适合的分析和处理算法; S3:根据算法编制计算机可执行的自然语言处理程序P。这样的程序加上语言知识,加上计算机硬件系统,共同构成一个自然语言处理系统(NLPs); S4:用这样一个自然语言处理系统对自然语言NL0进行分析处理,根据反馈的结果调整原来的设计,改进NLPs。   计算语言学的应用领域  机器翻译(Machine Translation) 文本分类(Text Classification) 信息检索(Information Retrieval) 信息提取(Information Extraction) 语音合成(Speech Synthesis) 语音识别(Speech Recognition) 人机接口(Human-Machine Interface) ……   计算语言学研究的基本方法  理性主义研究方法      基于规则的方法 经验主义研究方法      统计学方法      基于转换的错误驱动学习      神经网络学习方法 理性主义研究方法与经验主义研究方法的结合 计算语言学的发展简史  1950-1960年代 Turing Test(1950) 1960-1970年代 The first MTs(1954) ALPAC(1964-1966) 1970-1990年代 Searle’s Chinese Room(1980) The first PC version of MTs(1983) MT is available on the Web(1994) 1990 -至今 * * * * * 自然语言理解 上海交通大学计算机系  陈玉泉  联系方式 陈玉泉: chen-yq@闵行电院3-525  参考文献 俞士汶主编(2003)《计算语言学概论》,商务印书馆  刘颖(2002)《计算语言学》,清华大学出版社  James Allen(1995), Natural Language Understanding The Benjamin / Cummings Publishing Company, Inc.  翁富良、王野翊(1998)《计算语言学导论》,                中国社会科学出版社  Christopher D. Manning and Hinrich Schutze(1999), Foundations of Statistical Natural Language Processing, The MIT Press, Cambridge, Massachusetts 参考文献 刘开瑛、郭炳炎(1991)《自然语言处理》,科学出版社 冯志伟(1991)《数学与语言》,湖南教育出版社 冯志伟(1995)《自然语言机器翻译新论》,语文出版社1995年版。 姚天顺
                 原创力文档
原创力文档 
                        

文档评论(0)