- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Corpus Linguistics and Statistical Inference 李素建 lisujian@ Institute of Computational Linguistics, Peking Univ. Tel: 6275 3081 -105 Office: 北京大学理科1号楼1443N 课程信息 名称:语料库语言学(0BK01) 授课时间:周二下午;周五下午 授课地点:3202 助教: 丁伟伟: email: weiwei.ding@ tel: 6275 3081 – 209 课件网址:/member/lisujian 成绩评定 平常成绩 (70%) 上机 presentation 出勤 笔试 (30%) 参考资料 语料库语言学,黄昌宁 李涓子,商务印书馆,2002 /~kjohnson/quantitative Corpus Linguistics, Douglas Biber, etc. 外语教学与研究出版社 An introduction to Corpus Linguistics, Graeme Kennedy, 外语教学与研究出版社 Statistical inference, George Casella, Roger L.Berger, 机械工业出版社 应用多元统计分析,高惠璇编著,北京大学出版社 http://bowland-files.lancs.ac.uk/monkey/ihe/ linguistics/contents.htm 统计自然语言处理基础,Christopher D. Manning, 苑春法等译,电子工业出版社 1. Computational Linguistics (CL) 2. International Journal of Corpus Linguistics 3. 中文信息学报(中文信息学会) 4. 计算机学报、软件学报、计算机研究与发展 5. 汉语语言与计算学报(新加坡) 当代语言学、语言文字与应用 1. Annual Meeting of the Association for Computational Linguistics (ACL年会) 2. International Conference on Computational Linguistics (COLING) 3. SIGIR, IJCAI 全国计算语言学联合学术会议(JSCL) 4. 全国学生计算语言学研讨会(SWCL) IJCNLP, AIRS, CICLing 授课内容和方式 单周授课 语料库内容 统计内容 基本知识 程序设计: R语言 双周实践 上机 presentation + 报告 --“语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响” 汤姆斯(Thomas)等人1996年为祝贺语料库语言学的主要奠基人和倡导者里奇(Leech)六十诞辰而编纂的语料库语言学研究论文集的开场白。 -[丁信善,1998] 在今天,仅仅将语料库视为存放语言材料的仓库, 是令人无法忍受的观点。新一代的兆亿级的大规 模语料库可以作为语言模型的训练和测试手段, 来评价一个语言模型的质量;此外,诸如困惑度 之类的统计方法也可利用语料库来评估一个语法 模型对语料的解释能力。 —— Geoffrey Leech, The State of The Art in Corpus Linguistics, 1991, In Aijmar, K. and Altenberg, B. , eds. , English Corpus Linguistics: Studies in Honor of Jan Svartvik, London: Longman, 1991. Whereas the view of a corpus as an exhaustive reservoir of data is scarcely tenable today, our new megacorpora can provide the means for training and testing models of language so as to assess their quality. The statistical measure known as perplexity (see Jelinek 1985b) provides an evaluation of how good a grammar (or language model) is in accounting for the data observed i
文档评论(0)