自然语言处理大纲.docVIP

下载本文档

27
0
约1.81万字
约 6页
2017-02-18 发布于河南
举报
版权申诉

自然语言处理大纲.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自然语言处理大纲

课程编号： S0300010Q 课程名称：自然语言处理开课院系：计算机科学与技术学院任课教师：关毅刘秉权先修课程：概率论与数理统计适用学科范围：计算机科学与技术学时：40 学分：2 开课学期：秋季开课形式：课堂讲授课程目的和基本要求：本课程属于计算机科学与技术学科硕士研究生学科专业课。计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工处理的科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉性学科。通过本课程的学习，使学生掌握自然语言（特别是中文语言）处理技术（特别是基于统计的语言处理技术）的基本概念、基本原理和主要方法，了解当前国际国内语言处理技术的发展概貌，接触语言处理技术的前沿课题，具备运用基本原理和主要方法解决科研工作中出现的实际问题的能力。为学生开展相关领域（如网络信息处理、机器翻译、语音识别）的研究奠定基础。课程主要内容：本课程全面阐述了自然语言处理技术的基本原理、实用方法和主要应用，在课程内容的安排上，既借鉴了国外学者在计算语言学领域里的最新成就，又阐明了中文语言处理技术的特殊规律，还包括了授课人的实践经验和体会。 1 自然语言处理技术概论（2学时）自然语言处理技术理性主义和经验主义的技术路线；自然语言处理技术的发展概况及主要困难；本学科主要科目；本课程的重点与难点。 2 自然语言处理技术的数学基础（4学时）基于统计的自然语言处理技术的数学基础：概率论和信息论的基本概念及其在语言处理技术中的应用。如何处理文本文件和二进制文件，包括如何对文本形式的语料文件进行属性标注；如何处理成批的文件等实践内容 3 自然语言处理技术的语言学基础（4学时）汉语的基本特点；汉语的语法功能分类体系；汉语句法分析的特殊性；基于规则的语言处理方法。ASCII字符集、ASCII扩展集、汉字字符集、汉字编码等基础知识。 4 分词与频度统计（4学时）中文分词技术的发展概貌；主要的分词算法；中文分词技术的主要难点：切分歧义的基本概念与处理方法和未登录词的处理方法；中外人名、地名、机构名的自动识别方法；词汇的频度统计及统计分布规律。以及词频统计、排序输出；二元对频度统计，统计结果浏览等实践内容。 5 语料库的多级加工（6学时）语料库的基本概念；国际国内主要语料库简介；语料库加工的主要步骤；词性标注的常用方法；主要句法分析算法简介；汉语语义标注的基本概念和常用方法；汉语语义词典Hownet介绍。以及如何组织语料库，如何对语料库进行字符串检索等实践内容。 6 基于统计的语言模型（4学时） N-gram统计语言模型的基本概念；构造统计语言模型的方法；数据平滑的常用算法；N-gram统计语言模型的应用及评价；现有的其他主要的统计语言模型。以及构造Bigram语言模型及good-turing算法实现等实践内容。 7 马尔可夫模型（4学时）马尔可夫模型的基本概念；马尔可夫模型几个基本问题及其解法；马尔可夫模型的几个常用算法；马尔可夫模型的应用（音字转换、词性标注）。以及隐马尔可夫词性标注器的实现等实践内容。 8 句法分析技术（4学时）基于语言学规则的句法分析技术；基于统计的句法分析技术；依存文法；概率上下文无关文法（PCFG）；级联式有限状态句法分析技术。 9 篇章理解技术（4学时）计算机自动文摘的基本理论与常用方法：文本的机器内部表示；文本分析技术；摘要提取技术；摘要生成技术。 10 问答式信息检索（4学时）问答式信息检索的基本概念；问答式信息检索的主要难点；问答式信息检索系统的系统构成；问答式信息检索的相关技术；文本分类技术简介；问答式信息检索的评测方法；TREC简介。以及VSM文本分类器设计等实践内容。课程主要教材： [1] Chris Manning H. Schutze. Foundations of Statistical Natural Language Processing. MIT Press, 1999 [2] 王晓龙，关毅《计算机自然语言处理技术》清华大学出版社，预计2004年 [3] 姚天顺，《自然语言理解—一种让机器懂得人类语言的研究》，清华大学出版社，2002.10 主要参考文献： [1] 边肇祺等. 模式识别. 清华大学出版社. 1998. [2] 董振东，董强，知网， HYPERLINK [3] 冯志伟《计算语言学对理论语言学的挑战》，《语言文字应用》1992年第1期 [4] 黄昌宁，中文信息处理中的分词问题，《语言文字应用》, 1997, (1), 71-78 [5] 黄昌宁（1993）《关于处理大规模真实文本的谈话》，