- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.2.2.8.1语言统计分析.doc
4.2.2.8.1 语言统计分析
1) 课程基本情况
学
院
设
定课程编号课程名称语言统计分析Language Statistics and Analysis开课时间一年级二年级三年级四年级秋春夏秋春夏秋春夏秋春夏适用院系计算机系、智能科学系课程定位选修学分2学分总学时32学时先修课程高等数学后续课程现代信息检索导论教
师
设
定教学方式课堂教学: 课堂讲授,每周2学时;
辅助教学:课后复习、练习,期末大作业课时分配基础知识部分:12学时;实际应用部分:20学时考核方式平时成绩: 20%;期末大作业:30%;期末考试:50%主要教材自编电子讲义参考资料概率论及其应用(第3版),William Feller著,人民邮电出版社
信息论基础(第5版),T.M.Cover著,机械工业出版社
统计与真理,C.R.劳 著,科学出版社其它信息2)基本教学目的和要求
1. 以信息论为切入点,介绍在语言分析中有效的统计方法及分析技术。语言数据的特点决定了不能简单地采用针对无差别数据的统计方法进行分析。通过信息熵来引入概率模型,最大熵原理来决定分布,最小相对熵进行检验,从整体上把握语言的不同尺度上的统计特征。
2. 从最大熵原理出发,理解并掌握常用分布(均匀分布、正态分布、指数分布、幂分布等)用于语言统计时必须满足的条件。
3. 了解并探索汉语/汉字的统计规律及其应用:如汉字的字频序号曲线、汉语句长的分布规律和双语对齐、联句的对偶判定等问题。
3)课程教学大纲和知识点
章节课时知识点难度和重要性1语言与信息2语言现象的规律性与随机性;
信息表达的系统性与经济性难度
▃
重要性
★★2概率与统计2独立和互斥的关系;
集中和离散程度的度量难度
▃▄
重要性
★★3文法与编程2正则表达式;
Python语言简介:用于文本分析难度
▃▄▅
重要性
★★★4信息的度量:熵2离散分布的熵、相对熵、互信息;
相对熵和卡方的比较难度
▃▄▅▆
重要性
★★★★★5最大熵原理和常见分布的条件4由最大熵原理导出以下常见分布:
(a)算术平均值固定→指数分布;
(b)几何平均值固定→幂分布;
(c)方差固定→正态分布;难度
▃▄▅▆▇
重要性
★★★★6泊松分布在语言统计中的特殊性2词汇的出现几乎都是小概率事件;
估算:莎士比亚认识多少单词?
泊松分布与指数分布之间的关系难度
▃▄▅▆
重要性
★★★★7汉字熵的计算2汉字的熵及其影响因素;
熵与汉字量及大字符集的效率难度
▃▄▅
重要性
★★★8频度和匀度2频度的唯一性;
匀度的多元化:均方匀度、均根匀度、熵匀度难度
▃▄▅▆
重要性
★★★★9语言中的长程相关2搭配指标:互信息、平方互信息;
进一步改进:带对数项的平方互信息难度
▃▄▅
重要性
★★★10对应关系的发现:相关与拟合2直线拟合与曲线拟合;
最小二乘法和最小一乘法;
探讨:最小半乘法的可能性难度
▃▄▅
重要性
★★★★11对应关系的数值实验2从Zipf定律到汉字频序关系;
Stirling公式的逐阶误差分析难度
▃▄▅▆
重要性
★★★★12针对词频的变换和误差分布2对数变换和平方根变换;
误差带的分布:扩散、收敛、均匀难度
▃▄▅
重要性
★★★13翻译过程中的布朗运动2形式上:长度对应关系的波动;
意义上:词汇选择的随机性难度
▃▄▅▆
重要性
★★★14句长分布与对齐研究2中英文句长分布的统计规律;
利用句长的对应关系进行对齐校正难度
▃▄▅
重要性
★★★★15对偶的统计研究2从全唐诗中抽取对偶词汇;
利用对偶词汇考察联句的对偶程度难度
▃▄▅▆
重要性
★★★★★
课程特色
1. 一个整体概念(熵),两个基本原理(最大熵原理、相对熵最小),三个实际问题(对应、对齐、对偶)。
2. 频度匀度,计算之柱;平方开方,变换之乡。
文档评论(0)