- 15
- 0
- 约1.62万字
- 约 10页
- 2018-01-07 发布于广东
- 举报
基于统计的汉字极限熵估测
孙帆,孙茂松
清华大学计算机科学与技术系智能技术与系统国家重点实验室.北京100084
E-mail:sms@tsinghua.edu.cn
摘要t文字符号的极限熵是在充分考虑上下文信息条件下,字符所包含平均信息量的太小.本文分别利用
两种统计方法来估计汉字的极限熵c第一种方法通过计算汉字的n阶熵来逼近极限熵:第二种方法则通过
建立统计语言模型,计算模型与平衡测试样本集之间的交叉熵给出汉字极限熵上界的估计.在实验中我们
比较了这两种方法井得出结论:基于词的语言模型估计方法比基于字的直接计算方法得到了汉字熵的更为
精确的估计。其熵值为5.31比特。实验中我们还使用了多种平滑技术对模型进行平滑,并比较了这些方j击
的优劣。
关键词:极限熵:语言模型;n元串;平滑技术;线性插值
StatisticalEstimationforU1timate of
Entropy
ChineseCharacters
原创力文档

文档评论(0)