基于统计的汉字极限熵估测研究.pdfVIP

下载本文档

15
0
约1.62万字
约 10页
2018-01-07 发布于广东
举报

基于统计的汉字极限熵估测研究.pdf

基于统计的汉字极限熵估测孙帆，孙茂松清华大学计算机科学与技术系智能技术与系统国家重点实验室．北京100084 E-mail：sms@tsinghua．edu．cn 摘要t文字符号的极限熵是在充分考虑上下文信息条件下，字符所包含平均信息量的太小．本文分别利用两种统计方法来估计汉字的极限熵c第一种方法通过计算汉字的n阶熵来逼近极限熵：第二种方法则通过建立统计语言模型，计算模型与平衡测试样本集之间的交叉熵给出汉字极限熵上界的估计．在实验中我们比较了这两种方法井得出结论：基于词的语言模型估计方法比基于字的直接计算方法得到了汉字熵的更为精确的估计。其熵值为5．31比特。实验中我们还使用了多种平滑技术对模型进行平滑，并比较了这些方j击的优劣。关键词：极限熵：语言模型；n元串；平滑技术；线性插值 StatisticalEstimationforU1timate of Entropy ChineseCharacters

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于统计的汉字极限熵估测研究.pdfVIP

基于统计的汉字极限熵估测研究.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档