汉语信息熵和语言模型的复杂度.pdfVIP

下载本文档

90
0
约 4页
2017-09-20 发布于河南
举报
版权申诉

汉语信息熵和语言模型的复杂度.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

维普资讯第 10期电子学报 Vo】24 № 10 1998年 i0月 ACTA ELECTRONICA SINICA Oct． 1996 语信息熵和语言模型的复杂度 TheEntropyofChineseandthe Perplexity oftheLanguageModels 汉 (清华大学电子工程系，北京 1．00084)~ 【提要】本文介绍了估计汉语信息熵的方法，并通过对大量语料的统计，给出了汉语信息熵的一十上界一5．17比特／汉字．本文还以此为基础对统计语言模型的能力进行了定量的描述，比较了常用的统计语言模型的性能，并给出了一种用低阶语言模型逼近高价模型的方法，美键词：墨基壅童+苎堡童苎偿斋f! 往丁JV Abstraot： Inthispaper，amethodofestimati ’anupperboundoftheentropyofprinted Chineseispresented．A boundof5．1 its／characterfortheentropyisobtainedbycomputingthe entropy ofthesampleofChinese corpus．Theperplexity ofseverallanguagemodeIs，which isa fortheabilityoflanguagemodels，isdiscussed．A new methodofapprox imatinghighscalelanug agemodelbytheloweronesisalsopresented． Keywords： Entropy+Perplexity，StochasticLanguageModel 一、 gl言墨出发作了粗略的估计，结果为特汉近来，统计语言模型 (StochasticLanguage 二、信息熵和语育模型的复杂度 Mode1)越来越多地被用于自然语言处理．此法以信息论为基础，把语言理解看成利用信息来消除甸子一种语言或语言的子集可以视为一个信掠．假中文字不确定性过程．要了解不同模型性能的差异，设其字符集 v大小为 L如果这种语言中的语句可必须了解在语言中确定一个字符平均需要多少信息以任意组台。且每个字符都是等概出现的，那么每个量，并定量度量各语言模型消除不确定性的能力．字符需要 logL比特的信息才能相互区分，从信息论在一种语言中，每个字符 (汉语中为汉字)到底的观点看，每个字符所古的信息量为 IogL．实际在包含多少信息，根据 Shannon的信息熵 (entropy)] 自然语言中，各个字符出现的概率不同，并有上下文可定量描述．尽管要准确给出一种语言中字符平均相美性，因此实际确定一个字符并不需要这么多信的墒是报难的，但可以估计出它的上界．国外对英语