汉语信息嫡和语言模型的复杂度吴军.docVIP

下载本文档

1
0
约3.32千字
约 3页
2017-08-09 发布于浙江
举报
版权申诉

汉语信息嫡和语言模型的复杂度吴军.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

汉语信息嫡和语言模型的复杂度吴军

汉语信息嫡和语言模型的复杂度 TheEntroPyofChineseandthe PerPlexityoftheLanguageModels 吴军王作英 (清华大学电子工程系，北京100084)“ 【提要】本文介绍了估计汉语信息摘的方法，并通过对大量语料的统计，给出了汉语信息嫡的一个上界一5.17比特/汉字.本文还以此为基础对统计语言模型的能力进行了定量的描述，比较了常用的统计语言模型的性能，并给出了一种用低阶语言模型通近高阶模型的方法. 关健词:嫡，复杂度，统计语言模型 Abstraet:Inthispaper，amethodofestimatinganupperboundoftheentropyofprinted Chinese15presented.Aboundof5.17bits/eharaeterfortheentropy15obtainedbyeomputingthe entropyofthesampleofChineseeorpus.Theperplexityofseverallanguagemodels，whiehisa quantitativemeasurementfortheabilityoflanguagemodels，15diseussed.Anewmethodofapprox- imatinghighsealelanguagemodelbythelowerones15alsopresented. Keywords:Entropy，Perplexity，StoehastieLanguageModel 字频出发作了粗略的估计，结果为9.6比特/汉一、引言字[3习近来，统计语言模型(StoehasticLanguage Model)越来越多地被用于自然语言处理.此法以信息论为基础，把语言理解看成利用信息来消除句子中文字不确定性过程.要了解不同模型性能的差异，必须了解在语言中确定一个字符平均需要多少信息量，并定量度量各语言模型消除不确定性的能力. 在一种语言中，每个字符(汉语中为汉字)到底包含多少信息，根据shannon的信息嫡(entropy)[，〕可定量描述.尽管要准确给出一种语言中字符平均的摘是很难的，但可以估计出它的上界.国外对英语作了许多研究，最初只考虑了字符的频率，得到平均摘为4.46比特/字符，近年来，利用单词一级的语言模型，对大规模语料库进行了统计，得到了精确得多的结果—1.75比特/字符阁，对于汉语，过去只从二、信息摘和语言模型的复杂度一种语言或语言的子集可以视为一个信源.假设其字符集V大小为L，如果这种语言中的语句可以任意组合，且每个字符都是等概出现的，那么每个字符需要fogL比特的信息才能相互区分，从信息论的观点看，每个字符所含的信息量为logL.实际在自然语言中，各个字符出现的概率不同，并有上下文相关性，因此实际确定一个字符并不需要这么多信息.假设每个字符的概率分布为尸，，i~1，2，…，L，先考虑单独一个字符的情况，平均信息量为: 一艺尸，·fog尸‘ 信息论中定义为信息嫡，记为H，易证H 1994年10月收到，1996年3月定稿 wuJun，WangZhuoying(Dept.ofEleetronieEngineering，TsinghuaUniversity，Beijing100084) 电子学报1996年 logL. 再看有上下文的情况，由于自然语言中的句子是由V中字符构成的典型序列，因此，一个长为n的句子(c;，。:，…，‘。)所包含的信息量大: 一艺尸(。，，‘2，…，。。)·109尸(。l，。2，…，。。) t〔v 记作H(尸)，每个字符平均的信息量为:生H n (尸)，记作:H。(尸)，可以证明，H。(尸)是n的非负单调减有下界函数[4]，因此极限存在，记为H二(尸)，它反映出这种语言(信源)平均每个字符的信息量，称为这个语言中每个字符的平均信息嫡或嫡率(en- tropyratio)，在不引起混淆时，简称为语言的嫡. 由于自然语言是各态遍历的.根据Shannon- MeMillan一Breiman定理，有: H~(P)=lim{一与。g尸(c，，。2，…，。.(l) 因此，只要求出P(e、，‘2，…，‘。)，就能知道语言的嫡.而尸可计算的前提是自然语言符合马尔可夫假设，这和实际情况相符.因此，我们假设自然语言是一个N一1阶马尔可夫链，在此基础上建立的语言模型称为N元文法模型(N一Gram)M，这时得到的嫡率记为户M.我们有: 户、(:，，。2，…，。。)一fl尸(。，l(。，，。2，…，。一， flP(‘}。，_二+，，…，。_，)(2) 由于无条件大于条件嫡，所以: H二(尸)三H(户、) 因此使