- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
两种Zipf定律拟合方法的对比实证研究
>>
第56卷 第24期 2012年12月
两种Zipf定律拟合方法的对比实证研究
路高飞 韩 普 沈 思
南京大学信息管理学院 南京210093
〔摘要〕采用普通最小二乘法和最大似然估计两种方法分别对Zipf定律的分布进行拟合比较研究。普通最小二
乘法是目前曲线拟合中普遍采用的方法,而最大似然估计是曲线拟合更为合理的方法。分别利用三组中文和三
组英文语料,对两种方法进行对比实证研究,结果发现最大似然估计方法的拟合更合理,对Zipf定律的拟合比普
通最小二乘法好,同时发现英文词汇比中文更好地符合Zipf定律分布,即中文语料不严格符合经典的Zipf定律分
布。本研究可以为幂律拟合的研究提供一些参考。
〔关键词〕Zipf定律 普通最小二乘法 最大似然估计
〔分类号〕TP391
ComparativeEmpiricalStudyonZipf’sLawwithtwoFittingMethods
LuGaofei HanPu ShenSi
SchoolofInformationManagement,NanjingUniversity,Nanjing210093
〔Abstract〕RespectivelywiththemethodsofOrdinaryLeastSquareandMaximumLikelihoodEstimation,thispaperdoesafitting
comparativestudyonthedistributionofZipf’slaw.OrdinaryLeastSquareisapopularmethodincurve-fitting,whiletheMaximum
Likelihoodisamorereasonableapproach.BasedonthethreeChinesecorpusesandthreeEnglishcorpuses,thispaperempirically
comparesthetwofittingmethods.TheresultsshowthatMaximumLikelihoodEstimationismuchbetterthanOrdinaryLeastSquareat
calculatingtheslopeofZips’slaw;EnglishcorpusmoreaccordedwiththeZipf’slawdistributionthanChineseones,whichmeans
Chinesecorpusdoesn’tstrictlyconformtotheclassicZipf’slawdistribution.Thispaperprovidesareferenceforthepower-lawfitting
research.
〔Keywords〕Zipf’slaw ordinaryleastsquare maximumlikelihoodestimation
对语言的分布认识更为深刻,对其他学科产生了很大
1 引 言 影响,因而对该定律的深入研究具有重要意义。
在语言中,词汇扮演着很重要的角色。词汇是构
GeorgeZipf在 1932年采用统计分析的方法发现 成人类语言的基本单位,通过词汇挖掘各种语言之间
[1]
了不同单词分布的经验规律———Zipf定律 。该定律 或不同语系之间的异同是语言学工作者的任务之
遵从省力法则,即人们在语言交流时,讲话的人和听话 [5-6]
一 。而通过Zipf定律可以区分不同的语言,这方
的人都想省力,说话人往往想使用少量的常用词进行 面已经有了较多的研究成果。但有关Zipf定律曲线的
交流,而听话人却想使用没有歧义的词理解,为此要达 拟合
文档评论(0)