两种Zipf定律拟合方法的对比实证研究.PDFVIP

两种Zipf定律拟合方法的对比实证研究.PDF

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
两种Zipf定律拟合方法的对比实证研究

>> 第56卷 第24期 2012年12月   两种Zipf定律拟合方法的对比实证研究 路高飞 韩 普 沈 思 南京大学信息管理学院 南京210093 〔摘要〕采用普通最小二乘法和最大似然估计两种方法分别对Zipf定律的分布进行拟合比较研究。普通最小二 乘法是目前曲线拟合中普遍采用的方法,而最大似然估计是曲线拟合更为合理的方法。分别利用三组中文和三 组英文语料,对两种方法进行对比实证研究,结果发现最大似然估计方法的拟合更合理,对Zipf定律的拟合比普 通最小二乘法好,同时发现英文词汇比中文更好地符合Zipf定律分布,即中文语料不严格符合经典的Zipf定律分 布。本研究可以为幂律拟合的研究提供一些参考。 〔关键词〕Zipf定律 普通最小二乘法 最大似然估计 〔分类号〕TP391 ComparativeEmpiricalStudyonZipf’sLawwithtwoFittingMethods LuGaofei HanPu ShenSi SchoolofInformationManagement,NanjingUniversity,Nanjing210093 〔Abstract〕RespectivelywiththemethodsofOrdinaryLeastSquareandMaximumLikelihoodEstimation,thispaperdoesafitting comparativestudyonthedistributionofZipf’slaw.OrdinaryLeastSquareisapopularmethodincurve-fitting,whiletheMaximum Likelihoodisamorereasonableapproach.BasedonthethreeChinesecorpusesandthreeEnglishcorpuses,thispaperempirically comparesthetwofittingmethods.TheresultsshowthatMaximumLikelihoodEstimationismuchbetterthanOrdinaryLeastSquareat calculatingtheslopeofZips’slaw;EnglishcorpusmoreaccordedwiththeZipf’slawdistributionthanChineseones,whichmeans Chinesecorpusdoesn’tstrictlyconformtotheclassicZipf’slawdistribution.Thispaperprovidesareferenceforthepower-lawfitting research. 〔Keywords〕Zipf’slaw ordinaryleastsquare maximumlikelihoodestimation 对语言的分布认识更为深刻,对其他学科产生了很大 1 引 言 影响,因而对该定律的深入研究具有重要意义。   在语言中,词汇扮演着很重要的角色。词汇是构   GeorgeZipf在 1932年采用统计分析的方法发现 成人类语言的基本单位,通过词汇挖掘各种语言之间 [1] 了不同单词分布的经验规律———Zipf定律 。该定律 或不同语系之间的异同是语言学工作者的任务之 遵从省力法则,即人们在语言交流时,讲话的人和听话 [5-6] 一 。而通过Zipf定律可以区分不同的语言,这方 的人都想省力,说话人往往想使用少量的常用词进行 面已经有了较多的研究成果。但有关Zipf定律曲线的 交流,而听话人却想使用没有歧义的词理解,为此要达 拟合

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档