基于词频统计的中文分词的研究.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于词频统计的中文分词的研究.pdf

基于词频统计的中文分词的研究 费洪晓 康松林 朱小娟 谢文彪 (中南大学信息科学与工程学院,长沙 4 %# ) : 5/326) 789:6;=$:?$@ 摘 要 论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统,可以将输入的连续汉字串进行分 词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以 及这些词语出现的频率。这个系统选用了三种统计原理分别进行统计:互信息, 元统计模型和 测试。文中还对这三种 . A/ 原理的处理结果进行了比较,以分析各种统计原理的统计特点,以及各自所适合的应用场合。 关键词 中文分词 词频统计 互信息 . 元统计模型 A/测试 文章编号 ( ) 文献标识码 中图分类号 !/B,,/ !# %/C%/! D EF,G, !#$%% ’()* +%,-%$./.#($ 0%%/)1 2/%* ($ +./.#.#1 .% 3)%45%$16 (7 .% ’()* 3%# 8($,9#/( :/$, +($,;#$ 5 =#/(5/$ =#% ’%$?#/( ( , ) H@9*132A6*@ I6:@: 2@? 5@+6@::16@+ J*)):+: *9 J:@A12) I*A7 K@6L:1=6AM J72@+=72 4 %# : , @?.)/1. E7: N2N:1 6@A1*?:= A7: ?:=6+@ 2@? 63N):3:@A2A6*@ *9 J76@:=: O*1? =:+3:@A2A6*@ =M=A:3 O767 6= P2=:? *@ , , =A2A6=A6 A7: 91:Q:@M *9 A7: O*1?$E71*+7 A76= =M=A:3 *@A6@*= 7212A:1 P@7 6@NA 2@ P: =:+3:@A:? 2@? A7:@ , , A7: A 2N21A O*1? P@7 *ANA 2@ P: +*AA:@ A7: A 2N21A O*1? P@7 =2))M 6= AO* 7212A:1 O*1? P@7 2@? *@: ?6A6*@21M 2@ P: +*AA:@$E7: ?6A6*@21M =A*1:= O*1? 2@? A7: 91:Q:@M A72A A7: O*1? 2NN:21= 6@ A7:=: ?6=N*=2) A:8A=$E7: : , =:+3:@A2A6*@ =M=A:3 =:):A= A71:: R6@?= *9 =A2A6=A6= N16

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档