基于词频统计的中文分词的研究.pdfVIP

下载本文档

73
0
约1.93万字
约 3页
2017-08-12 发布于重庆
举报
版权申诉

基于词频统计的中文分词的研究.pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于词频统计的中文分词的研究.pdf

基于词频统计的中文分词的研究费洪晓康松林朱小娟谢文彪（中南大学信息科学与工程学院，长沙 4 %# ）： 5/326) 789:6;=$:?$@ 摘要论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统，可以将输入的连续汉字串进行分词处理，输出分割后的汉语词串，一般是二字词串，并得到一个词典。词典中不重复地存储了每次处理中得到的词语，以及这些词语出现的频率。这个系统选用了三种统计原理分别进行统计：互信息，元统计模型和测试。文中还对这三种 . A/ 原理的处理结果进行了比较，以分析各种统计原理的统计特点，以及各自所适合的应用场合。关键词中文分词词频统计互信息 . 元统计模型 A/测试文章编号（）文献标识码中图分类号 !/B,,/ !# %/C%/! D EF,G, !#$%% ’()* +%,-%$./.#($ 0%%/)1 2/%* ($ +./.#.#1 .% 3)%45%$16 (7 .% ’()* 3%# 8($,9#/( :/$, +($,;#$ 5 =#/(5/$ =#% ’%$?#/( （，） H@9*132A6*@ I6:@: 2@? 5@+6@::16@+ J*)):+: *9 J:@A12) I*A7 K@6L:1=6AM J72@+=72 4 %# ：， @?.)/1. E7: N2N:1 6@A1*?:= A7: ?:=6+@ 2@? 63N):3:@A2A6*@ *9 J76@:=: O*1? =:+3:@A2A6*@ =M=A:3 O767 6= P2=:? *@ ，， =A2A6=A6 A7: 91:Q:@M *9 A7: O*1?$E71*+7 A76= =M=A:3 *@A6@*= 7212A:1 P@7 6@NA 2@ P: =:+3:@A:? 2@? A7:@ ，， A7: A 2N21A O*1? P@7 *ANA 2@ P: +*AA:@ A7: A 2N21A O*1? P@7 =2))M 6= AO* 7212A:1 O*1? P@7 2@? *@: ?6A6*@21M 2@ P: +*AA:@$E7: ?6A6*@21M =A*1:= O*1? 2@? A7: 91:Q:@M A72A A7: O*1? 2NN:21= 6@ A7:=: ?6=N*=2) A:8A=$E7: ：， =:+3:@A2A6*@ =M=A:3 =:):A= A71:: R6@?= *9 =A2A6=A6= N16