基于最大概率分词算法的中文分词方法研究.pdfVIP

基于最大概率分词算法的中文分词方法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于最大概率分词算法的中文分词方法研究.pdf

科技信矗 OIT论坛o 2010年第21期 基于最大概率分词算法的中文分词方法研究 丁洁 《陕西邮电职业技术学院计算机系 陕西咸阳712000) 【捕要】本文提出了一种基于最大概率分词算法的中文分词方法,以实例贯穿全文系统描述了最大概率分词算法的基本思想与实现,椎 据针对失规模真实语耕库的对比沸3试,分词运行效率有较大提高,该方法是行之有效的,并且提出了该算法的改进方向。 【关键词】中文分词;最大概率分词;左邻词 分词是将连续的字序列按照一定的规范重新组合成词序列的过 率最大的候选词称为最佳左邻词。比如候选词“意见”只有一个左邻词 程。把中文的汉字序列切分成有意义的词,就是中文分词。中文只是 “有”,因此,“有”同时也就是“意见”的最佳左邻词;候选词“分歧”有两 字、句和段可以通过明礁的分界符来简单划界,唯独词没有一个形式 个左邻词“意见”和“见”,其中“意见”的累计概率大于“见”累计概率, 上的分界符,词是最小的、能独立话动的、有意义的语言成分。计算机 因此“意见”是“分歧”的最佳左邻词 的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词 最大概率分词算法: 类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、 1)对一个待分词的字串S,按照从左到右的顺序取出全部候选词 语境、语用知识库。中文信息处理系统只要涉及句法、语义往日检索.翻 wl,w2,…,wi,…,wII; 译、文摘、校对等应用),是以词为基本单位的。所以当同样面对短语的 2)到词典中查出每个候选词的概率值P(wi),并记录每个候选词 划分问题时.在词这一层面上.中文就要复杂得多。 的全部左邻词: 输入含有若‘F个汉字的待处理字符串Cn=C1C2…Ci..·Cn(ci为3)按照公式1计算每个候选词的累计概率,同时比较得到每个候 选词的最佳左邻词: 汉字,iE【1,n】),通过机器的分析处理,输出词串SIn=S1s2…sj…sm(sj 为词,jE【1,m】),以上过程清晰地反映了中文分词的过程。 4)如果当前词帅是字串S的尾词,且累计概率P7m)最大,则 中文分词的应用相当广泛,在使用中我们经常会遇到一些困惑。 帅就是S的终点词: 比如信息检索,如果不切词,而是按字检索的话,当检索“和平”时会出 5)从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输 现“幸福和平安”的榆索结果,如果要榆索“为人”,町能映人你眼帘的 出,即S的分词结果。 是“为人民服务”的信息。这样的例子还有不少.我们不难发现词汇分 最大概率分词算法示例: 析是自然语言处理应用系统的基础,并且从字符串到词串是一个降低 1)对“有意见分歧”.从左到右进行一遍扫描,得到全部候选词: 不确定性的过程。 “有”。“有意”,“意见”,“见”,“分歧”; 同样,从字符串到词串还存在着不确定因素。例如。。学生会举办 2)对每个候选词,记录下它的概率值,并将累计概率赋初值为0; 网页制作比赛”。切分后可出现两种结果。第一种,。学生会举办网 3)顺次计算各个候选词的累计概率值,同时记录每个候选词的最 页制作比赛”;第二种,“学生会举办网页制作比赛”。分词以后 佳左邻词: 在词的层面上进行处理,处理的确定性就大大提高了。在更高一级的 P,(有)=P(有), 文本处理中,包括句法分析、语句理解、自动文摘、自动分类、自动校对 P,(有意)=P(有意), 和机器翻译等,词的详细信息起到更为重要的作用。 P‘(意见)=P’(有)×P(意见),(“意见”的最佳左邻词为“有”) 本文提出了一种基于最大概率分词算法的中文分词方法。根据针 P‘(见)=P’(有意)×P(见),(“见”的最佳左邻词为“有意”) 对大规模真实语料库的对比测试。分词运行效率有较大提高。该方法 跗意见)P1见) 是行之有效的。下面将系统描述最大慨率分词算法的基

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档