基于汉语拼音首字母索引的混合分词算法①.PDFVIP

基于汉语拼音首字母索引的混合分词算法①.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于汉语拼音首字母索引的混合分词算法①.PDF

2016 年 第 25 卷 第 4 期 计 算 机 系 统 应 用 基于汉语拼音首字母索引的混合分词算法① 1 1 2 1 杨进才 , 陈忠忠 , 谢 芳 , 胡金柱 1(华中师范大学 计算机学院, 武汉 430079) 2(湖北工业大学 计算机学院, 武汉 430068) 摘 要: 中文自动分词是web 文本挖掘以及其它中文信息处理应用领域的基础. 蓬勃发展的中文信息处理应用对 分词技术提出了更高的要求. 提出了一种新的分词算法 FPLS, 该算法用拼音首字母作为词语表一级索引, 词语 的字数为二级索引构造分词词典, 采用双向匹配方法, 并引入规则解决歧义切分问题. 与现有的快速分词算法比 较, 该算法分词效率高且正确率高. 关键词: 中文分词; 拼音索引; 双向匹配; 歧义切分 Hybrid Segmentation Algorithm for Chinese Text Using First Pinyin Letter Index 1 1 2 1 YANG Jin-Cai , CHEN Zhong-Zhong , XIE Fang , HU Jin-Zhu 1(School of Computer Science of Central China Normal University, Wuhan 430079, China) 2(School of Computer Science of Hubei University of Technology, Wuhan 430068, China) Abstract: Chinese automatic segmentation is the basis of web text mining and other Chinese information processing applications. Booming Chinese information processing applications put forward a higher requirement for Chinese automatic segmentation. This paper presents a new segmentation algorithm FPLS, which uses a dictionary with a first letter of the Pinyin as a first level index and words count as the secondary index structure. A bidirectional matching method and rules are employed to resolve ambiguity segmentation problem in the algorithm. Comparing with the existing algorithm, algorithm FPLS gets higher accuracy and efficiency. Key words: Chinese automatic segmentation; Pinyin index; bidirectional match; ambiguity resolve [7] 自然语言人机接口、情报检索、web 查询系统、 法 等. 文本数据挖掘以及应用最广泛的搜索引擎的研究均依 这些分词算法归为三大类: 机械分词方法、基于 赖于中文信息处理的研究. 在中文信息处理研究中自 统计的分词方法和基于规则的分词方法. MM 方法、多 动分词算法是基础课题,

文档评论(0)

shiyouguizi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档