基于汉语拼音首字母索引的混合分词算法①.PDFVIP

下载本文档

1
0
约1.45万字
约 5页
2019-04-08 发布于天津
举报
版权申诉

基于汉语拼音首字母索引的混合分词算法①.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于汉语拼音首字母索引的混合分词算法①.PDF

2016 年第 25 卷第 4 期计算机系统应用基于汉语拼音首字母索引的混合分词算法① 1 1 2 1 杨进才 , 陈忠忠 , 谢芳 , 胡金柱 1(华中师范大学计算机学院, 武汉 430079) 2(湖北工业大学计算机学院, 武汉 430068) 摘要: 中文自动分词是web 文本挖掘以及其它中文信息处理应用领域的基础. 蓬勃发展的中文信息处理应用对分词技术提出了更高的要求. 提出了一种新的分词算法 FPLS, 该算法用拼音首字母作为词语表一级索引, 词语的字数为二级索引构造分词词典, 采用双向匹配方法, 并引入规则解决歧义切分问题. 与现有的快速分词算法比较, 该算法分词效率高且正确率高. 关键词: 中文分词; 拼音索引; 双向匹配; 歧义切分 Hybrid Segmentation Algorithm for Chinese Text Using First Pinyin Letter Index 1 1 2 1 YANG Jin-Cai , CHEN Zhong-Zhong , XIE Fang , HU Jin-Zhu 1(School of Computer Science of Central China Normal University, Wuhan 430079, China) 2(School of Computer Science of Hubei University of Technology, Wuhan 430068, China) Abstract: Chinese automatic segmentation is the basis of web text mining and other Chinese information processing applications. Booming Chinese information processing applications put forward a higher requirement for Chinese automatic segmentation. This paper presents a new segmentation algorithm FPLS, which uses a dictionary with a first letter of the Pinyin as a first level index and words count as the secondary index structure. A bidirectional matching method and rules are employed to resolve ambiguity segmentation problem in the algorithm. Comparing with the existing algorithm, algorithm FPLS gets higher accuracy and efficiency. Key words: Chinese automatic segmentation; Pinyin index; bidirectional match; ambiguity resolve [7] 自然语言人机接口、情报检索、web 查询系统、法等. 文本数据挖掘以及应用最广泛的搜索引擎的研究均依这些分词算法归为三大类: 机械分词方法、基于赖于中文信息处理的研究. 在中文信息处理研究中自统计的分词方法和基于规则的分词方法. MM 方法、多动分词算法是基础课题,