中英文混合字符串切分技术.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中英文混合字符串切分技术   摘要:该文对英文字符串、中文字串和中英文混合字符串的切分方法进行研究。首先分析现有的中文、英文切分算法,再提出了一种实用的中英文混合切分算法。对于不同字符串的切分问题进行深入研究,针对不同要求,不同字符串提出不同切分算法和具体实施方法。   关键词:字符;切分;技术;函数;软件;字符串   中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)14-3426-03   Chinese and English Mixed String Segmentation Technique   YANG Zhen-yu   (Qingyuan Polytechnic, Qingyuan 511500, China)   Abstract: This paper text string in English string, mixed string in both Chinese and English segmentation method for research. This paper firstly analyzes the existing Chinese, English segmentation algorithm is proposed, then mixed segmentation practical English and Chinese. The segmentation problem for different string, in-depth study according to different requirements, different string put a different segmentation and concrete implementation method.   Key words: characters; segmentation; technology; functions; software; string   随着计算机在各个领域的广泛应用。从最初的数据处理、信息处理发展到今天的知识处理、图形处理和对语言文字的信息处理。上世纪提出中文信息自动分词处理以来,许多专家和学者在这一领域已经取得了很大的进展。随着信息的多元化和复杂化,基于中文信息分词的算法也得到了不断改进和完善[1]。分词算法在信息检索、信息提取、人机交互、文本挖掘、自动归档等领域都有着广泛的应用,但是在今天经济的飞速发展的中国,中国与世界的紧密联系,信息的形式从单一的汉语发展到中外语言混合的形式来表达,特别是中英文混合使用的情况非常普遍。这就要求新的信息处理系统不仅能够将中文正确切分,还要能够对中英文混合的情况正确切分[2]。本文就英文字符串、中文字串和中英文混合字符串的切分谈谈自己的方法。   1 英文字符串切分技术   英文字符串一般是指英文字母、阿拉伯数字、标点符号、运算符、特殊字符等,每个字符只占用一个存储单元[3]。对于这样的的字符串进行切分,方法很多,下面主要从两个方面进行介绍,一是按某一特定字符对字符串进行切分,二是切分指定长度的字符串。   1.1 按指定字符进行切分   在对一个字符串进行切分时,通常要求按照某一个特定的字符对字符串进行切分。这种切分的结果是切出来的字符串长度不定。按照要求,采用函数ExtractStrings就可以轻松实现,但要注意切分后的串有足够的存储空间。   1.1.1 ExtractStrings函数定义   Function ExtractStrings(Separators, WhiteSpace: TSysCharSet; Content: PChar; Strings: TStrings): Integer;[4]   参数说明:   1)Separators参数指定一组分割符,所有的子串都是用它们分割的。但是成对的引号内的分割符会被忽略。   2)WhiteSpace 参数指定每个子串开头被忽略的字符s。   3)Content 参数就是被分割的“源”串了。   4)Strings 参数用于接收分割后的各个子串,它的原有内容不会被清空。   另外,EctractStrings不会把(忽略WhiteSpaces后的)空串加入到Strings中。   1.1.2 实例验证   切分字符串:welcom to|...Qingyuan|##Polytechnic||#   希望得到下面四个字符串:   1)welcom to   2)Qingyuan   3)Polytechnic   4)|#   分析:从给定的字符串可以看出,利用字符“|”作为分割符,

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档