基于有效子串标注中文分词.docVIP

下载本文档

3
0
约5.64千字
约 13页
2018-08-30 发布于福建
举报
版权申诉

基于有效子串标注中文分词.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于有效子串标注中文分词

基于有效子串标注中文分词　　摘要：由于基于已切分语料的学习方法和体系的兴起，中文分词在本世纪的头几年取得了显著的突破。尤其是2003年国际中文分词评测活动Bakeoff开展以来，基于字标注的统计学习方法引起了广泛关注。本文探讨这一学习框架的推广问题，以一种更为可靠的算法寻找更长的标注单元来实现中文分词的大规模语料学习，同时改进已有工作的不足。我们提出子串标注的一般化框架，包括两个步骤，一是确定有效子串词典的迭代最大匹配过滤算法，二是在给定文本上实现子串单元识别的双词典最大匹配算法。该方法的有效性在Bakeoff-2005评测语料上获得了验证。　　关键词：计算机应用；中文信息处理；中文分词；基于子串标注的分词　　中图分类号：TP391　文献标识码：A 　　　　1　引　言　　　　中文分词技术随着基于切分语料的机器学习方法的兴起而在最近几年获得了显著突破。特别是SIGHAN①举办的国际中文分词评测(International Chinese Word Segmentation Bakeoff，简称Bakeoff)活动，提供多标准的训练和测试语料，让研究者们得以搁置困扰学界多年的切分标准问题，把研究集中到机器学习方法的改进上来。Bakeoff活动中，基于字标注的机器学习方法获得了广泛注意。此类方法在Bakeoff2005以及2006上获得了巨大成功，性能领先的系统几乎无一例外都应用了类似的标注学习的思想，形成中文分词研究中新的主流技术。　　本文继续致力于这一技术的深化，考虑使用更长的子串作为基本的标注单元来实现更充分的分词知识学习。尽管已有一些工作考虑了这一思想，但是它们不能在单一的学习过程中获得理想的分词性能，而是依赖于附加的集成技术支撑。我们的改进是将子串单元的获取分解为两个步骤，提出使用改进的最大匹配算法来获得有效的子串标注单元。在Bakeoff语料上，所提出方法的有效性得到了验证。　　　　2 学习模型　　　　基于字标注①的分词方法实际上是将分词知识的学习转换成字串的标注过程。由于每个字在构造一个特定的词语时都占据一个构词位置，即字位，因此，可以将分词过程看成学习这个字位信息的机器学习过程。把分词过程视为字的标注问题的一个重要优势在于，它能够平衡地看待词表词和未登录词的识别问题。　　2．1条件随机场模型　　条件随机场(Conditional Random Fields，CRFs)是一个无向图上概率分布的学习框架，由Lafferty等首先引入到自然语言处理的串标引学习任务中来。最常用的一类CRF是线性链CRF，适用于我们的分词学习。记观测串为W＝w1w2…wn，标记串(状态)序列Y＝y1y2…yn，线性链CRF对一个给定串的标注，其概率定义为：　　　　其中，Y是串的标注序列，W是待标记的字符，fk是特征函数，λk是对应的特征函数的权值，而t是标记，Z(W)是归一化因子，使上式成为概率分布。　　CRF模型的参数估计通常使用L-BFGS算法来完成。CRF的解码过程，也就是求解未知串标注的过程，需要搜索计算该串上的一个最大联合概率，即　　y*＝arg maxYP(Y|W) 　　在线性链CRF上，这个计算任务可以用一般的Viterbi算法来有效地完成。　　2．2　标注集和特征模板　　分词本质上是对字串中的每一个字相应作出一个在该处切分与否的二值决策过程，已有的基于字标注的CRF分词系统大多使用二字位标注集。在基于最大熵模型的分词系统中，广泛使用的是四字位标注集。我们在Bakeoff-2006的参赛系统中，首次使用了六字位标注集口。已有的结果表明，较之于其他标注集，六字位标注集搭配适当的特征模板，能够获得更佳性能。　　本文继续使用六字位标注集进行标注。我们记该集合为T＝(B，B2，B3，M，E，S)，其中，B、B2和B3分别表示一个词的前三字位置，M表示更后但非词尾的位置，E表示词尾，S表示单字词。表1中给出了六字位标注集对不同长度的词的标注例示。　　　　条件随机场或最大熵学习中，用于表达语言特性的特征函数起核心作用。通常，所用的特征会按照某种定义被适当分组，称之为特征模板。在中文分词学习中，最重要也是最基本的特征模板，就是当前字符本身及其上下文各字符。我们使用的基本特征模板将使用6个字符组合：C-1，C0，C1，C-1C0，C0C-1，以及C-1C1。这里的下标0、-1和1分别指当前及其前后一个字符的位置。我们记这组特征模板为TMPT-H。为了便于比较，我们也将使用一组模板，它包括10组字符组合，C-2，C-1，C0，C1，C2，C-2C-1，C-1C0，C0C1，C0C2以及C-1C1。记这组模板为TMPT-R。该标注集定义详见表1。