基于字的分词方法的分析与实现-analysis and implementation of word segmentation method based on word.docxVIP

下载本文档

6
0
约6.17万字
约 77页
2018-08-14 发布于上海
举报
版权申诉

基于字的分词方法的分析与实现-analysis and implementation of word segmentation method based on word.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于字的分词方法的分析与实现-analysis and implementation of word segmentation method based on word

摘要许多中文自然语言处理任务需要以词为单位的数据，分词是这样的处理任务的第一步。在中文句子中，除了有标点符号用来断句外，字与字紧密相连，某个字串是否成词往往与上下文有关。这与英文等语言很不相同：英文中有空格符作为词语的分割标记，而中文却没有类似标记。由于上下文是一个相对模糊的概念，这使得分词成为一项困难的任务。随着统计机器学习方法的成熟，其应用领域也逐渐扩展。基于统计机器学习方法的利用字标注思想的分词方法在中文分词任务中取得了很好的效果。研究人员将研究较为成熟的词性标注思想引入到中文分词中来，使得中文分词方法的准确率得到极大的提升。本文介绍了两个统计模型：最大熵模型和线性链条件随机场模型，重点关注它们的推导过程和在基于字标注的分词方法中的应用。本文使用了较大篇幅详细介绍模型的推导过程，以加深对模型的理解及利于模型的实现。在此基础上，本文利用这两个模型设计了分词方法，并就分词过程中涉及的多个步骤设计了改进方法：对于模型训练，本文分析了模型实现时重要的数据结构、提出了多线程优化方法；对于基于最大熵模型的分词方法，本文优化了最大熵模型的表示、提出了一种新的属于动态规划方法的预测算法。同时，本文通过实验讨论了多线程优化对于训练时间的影响、增加标记集合和增加特征对于分词精度的影响。本文的实验结果表明，多线程优化技术可以有效减少模型的训练时间。同时，本文提出的预测方法在性能上优于传统方法，而在准确度上也略优于传统方法，这意味着将更多的用于后处理的技术用于分词阶段有利于提高分词精度。另外，本文的实验结果也表明，线性链条件随机场模型在序列标注问题上精度很高，但其较长的训练时间可能会限制其在某些需要经常更新模型的场合的应用。在这些场合中训练时间相对较少的最大熵模型可能更合适。最后，本文的实验结果表明，相较于增加标记集合，增加更多具有表达性、更丰富的特征更有利于提高分词精度。关键词：基于字的分词，最大熵模型，条件随机场，词性标注，有限内存 BFGS算法（Limited-memory BFGS）ABSTRACTMany Chinese language processing tasks are based on words, so word segmentation is the first step of such systems. In Chinese sentences, whether a subset of characters form a word is based on the context. This is very different from English and other languages because they have space character as words delimiter. Since context is a relatively vague concept, which makes the word segmentation becomes a difficult task. With the maturity of statistical machine learning methods, its applications fields are expanding. Character tagging based word segmentation method gets a good performance in word segmentation tasks. Researchers use the idea of part-of-speech tagging to do word segmentation and makes the accuracy of Chinese segmentation method greatly improved.This thesis discussed two models, the maximum entropy model and the linear-chain conditional random fields model, and the details of the derivation of the models are studied. Then we develop two word segmentation methods based on the two models. We propose improvements for the training process and prediction process, which include better formula present