面向中文陌生文本人机交互式分词方法.docVIP

下载本文档

4
0
约8.54千字
约 18页
2018-09-22 发布于福建
举报
版权申诉

面向中文陌生文本人机交互式分词方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向中文陌生文本人机交互式分词方法

面向中文陌生文本人机交互式分词方法　　摘要：自动分词是中文信息处理的基础课题之一。为了克服传统分词方法在处理特殊领域文本时遇到的困难，本文提出了一种新的分词方法，在没有词表和训练语料的条件下，让用户参与到分词过程中，增加系统的语言知识，以适应于不同的语料和分词标准。系统采用改进的后缀数组算法，不断提取出候选词语，交给用户进行筛选，最后得到词表进行分词。四个不同语料的实验结果显示，不经过人工筛选，分词F值可以达到72％左右；而经过较少的人机交互，分词F值可以提高12％以上。随着用户工作量的增加，系统还能够进一步提高分词效果。　　关键词：计算机应用；中文信息处理；自动分词；未登录词识别；陌生文本；人机交互　　中图分类号：TP391　文献标识码：A 　　　　1　引言　　　　自动分词是中文信息处理的基础课题之一。随着中文电子文本数量的日益增加，文本的领域呈多样性发展，语料库的加工要求也有所不同。文献[1]指出，一个分词系统应当能够处理不同领域的文本和适应不同的分词标准。对于以汉语研究为目的的语料库建设而言，如何对现有的大量古代汉语的电子文献进行分词，如何对珍贵的方言语料进行处理等等，都是亟需解决的问题。在此背景下，本文提出了面对中文陌生文本的人机交互式分词方法。所谓“陌生文本”，即对于分词系统来说，没有关于该文本的任何词汇、句法、语义等先验的语言知识和资源。所谓“人机交互”，就是由系统自动地从文本中获取候选字串，由用户根据其上下文进行筛选，得到适应于不同领域的词语特点和分词标准的词表。面向陌生文本的分词，就是让系统在没有词表和其他资源的条件下，通过人机交互的方式完成对汉语各种文本的分词处理。　　　　2 相关工作　　　　目前，作为主流的基于统计的分词方法所关注的是如何从训练语料中尽可能多地学习语言知识，再对同质文本(“非陌生”文本)进行分词。因此，无法适用于陌生文本的自动分词。而不需要词表和训练语料等资源的陌生文本分词技术研究较少，还处在实验阶段。文献[2]使用统计方法从待切分语料中抽词，又将所抽取的词条用于自动分词。文献[3]利用Y。统计量进行自动分词。文献[4]使用了串频统计方法，然后通过长短串的频次的比值进行过滤获得词表，再进行分词。文献[5]则建立了一个文本熵的模型，其原则是文本分词的结果越好，则文本的整体熵越低。这些方法是纯粹利用统计方法进行陌生文本分词的一个尝试，分词的精度既不高也不够稳定。因此，一些学者考虑使用人机交互的方式来增加系统的语言知识。文献[6]利用邻接汉字的统计信息，让机器自动地给出针对该语料的候选词表，然后由用户进行筛选。通过阈值控制，以半自动循环的工作方式，最终得到一个词表。该文没有进一步进行全文分词，但其人机交互式的方法，可以保证获取词表的精确率，缺点是召回率难以保证。　　较为实用的陌生文本分词方法则是文献[1]提出的基于句子的人机交互的增量式学习方法。首先，利用串频统计获取文本中的未登录词，然后，基于这个词表进行自动分词，把分词结果提交人工判定，利用学习到的词语和优化参数进行下一轮分词和未登录词的提取。在规模为9万词的语料上，可以达到近90％的分词正确率。然而，其未登录词的发现性能不高，在人工判定的条件下，正确率和召回率分别为26％和31％，大量的工作实际上还是通过人工判定来完成。文献[7]提出了基于Multigram语言模型的主动学习方法，首先使用了50M同质生语料利用EM算法来参数估计，再依靠对较为重要的句子提交用户切分，解决高频字串的切分问题。在开放测试中，分词F值为77.7％。　　总的来看，在处理陌生文本时，人机交互的方式比纯统计方法的效果好。让用户来确定词，不仅较为准确，还可让系统适应于不同的分词标准。然而，这些方法存在的最大问题是未登录词发现的精确率和召回率不高，在人机交互和机器自动学习的机制上存在一些问题，导致分词效果不好或代价过高。　　　　3 算法　　　　上文介绍了人机交互的两种方式，基于句子的和基于候选词的，这两种方式各有其优缺点。前者可以得到切分好的句子集合，但对于用户而言，切分整个句子比较困难一些。相当数量的词会反复出现在不同的句子中，造成人工的浪费，也容易出现对同一个词切分不一致。同时，要定义生成候选句子的判别函数也是比较困难的。而基于候选词的交互方式则可以直接得到该语料的词表，通过观察上下文，能够让用户比较容易判定是否是词，也可以避免对同一个词的切分不一致。因此，我们采用了基于候选词的交互方式。　　　　3.1 系统流程　　图1给出了系统流程。首先，由机器从陌生文本中自动抽取一个高精度的候选词表。接着，由熟悉该文本的专业人员或用户进行词条的甄选，得到一个小规模词表。然后，利用这个词表进行自动分词，在未