中文词性标注：单步标注还是同步标注？基于词还是基于字？.docVIP

下载本文档

2
0
约2.4千字
约 4页
2017-03-13 发布于北京
举报
版权申诉

中文词性标注：单步标注还是同步标注？基于词还是基于字？.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文词性标注：单步标注还是同步标注？基于词还是基于字？.doc

中文词性标注：单步标注还是同步标注？基于词还是基于字？【摘要】中文词性标注给中文语句中的每一个字分配一个POS标签。但是，由于中文词语在句子中不能被精确切分，所以若想进行中文词性标注，需要词语切分作为前提条件。我们可以在分词之后进行词性标注，或者将词性标注与分词进行组合，两者同时进行。此外，我们可以选择在基于词的基础上进行词性标注，利用上下文语意，或者基于字符的基础。本文提出一种利用最大熵值框架方法针对中文词性标注等架构处理和特征表示的深入研究。我们发现分词与标注同步进行的基于字符的方法是最好的，基于字符单步（once-at-a-time）进行的标注方法是值得商榷和完善的，在精确度上略差于同步（all-at-once）进行方法，但是它的运行时间更短些。【关键词】词性标注；分词；单步；同步【中图分类号】G623.31【文献标识码】A【文章编号】1672-5158（2013）07-0354-02 1.引言大多数基于语料库语言处理的研究，主要集中在对英文的处理。理论上，我们应该只能使用基于语料库的端口，因为语言的机器学习技术在很大的程度上独立于语言。但是，实际上，不同语言的特性带来了复杂性。尤其是中文，词语在一条语句中不能被准确的划分。因此在我们进行标注和解析等工作之前需要先进行分词，因为中文词性标注是对每一个词进行标注，并且一条语句的解析树是词。进行中文部分词语标注时，会遇到以下问题：（1）我们应该严格按照先分词后标注的方法进行标注还是分词与标注同时进行？（2）我们应该基于上下文（基于词）进行标注，还是基于字符进行标注？本文提出一种利用最大熵值框架方法针对词性标注等问题的深入研究。我们分析了不同方法的运行结果，试图找寻最优化的方法。 2.分词作为我们调查研究的第一步，我们创建一种不进行词性标注的中文分词。由于在使用单步方法时，分词中的错误将传递到词语标注阶段，为了我们研究的准确性，我们使用最先进的分词技术。我们的分词类似于采用最大熵值分词法（Xue and Shen， 2003）。它根据上下文得来的特性对每个词进行分类。每个词被分配一个由4个边界值组成的标签：“b”表示一个词的开始，“m”表示一个词的中间的字，“e”表示一个词的结尾，“e”表示该表示的词是单个字的词。 2.1 分词特点我们提出了另外三种能够提高分词精确度的功能（如下模板（d）-（f））。在我们的分词中去掉了默认功能（Xue and Shen， 2003），因为在我们的分词中默认功能不能够提高我们的精确度。以下的功能模板在我们的分词中被使用，W指代词，C指代字。（a）-（c）指的是含有5个字的内容。 0C表示当前字符， nC表示当前字符的前后n位置上的字符。英文与中文的语言差别直接影响到英文词性标注方法在中文环境下的运行结果，得到是无效的结果。中文里个别字符编码信息有助于词性标注。使用基于字符方法的中文词性标注优于使用基于词方法的中文词性标注。我们的研究还表明，与之前提出的同步基于字符方法相比，单步基于字符方法达到了相当良好的词性标注精确度，并且可以大大缩减运行时间。参考文献 [1] H.Jing，R.Florian， X. Luo， T. Zhang， and A.Ittycheriah. 2003. HowtogetaChineseName（Entity）：segmentation and combination issues.In Proc. of EMNLP [2] O.Y.Kwong and B. K. Tsou. 2003. Categorial fluidity in Chinese and its implications for part-of-speech tagging. In Proc. of EACL [3] X.Luo. 2003. A maximum entropy Chinese characterbased parser. In Proc. of EMNLP [4] A.Ratnaparkhi. 1996. A maximum entropy model for part-of-speech tagging. In Proc. of EMNLP [5] R. Sproat， C. Shih， W. Gale， and N. Chang. 1996. A stochastic finite-state wordsegmentation algorithm for Chinese. Computational Linguistics， 22（3）：377-404 [6] R.Sproat and T.Emerson. 2003. The first international Chinese word s