- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
_搜索引擎日志中“N+V”型短语分析.doc
搜索引擎日志中“N+V”型短语分析
摘 要 句法分析是自然语言处理中的一个难点和重点。基于搜狗日志语料,提出一种用层叠条件随机场模型实现搜索引擎日志中“N+V”型短语分析的方法。将短语分析分为两个阶段:“N+V”型短语内部结构分析和外部功能分析。这为 “N+N+V”型短语和“N+V+V”型短语等外显型歧义结构的消歧提供了解决方法,从而为搜索引擎用短语词典构建提供基础研究服务。
关键词 “N+V”型短语内部结构 “N+V”型短语外部功能 层叠条件随机场模型
中图分类号 TP391 文献标识码 A
Phrase Parsing of “N+V” Structure in Search Engine Query Logs
Abstract Syntactic parsing is an important and difficult problem in natural language processing.Based on Sogou log corpus,this paper presents an approach which realizes phrase parsing of揘+V攕tructure,adopting cascaded conditional random fields model. Phrase parsing is divided into two stages:internal structure parsing and external function type of the phrase of 揘+V攕tructu re. The method proposes a solution to the problem of the phrase structure ambiguities of explicit type,and provides basic service for the construction of phrase dictionary which is used by search engine.
Keywords Internal Structure Parsing of the Phrase of 揘+V?Structure External Function Type of the Phrase raof “N+V”Structure Cascaded Conditiona Random Fields Model
0 引 言
句法分析是在自然语言处理中起着举足轻重的作用,在机器翻译、自动问答和自动标引等领域有着广泛的应用。但是,它的研究和发展比较缓慢。目前短语通常采用“分而治之”的原则,降低完全句法分析的难度,进行部分的句法分析,而对于短语的分析使其重要部分之一[1]。文献[2]探讨了汉语中基于短语的语法分析方法的优势,指出单独的短语分析和提取在汉语的句法分析中有重要地位。基于以上理论,本文对搜索引擎日志中“N+V”型短语进行内部结构和外部功能的分析,为“N+N+V”型短语和“N+V+V”型短语等外显型歧义结构[2]的消歧提供了解决方法,从而为完全句法分析打下基础,为搜索引擎用短语词典构建[3]提供基础研究服务。
短语分析主要分为基于规则的和基于统计的两种。文献[4]指出现代汉语中,对短语的分类一般采用下面两种分类标准:内部结构;外部功能。按照内部结构,可分为:定中短语、状中短语、主谓短语、述宾短语等;而按外部功能,则一般分为名词短语、动词短语、主谓短语、形容词短语等。文献[5]以1998年半年《人民日报》语料,对常用的组合歧义字段,通过建立以歧义字段的上下文的词和词性的复合特征模板,实现其消歧。文献[6]提出一种基于层叠条件随机场的句法语义自动标注方法,该方法在底层条件随机场模型中解决框架元素的识别,将识别结果传递到上层短语类型识别的条件随机场模型,再将识别结果传递到上层句法功能识别的条件随机场模型,有效地解决了短语句法语义自动标注问题。
基于以上理论,本文将基于层叠条件随机场实现对搜狗日志语料中的“N+V型短语”分析。其分析分为两个阶段:确定“N+V”型内部结构;确定“N+V”外部功能类别。对搜狗日志语料中“N+V”型短语进行初步人工校对,发现“N+V”型短语呈现五种结构类型:主谓、定中、状中、同位和联合;三种外部功能类别:名词短语、动词短语和主谓短语。首先,是对搜狗日志语料中已经进行过短语边界识别的“N+V”型短语,通过条件随机场模型,依据句子中词语、音节信息和词类信息,预测每个词对应的短语内部结构标记信息;然后,通过对短语的内部结构的预测信息进行校对处理,得到正确的短语内部结构标记信息,作为短语外
文档评论(0)