- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于条件随机场的动词细分类研究.doc
基于条件随机场的动词细分类研究 摘要:动词细分类属于词性标注的一部分,是自然语言处理的重要内容之一。基于条件随机场在分词和词性标注的基础上对动词进行了更细致的分类。根据动词的语言环境构建条件随机场模型,实验结果表明该方法取得了较高的准确率,最高取得了98.11的F值。 关键词:动词细分; 词性标注; 条件随机场 中图分类号:TP391 文献标识码:A文章编号:2095-2163(2014)01-0083-03 0引言 词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。汉语词性标注是中文信息处理的重要内容, 已经广泛应用于机器翻译、自动摘要、文本分类、文本校对和语音识别等各方面[1],并具有广阔的应用前景。 动词是一种常见的词性,在汉语句子中占有很大比例。在分词和词性标注后对动词进行细分有着重要的意义。动词细分类是在分词和词性标注的基础上,根据动词在句子中的不同语法或语义特性进行更细的标注。动词细分类可以提高句法分析的精确度,能够有效地分析句法上的歧义结构。对其进行深入的探讨分析已然成为目前学术界的关注焦点之一,本文即致力于此,展开论述。 1研究现状 动词细分类是词性标注的一部分,当前许多学者已经针对词性标注发布了相关的研究成果。尹木,肖铮[1]根据动词细分类自身的特点,提出了一种改进的隐马尔可夫模型的方法进行动词类别的自动划分。孙静[2]等提出了一种基于条件随机场CRFs模型的无监督的中文词性标注方法。首先利用词典对获得的已分好词的生文本进行词性标注,得到初始标注语料,然后利用CRFs 对语料进行迭代标注,再逐步优化标注结果。袁里驰[3]针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入马尔可夫族模型。刘滔[4]则针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题,提出一种基于MapReduce 框架的条件随机场模型训练并行化方法, 进而设计了条件随机场模型特征提取及参数估计的并行算法, 实现了迭代缩放算法的并行。 2动词细分类研究 2.1动词细分类标注 本文研究的动词细分类是在863词性标注集的基础上,对动词进行了更细致的分类。动词在整句中处于核心地位,但是863词性标注集将所有动词都归为一类。本文则针对动词在句子中的语法结构及语义特征,将动词细分为5类,细分后动词词性如表1所示。 2.2基于条件随机场的动词细分类 本文的训练语料包含三列,分别为词、原始词性、细分之后的词性。其中,原始词性采用863词性标注集的词性。细分后的词性则包括两类:非动词、动词。所有的非动词都标注为O,动词词性需根据表1所示细分表,分别标注为:vx、vz、vb、vq和vg。特征一词的本意是指一个事物异于其他事物的特点,在CRF模型中,可将特征定义为一种规则,用于描述数据中的规律性或数据的统计特征。利用CRF模型进行序列标注的关键之一在于如何针对特定的任务为模型选取特征。影响动词细分类标注结果的主要因素有词和词性标注,而除了这两个因素外,本文还根据动词细分类的任务选取了其他的特征。文中针对动词细分类问题所选的特征,如表2所示。第1期石翠:基于条件随机场的动词细分类研究智能计算机与应用第4卷 2.3.1实验数据及评价标准 本实验所使用的语料是经过分词、词性标注的语料。该语料共包含4 000个句子,词性标注采用863词性标注集,实验将前3 000句作为训练集,后1 000句中,500句作为测试集,500句作为开发集。 从实验结果可以看出,运用template2模板的动词细分类识别效果最好,该模板选择的特征与复合特征都较少。从特征选择上看,动词细分类主要与词特征相关,且由于动词在句子中的核心地位,所有的动词都能识别为动词,只存在动词细分的错误,所以实验获得了相同的准确率、召回率和F值。 3结束语 动词及动词短语在汉语中占很大比例,对动词进行细分类可以更好的理解句子的含义,有利于句法的分析和基于模板的翻译。本文分析了动词分类的特点,并将动词的细分类转化为传统的序列标注问题,利用条件随机场(CRF)进行统计决策。 参考文献: [1]尹木,肖铮.词性标注与动词细分类研究[J].电脑知识与技术,2009, 24(5): 6774-6776. [2]孙静,李军辉,周国栋.基于条件随机场的无监督中文词性标注[J].计算机应用与软件,2011,28(4):21-24. [3]袁里驰.基于改进的隐马尔科夫模型的词性标注方法[J].中南大学学报.2012,43(8):3051-3057. [4]刘滔,雷霖,陈荦,等.基于MapReduce的中文词性标注CRF模型并行化训练研究[J].北京大学学报,2013(1):147-152. [5]赵红改,吕学强,肖诗斌. 搜索引擎日
文档评论(0)