- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于词向量和条件随机场的领域术语识别方法.doc
基于词向量和条件随机场的领域术语识别方法
摘 要:针对基于统计特征的领域术语识别方法忽略了术语的语义和领域特性,从而影响识别结果这一问题,提出一种基于词向量和条件随机场(CRF)的领域术语识别方法。该方法利用词向量具有较强的语义表达能力、词语与领域术语之间的相似度具有较强的领域表达能力这一特点,在统计特征的基础上,增加了词语的词向量与领域术语的词向量之间的相似度特征,构成基于词向量的特征向量,并采用CRF方法综合这些特征实现了领域术语识别。最后在领域语料库和SogouCA语料库上进行实验,识别结果的准确率、召回率和F测度分别达到了0.9855、0.9439和0.9643,表明所提的领域术语识别方法取得了较好的效果。
关键词:词向量;条件随机场;术语识别;相似度特征
中图分类号:TP391.4
文献标志码:A
文章编号:1001-9081(2016)11-3146-06
0 引言
领域术语识别是自然语言处理领域的关键任务,对数据挖掘、信息检索、机器翻译等方面的研究和应用有重要的意义,引起了国内外学者们的关注[1]。吴海燕[2]利用互信息对旅游领域术语识别问题进行研究;李丽双等[3]利用信息熵和词频变化对汽车领域的术语进行抽取。这类方法主要根据文本的互信息和信息熵等统计信息对术语进行识别,取得了较好的识别效果,但该类方法只考虑了文本的统计分布特性。近年来机器学习技术在自然语言处理领域得到广泛应用并取得丰硕成果,例如机器学习中的条件随机场(Conditional Random Field, CRF)算法[4],利用文本的多种上下文特征完成对领域术语的识别。孙丽萍等[5]用其预测企业简称,取得了很好的效果;栗伟等[6]将CRF算法用于医学领域术语识别;施水才等[7]针对领域术语的特点,设计了词性、词长等多个统计特征,利用CRF算法对领域术语进行识别。这类方法将术语识别问题转为序列标注问题,利用机器学习中的CRF算法对术语识别问题进行研究。该类方法考虑了词语的多种特征,克服了使用单一特征的局限性,提高了术语的识别效果,但这些特征在本质上仍然属于词语的统计分布特性。然而,对于大部分特定领域的术语而言,都具有丰富的语义特性和领域特性,这也是领域术语区别于其他词语的重要方面。统计特征无法表达词语的语义和领域特性,影响了识别效果。所以本文研究如何将领域术语的语义特性和领域特性融入到基于CRF的领域术语识别模型中,克服统计特征的局限性,缓解高维特征向量的数据稀疏问题[8],提高了术语识别的性能。
1 特征选择
特征选择是术语识别的关键,不同类型的特征会产生不同的识别效果。特征包括统计特征和语义特征。统计特征以词语的频率为核心,采用统计学的方法给出特征值,表达能力单一,无法表达出词语的语义信息,从而影响术语识别的效果。对于特定领域的术语而言,有两个很重要的特点:第一,这类术语具有丰富的语义含义,可表达词语的内涵;第二,这类术语具有很强的领域性,即同一领域的术语具有很强的相关性。所以本文深入分析了这两个特点,给出相似度特征的计算方法,并将相似度作为术语识别的重要特征。
用词向量表达文本中的词语是将深度学习算法引入自然语言处理领域的一个核心技术。词向量是通过训练神经网络语言模型得到的一种分布表示特征[9-10],即用一个连续的实数向量表达文本中的一个词语,该向量能表达词语的语义含义:语义上相似的词语在空间中的向量也相似。所以,本文采用词向量表达领域术语的语义含义。每个领域都有其核心词汇,一般以领域词典的形式存在。假定领域词典中的词语都是领域术语,如果某个词语与词典中的词语在语义上相似,那么,该词语被识别为领域术语的概率就会很大,所以本文采用词语与领域术语的词向量之间的相似度表达领域性。
1.1 相似度特征
为了将领域术语的语义和领域性融入术语识别模型中,首先要将词语的语义和领域性以适当的数据结构或形式表达出来,具体表达形式如下。
1.1.1 词向量
词向量可由Mikolov发布的开源word2vec[11-12]训练得到。Mikolov提出了两种用于训练词向量的模型:连续词袋(Continuous Bag Of Words, CBOW)模型和Skip-gram模型。CBOW在训练效率上高于Skip-gram,所以本文使用CBOW模型,模型结构如图1所示。
1.2 统计特征
本文的统计特征首先选择词语本身、词性、词长和是否在词典中4个统计特征,根据领域术语的特殊性,加入了词的特定偏旁部首数目特征。以渔业领域为例,5个统计特征提取和分析如下。
特征1 词语本身Word。利用分词软件,对文本切分后生成的词语。词语是构成术语的基本符号,例如渔业领域中,
您可能关注的文档
最近下载
- 功率单元串联式多电平电压.pdf VIP
- 供应室口腔器械护理查房.pptx VIP
- (北师大版)数学五年级上册计算题“天天练”习题卡,含100份题组.pdf VIP
- 通桥(2021)4301-Ⅱ 时速350公里高速铁路 圆端形实体桥墩(双线,直、曲线,0.05g<Ag≤0.1g).pdf VIP
- 苏教版二年级上册数学全册教学设计(配2025年秋新版教材).pdf VIP
- (2025秋新版)部编版八年级语文上册全册PPT课件.pptx
- 2024年新人教版一年级上册数学全册教案(新版教材).docx
- 2025年海南国际商业航天发射有限公司招聘笔试参考题库含答案解析.pdf
- 建筑图纸符号CAD大全(1).doc VIP
- [质量管理标准]GBT 19004.2-1994 质量管理和质量体系要素第2部分 服务指南.pdf
文档评论(0)