- 4
- 0
- 约6.18千字
- 约 10页
- 2016-10-06 发布于北京
- 举报
基于条件随机场方法的汉语专利文本介词短语识别.doc
基于条件随机场方法的汉语专利文本介词短语识别
摘 要:介词短语作为一种重要的短语类型在汉语中分布广泛,正确自动识别介词短语在自然语言处理的应用领域具有重要意义和积极影响。本文尝试利用目前比较流行的条件随机场模型,主要面向汉语专利文本,对其中的介词短语进行识别研究。首先在分词和词性标注的基础上对语料进行序列特征标注,然后利用条件随机场工具包训练了识别介词短语的模型,最后设计相关实验来验证方法的效果,实验准确率达到90%以上。
关键词:介词短语 条件随机场 识别
一、引言
专利文献在国家经济发展和科技交流中发挥着十分重要的作用。近年来,中国专利的申请数量涨速飞快。面向专利领域的文本信息处理(如专利文本机器翻译)逐渐成为自然语言处理的重要应用领域之一,并引起了学术界和业界的广泛关注。
为了满足专利文本特定的表述需要,介词短语作为一种重要的短语类型,在汉语专利文本中分布广泛。据统计,在随机抽取的500句汉语专利语料中,包含介词短语的句子有226句,占到了样本总量的45.2%。[1]可见介词短语的出现比例非常高。汉语介词短语的自动识别具有较大的难度,主要表现在以下几点:
1.介词短语的内部构成相当复杂。介词短语可以由介词与其他词语和短语(动宾短语、名词短语、方位短语、时间短语等)构成,甚至可以由整个句子构成。复杂的内部结构很容易形成远距离的搭配关系。
2.兼类介词的存在。在一定的语境下,介词还可以兼做名词、量词、形容词、连词和动词等,必须结合上下文语境才能判断具体词性。
3.在同一个句子中经常会出现多个并列的介词短语,或者会出现复杂的嵌套介词短语。
下面是一个包含介词短语的真实专利语句示例:
(1)本发明【在条件允许的情况下】【通过[为一个宏块中的不同区域]提供不同的预测信息】而提出了许多更加准确的结果。
从例句可以明显地看出,专利文本中的介词短语通常具有更多的字数和更为复杂的结构。例句中用括号标示出了两个并列的介词短语结构,其中一个的内部还有另外一个介词短语,属于嵌套结构的介词短语。正确识别这些短语就比较困难了。
在句子S=W1,W2,W3……Wn中,假设字符串Wi,Wi+1……Wj为待识别的介词短语,介词短语识别的主要任务就是分别将Wi和Wj识别为该介词短语的左右边界。由于左边界就是介词本身,因此关键问题在于确定右边界位置。介词Wi通常称为前界,右边界Wj称为后界,紧邻右边界的词语Wj+1一般称为后词。
考虑到介词短语分布的广泛性和对专利文本处理的影响,本文尝试利用条件随机场模型(Conditional Random Field,即CRF),主要对大规模专利语料中位于同一分句内部的介词短语进行自动识别研究,希望能做出一些有益的探索。
二、相关研究
针对汉语介词短语识别的难点,国内外学者做了大量研究工作,提出了一些有效的方法,主要包括规则方法,统计方法和将二者相结合的混合方法。梁猛杰等(2013)通过考察介词规则库的处理特点,依据规则的覆盖程度从低到高进行分类,重新调整了规则的前后排序方案,同时对排序的规则进行优选,在保证时间复杂度较低的情况下提高了介词用法自动识别的准确率[2](P152~155)。朱筠(2013)、胡韧奋(2015)等在概念层次网络理论(Hierarchical Network of Concepts,HNC)[3]的指导下,面向汉语专利领域的文本,专门构建了较大规模的汉语专利语料知识库,在利用规则方法开展汉英专利机器翻译研究的过程中探索了介词短语的识别方法和思想[4][5]。于俊涛(2006)?用基于最大熵模型的方法,通过获取有效的特征集合完成了介词短语识别的任务。奚建清(2007)引入机器学习方法,提出了基于隐马尔可夫模型(HMM)的汉语介词短语边界确定方法。首先基于HMM自动识别介词短语,然后利用依存语法错误校正方法对识别结果进行修正,取得了不错的识别准确率[7](P172~182)。胡思磊(2008)、宋贵哲(2011)、张杰(2013)利用CRF模型对介词短语进行识别,取得了较好的效果。于俊伟(2005)采用了规则和统计相结合的介词短语识别方法,提出了利用搭配模板获取可信搭配关系以及基于词性的三元统计模型和规则相结合的方法识别介词短语[11](P17~23)。昝红英等(2013)在已有工作的基础上,提出了一种规则与CRF模型相结合的介词用法自动识别算法。通过将人工书写的规则与CRF在宏观层面和微观层面进行有机的结合,根据介词的具体特点,选择合适的识别方法,使最终的识别准确率达到了80%左右[12](P2152~2157)。
三、CRF模型介绍
作为一种基于统计的判别式学习模型,CRF模型最早由
原创力文档

文档评论(0)