CRF++工具包使用介绍.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CRF++工具包使用介绍.ppt

CRF++工具包使用介绍 工具简介 CRF++ 是一个可用于分词/连续数据标注的简单、可定制并且开源的条件随机场(CRFs)工具。 CRF++是为了通用目的设计定制 ,并将被用于自然语言信息处理 (NLP)的各个方面 ,诸如命名实体识别、信息提取和语块分析。 工具简介 工具包地址:/~taku/software/CRF++/#features 工具包包括Linux环境下的源代码和Windows下的可执行程序。 使用C++编写。 CRF++-0.54 2010-05-15 CRF++-0.53(源码) 2009-05-06 工具的使用方法 1)安装 编译环境 Microsoft Visual Studio C++ 2010 工具的使用方法 2)使用 (2.1)训练和测试文件的格式 工具的使用方法 以BaseNP(基本名词短语识别)为例 训练例句如下 Confidence in the pound is widely expected to take another sharp dive if trade figures for September , due for release tomorrow , fail to show a substantial improvement from July and August s near-record deficits . 测试例句如下 Rockwell International Corp. s Tulsa unit said it signed a tentative agreement extending its contract with Boeing Co. to provide structural parts for Boeing s 747 jetliners . 工具的使用方法 训练和测试文件必须包含多个tokens,每个token包含多个列。token的定义可根据具体的任务,如词、词性等。每个token必须写在一行,且各列之间用空格或制表格间隔。 一个token的序列可构成一个sentence,sentence之间用一个空行间隔。 最后一列是CRF用于训练的正确的标注形式。 工具的使用方法 BaseNP训练文件格式 工具的使用方法 BaseNP测试文件格式 特别的,sentence间用一空行间隔。 例子每个token包含3列,分别为词本身、 词性和BaseNP标记(B、I、O)。 注意:如果每一个token的列数不一致, 系统将不能正确运行。 工具的使用方法 (2.2)准备特征模板 使用该CRFs工具的用户必须自己确定特征模板。 a.基本模板和宏 模板文件中的每一行代表一个template。每一个template中,专门的宏%x[row,col]用于确定输入数据中的一个token。row用于确定与当前的token的相对行数。col用于确定绝对行数。 工具的使用方法 BaseNP模板文件格式 b.模板类型 U模板 B模板 工具的使用方法 工具的使用方法 如已知下面的输入数据: Input: Data Rockwell NNP B International NNP I Corp. NNP I CURRENT TOKEN s POS B Tulsa NNP I 特征模板形式为: template expanded feature U00:%x[2,0] Tulsa U01:%x[1,0] ’s U02:%x[0,0] Corp. U03:%x[-1,0] International U04:%x[-2,0] Rockwell U05:%x[1,0]/%x[0,0] ’s/Corp. U06:%x[0,0]/%x[-1,0] Corp./International 工具的使用方法 第二种类型Bigram template:第一个字符是B 使用这个模板,系统将自动产生当前输出token与前一个输出token的组合(Bigram) 。产生的可区分的特征的总数是L*L*N,其中L是输出类别数,N是这个模板产生的unique features数。 output = B last_output =I and feature=B 区别于Unigram中的 U05:%x[1,0]/%x[0,0] ’s/Corp. 当类别数很大的时候,这种类型会产生许多可区分的特征,这将会导致训练和测试的效率都很低下。 只使用Bigram template B。这意味着前一个output token和current token将组合成bigram features。

您可能关注的文档

文档评论(0)

dmz158 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档