命名实体识别项目申报.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
命名实体识别项目申报

命名实体识别项目报告 张坚 修改历史 日期 版本 修改内容 2009-6-18 0.1 建立大纲,完成部分实验数据分析 2009-6-19 0.2 完成实验数据分析部分 2009-6-19 0.3 完成源程序说明 2009-6-19 0.4 完成总结部分 2009-6-19 0.5 局部文字校对与润饰 目录 1. 项目简介 4 2. 特征的选取 4 3. 数据的预处理 4 4. 序列标注工具的选择 4 5. 实验步骤及结果分析 4 实验一 4 实验二 5 实验三 5 实验四 6 实验五 6 实验六 7 分词粒度过大 8 错误分词 8 没有利用机构前后缀特征 9 模棱两可之处 9 长名称的复合机构名 10 实验七 10 实验八 11 实验九 12 实验十 13 实验十一 14 6. 总结 15 7. 附录 16 项目托管 16 源程序结构说明 16 项目简介 本项目旨在练习所学的图模型来解决自然语言处理中的基本问题—命名实体识别。 特征的选取 实验中所提取的特征包括: 字的特征:这是最基本的特征。 分词特征:包含始末位置特征,用“B”表示是分词的开头,用“I”表示分词的中间或结尾;分词自身作为特征,如“中国”;分词的首尾字为特征:如“培训班”中“培”和“班”。 词性特征:一种是将整个分词的词性特征赋给附属的每个字,如“中国/ns”转换成“中/ns”和“国/ns”;另一种是在词性特征中夹带有分词的始末位置特征,如“中国/ns”转换成“中/B-ns”和“国/I-ns”。 命名实体的前后缀特征:将训练集中高频的姓氏如“张”、“王”等,机构名高频后缀字如“系”、“会”等,以及地名高频后缀字如“州”、“路”等分别赋以“PP”、“OS”和“LS”以指示可能人名前缀、机构名后缀和地名后缀。 数据的预处理 我们使用了中科院的分词器ICTCLAS30为原始数据添加了分词和词性特征列。 将训练数据的首70%(768728行)作为模型训练用,末30%(343502)作为评测用。 序列标注工具的选择 我们选择了CRF++ 0.53版本作为序列标注工具。 评测工具我们选择CoNLL-2000所用的conlleval.pl。 实验步骤及结果分析 实验一 仅考虑前后字的特征,不使用Bigram。设计的特征模版如下: # Unigram U01:%x[-1,0] U02:%x[0,0] U03:%x[1,0] U04:%x[-1,0]/%x[0,0] U05:%x[0,0]/%x[1,0] 测试得到的结果如下: LOC: precision: 57.86%; recall: 69.88%; FB1: 63.31 ORG: precision: 12.61%; recall: 23.54%; FB1: 16.42 PER: precision: 47.56%; recall: 50.45%; FB1: 48.96 可见效果很差,特别是机构名。 实验二 在实验一的特征模版之上应用Bigram: # Bigram B 所得的测试结果如下: LOC: precision: 89.76%; recall: 79.83%; FB1: 84.51 ORG: precision: 80.03%; recall: 68.34%; FB1: 73.73 PER: precision: 91.31%; recall: 71.20%; FB1: 80.01 发现各项指标都得到了巨大的提升,特别是Precision,因此之后的实验都将应用Bigram。 实验三 由于前述实验仅仅利用了前后和自身字的一元特征和二元共现特征,各项指标还不是很好,本次试验增大了前后字特征的窗口大小到2,特征模版如下: # Unigram U02:%x[-2,0] U03:%x[-1,0] U04:%x[0,0] U05:%x[1,0] U06:%x[2,0] U08:%x[-2,0]/%x[-1,0] U09:%x[-1,0]/%x[0,0] U10:%x[0,0]/%x[1,0] # Bigram B 实验结果如下: LOC: precision: 91.18%; recall: 81.49%; FB1: 86.06 ORG: precision: 81.79%; recall: 71.11%; FB1: 76.08 PER: precision: 94.37%; recall: 74.22%; FB1: 83.09 F值提高了2到3,这说明了大小为2的前后字窗口引入了更多有用的特征。 实验四 继续增大前后字窗口看能够带来更大的提升,特征模版如下: # Unigram U01:%x[-3,0] U02:%x[-2,0] U03

文档评论(0)

yxutcangfp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档