- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
命名实体识别项目申报
命名实体识别项目报告
张坚
修改历史
日期 版本 修改内容 2009-6-18 0.1 建立大纲,完成部分实验数据分析 2009-6-19 0.2 完成实验数据分析部分 2009-6-19 0.3 完成源程序说明 2009-6-19 0.4 完成总结部分 2009-6-19 0.5 局部文字校对与润饰
目录
1. 项目简介 4
2. 特征的选取 4
3. 数据的预处理 4
4. 序列标注工具的选择 4
5. 实验步骤及结果分析 4
实验一 4
实验二 5
实验三 5
实验四 6
实验五 6
实验六 7
分词粒度过大 8
错误分词 8
没有利用机构前后缀特征 9
模棱两可之处 9
长名称的复合机构名 10
实验七 10
实验八 11
实验九 12
实验十 13
实验十一 14
6. 总结 15
7. 附录 16
项目托管 16
源程序结构说明 16
项目简介
本项目旨在练习所学的图模型来解决自然语言处理中的基本问题—命名实体识别。
特征的选取
实验中所提取的特征包括:
字的特征:这是最基本的特征。
分词特征:包含始末位置特征,用“B”表示是分词的开头,用“I”表示分词的中间或结尾;分词自身作为特征,如“中国”;分词的首尾字为特征:如“培训班”中“培”和“班”。
词性特征:一种是将整个分词的词性特征赋给附属的每个字,如“中国/ns”转换成“中/ns”和“国/ns”;另一种是在词性特征中夹带有分词的始末位置特征,如“中国/ns”转换成“中/B-ns”和“国/I-ns”。
命名实体的前后缀特征:将训练集中高频的姓氏如“张”、“王”等,机构名高频后缀字如“系”、“会”等,以及地名高频后缀字如“州”、“路”等分别赋以“PP”、“OS”和“LS”以指示可能人名前缀、机构名后缀和地名后缀。
数据的预处理
我们使用了中科院的分词器ICTCLAS30为原始数据添加了分词和词性特征列。
将训练数据的首70%(768728行)作为模型训练用,末30%(343502)作为评测用。
序列标注工具的选择
我们选择了CRF++ 0.53版本作为序列标注工具。
评测工具我们选择CoNLL-2000所用的conlleval.pl。
实验步骤及结果分析
实验一
仅考虑前后字的特征,不使用Bigram。设计的特征模版如下:
# Unigram
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[-1,0]/%x[0,0]
U05:%x[0,0]/%x[1,0]
测试得到的结果如下:
LOC: precision: 57.86%; recall: 69.88%; FB1: 63.31
ORG: precision: 12.61%; recall: 23.54%; FB1: 16.42
PER: precision: 47.56%; recall: 50.45%; FB1: 48.96
可见效果很差,特别是机构名。
实验二
在实验一的特征模版之上应用Bigram:
# Bigram
B
所得的测试结果如下:
LOC: precision: 89.76%; recall: 79.83%; FB1: 84.51
ORG: precision: 80.03%; recall: 68.34%; FB1: 73.73
PER: precision: 91.31%; recall: 71.20%; FB1: 80.01
发现各项指标都得到了巨大的提升,特别是Precision,因此之后的实验都将应用Bigram。
实验三
由于前述实验仅仅利用了前后和自身字的一元特征和二元共现特征,各项指标还不是很好,本次试验增大了前后字特征的窗口大小到2,特征模版如下:
# Unigram
U02:%x[-2,0]
U03:%x[-1,0]
U04:%x[0,0]
U05:%x[1,0]
U06:%x[2,0]
U08:%x[-2,0]/%x[-1,0]
U09:%x[-1,0]/%x[0,0]
U10:%x[0,0]/%x[1,0]
# Bigram
B
实验结果如下:
LOC: precision: 91.18%; recall: 81.49%; FB1: 86.06
ORG: precision: 81.79%; recall: 71.11%; FB1: 76.08
PER: precision: 94.37%; recall: 74.22%; FB1: 83.09
F值提高了2到3,这说明了大小为2的前后字窗口引入了更多有用的特征。
实验四
继续增大前后字窗口看能够带来更大的提升,特征模版如下:
# Unigram
U01:%x[-3,0]
U02:%x[-2,0]
U03
您可能关注的文档
最近下载
- 电线电缆原材料采购控制程序.doc VIP
- GB50736-2012 民用建筑供暖通风与空气调节设计规范.pdf VIP
- 立体结构逻辑图( 112页).pptx VIP
- 小学“后进生”的成因及转化策略探讨 .pdf VIP
- SJT 11329-2006 数字电视接收设备接口规范 第3部分:复合视频信号接口.pdf VIP
- GB50086-2015 岩土锚杆与喷射混凝土支护工程技术规范.docx
- 劳务派遣招投标书.doc VIP
- 与听力学有关的国家标准听力计检定与声场校准讲解课件.ppt VIP
- 乳品品鉴师(三级)技能鉴定备考试题库(附答案).docx VIP
- 2025义务教育化学课程标准考试题库及答案.docx VIP
文档评论(0)