命名实体识别项目申报.docVIP

下载本文档

25
0
约1.25万字
约 21页
2018-05-25 发布于贵州
举报
版权申诉

命名实体识别项目申报.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

命名实体识别项目申报

命名实体识别项目报告张坚修改历史日期版本修改内容 2009-6-18 0.1 建立大纲，完成部分实验数据分析 2009-6-19 0.2 完成实验数据分析部分 2009-6-19 0.3 完成源程序说明 2009-6-19 0.4 完成总结部分 2009-6-19 0.5 局部文字校对与润饰目录 1. 项目简介 4 2. 特征的选取 4 3. 数据的预处理 4 4. 序列标注工具的选择 4 5. 实验步骤及结果分析 4 实验一 4 实验二 5 实验三 5 实验四 6 实验五 6 实验六 7 分词粒度过大 8 错误分词 8 没有利用机构前后缀特征 9 模棱两可之处 9 长名称的复合机构名 10 实验七 10 实验八 11 实验九 12 实验十 13 实验十一 14 6. 总结 15 7. 附录 16 项目托管 16 源程序结构说明 16 项目简介本项目旨在练习所学的图模型来解决自然语言处理中的基本问题—命名实体识别。特征的选取实验中所提取的特征包括：字的特征：这是最基本的特征。分词特征：包含始末位置特征，用“B”表示是分词的开头，用“I”表示分词的中间或结尾；分词自身作为特征，如“中国”；分词的首尾字为特征：如“培训班”中“培”和“班”。词性特征：一种是将整个分词的词性特征赋给附属的每个字，如“中国/ns”转换成“中/ns”和“国/ns”；另一种是在词性特征中夹带有分词的始末位置特征，如“中国/ns”转换成“中/B-ns”和“国/I-ns”。命名实体的前后缀特征：将训练集中高频的姓氏如“张”、“王”等，机构名高频后缀字如“系”、“会”等，以及地名高频后缀字如“州”、“路”等分别赋以“PP”、“OS”和“LS”以指示可能人名前缀、机构名后缀和地名后缀。数据的预处理我们使用了中科院的分词器ICTCLAS30为原始数据添加了分词和词性特征列。将训练数据的首70%（768728行）作为模型训练用，末30%（343502）作为评测用。序列标注工具的选择我们选择了CRF++ 0.53版本作为序列标注工具。评测工具我们选择CoNLL-2000所用的conlleval.pl。实验步骤及结果分析实验一仅考虑前后字的特征，不使用Bigram。设计的特征模版如下： # Unigram U01:%x[-1,0] U02:%x[0,0] U03:%x[1,0] U04:%x[-1,0]/%x[0,0] U05:%x[0,0]/%x[1,0] 测试得到的结果如下： LOC: precision: 57.86%; recall: 69.88%; FB1: 63.31 ORG: precision: 12.61%; recall: 23.54%; FB1: 16.42 PER: precision: 47.56%; recall: 50.45%; FB1: 48.96 可见效果很差，特别是机构名。实验二在实验一的特征模版之上应用Bigram： # Bigram B 所得的测试结果如下： LOC: precision: 89.76%; recall: 79.83%; FB1: 84.51 ORG: precision: 80.03%; recall: 68.34%; FB1: 73.73 PER: precision: 91.31%; recall: 71.20%; FB1: 80.01 发现各项指标都得到了巨大的提升，特别是Precision，因此之后的实验都将应用Bigram。实验三由于前述实验仅仅利用了前后和自身字的一元特征和二元共现特征，各项指标还不是很好，本次试验增大了前后字特征的窗口大小到2，特征模版如下： # Unigram U02:%x[-2,0] U03:%x[-1,0] U04:%x[0,0] U05:%x[1,0] U06:%x[2,0] U08:%x[-2,0]/%x[-1,0] U09:%x[-1,0]/%x[0,0] U10:%x[0,0]/%x[1,0] # Bigram B 实验结果如下： LOC: precision: 91.18%; recall: 81.49%; FB1: 86.06 ORG: precision: 81.79%; recall: 71.11%; FB1: 76.08 PER: precision: 94.37%; recall: 74.22%; FB1: 83.09 F值提高了2到3，这说明了大小为2的前后字窗口引入了更多有用的特征。实验四继续增大前后字窗口看能够带来更大的提升，特征模版如下： # Unigram U01:%x[-3,0] U02:%x[-2,0] U03