- 12
- 0
- 约2.9千字
- 约 18页
- 2018-07-24 发布于江苏
- 举报
中文命名实体识别及关系提取7
中文命名实体识别及关系提取 *** *** *** 中文命名实体识别 语料:人民日报1998年版 主要方法:根据训练预料,利用CRF进行机器学习 中文命名实体识别 标注集1:由字构词 将{ ns,nr,nt}三种实体类型,和分词中的词位信息{B,B1,B2,M,E,S}做组合,其它字标记为O Example: 中文命名实体识别 词缀标记 PSsur:人名的姓,比如“王” PSsuf:人名的后缀,比如“先生” Lsuf: 地名的后缀,比如“省”,“特区”,“地区” Osuf: 组织名的后缀,比如“委员会”,“公司” 原因:中文偏正关系 *为什么将词缀放到机器学习的标记中而不是用于结果修正? 后缀容易识别,但是向前匹配的位置难于确定,比如“上海IBM研究院”。 训练模板 字的特征识别: w[-1,0]:前一个字 w[0,0] w[1,0] w[-1,0]/w[0,0]:前面一个字和当前字的组合 w[0,0]/w[1,0] , w[-1,0]/w[1,0] 词缀特征识别: w[-1,1]:前一个字的词缀 w[0,1],w[1,1],w[0,1]/w[1,1]/w[2,1] 测试结果 测试方法: 将训练集拆分,80%用于训练,20%用于测试(200篇左右) 测试结果: Recall Precision F-sco
您可能关注的文档
- 中国在国际社会中的的位和作用.ppt
- 中国地质大学(北京)继续教育大学.docx
- 中国地质大学(武汉)电工电子实验教学中心(省级)7.doc
- 中国屹立于世界民族之林—新中国外交1.ppt
- 中国屹立于世界民族之林—新中国外交2.ppt
- 中国居民营养与健康现状1.ppt
- 中国建设银行银直通车业务协议书.doc
- 中国文化地深层结构 研读版.doc
- 中国汽车潜在消费者调查之购车原因与用途分析.doc
- 中国水电顾问集团贵阳勘测设计研究院2.doc
- 4.4 控制系统的设计与实施(教学设计)高中通用技术苏教版2019必修2.docx
- 2026届衡水市第十三中学高三第一次质量调研(一模)数学试题.doc
- 3.1.1关系数据结构及关系代数教学设计-浙教版高中信息技术选修三.docx
- 高考化学二轮复习 阿伏伽德罗常数.docx
- 运筹学期末复习完全手册(直接使用版).docx
- 人工肝治疗中的家属支持与护理.pptx
- 人工肝治疗后的康复护理.pptx
- 4 自由落体运动(表格式教学设计)高中物理人教版2019必修第一册.docx
- 第05讲 充分条件、必要条件、充要条件(八大题型)新高一数学(苏教版2019必修第一册).docx
- 29 古代诗歌文本比较鉴赏题(比较形象、语言、表达技巧、情感态度)高考语文二轮复习专题.docx
原创力文档

文档评论(0)