- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对树库的认识 黄昌宁 微软亚洲研究院 v-cnh@ 大纲 语料库——语言知识的表示 短语结构树和概率型上下文无关语法 依存语法和依存结构树 结束语:树库对自动句法分析的贡献 语料库——语言知识的表示 语料库的标注: 分词标注 词性标注 命名实体(Named Entity)标注 实体互指(coreference)标注 语块(chunking)标注 树库(Treebank)标注 CoNLL ●ACL自然语言机器学习专业委员会(SIGNLL),自1999年起每年举办有关自然语言处理的评测活动 网址:http://farm.nl/signll/conll/ ●语块分析(CoNLL1999,2000) ●小句识别与事件抽取(CoNLL2001) ●命名实体识别(CoNLL2002,2003) ●依存句法分析(CoNLL12006,2007) ●语义角色标注(CoNLL2006-2010) 分词标注 1a 这/等于/给/企业/注入/了/部分/资金/,/可以/推动/保护/工程/和/下岗/分流/工作/的/实施/。 1b 是/集/制造业/、/房地产/业/、/贸易/等/于/一体/的/综合性/私营企业/, 2a 儿童文学/原创/作品/对/整个/少年儿童/读物/出版/的/整体/走向/有着/重大/影响/。 2b 她们/的/视野/已/从/庭院/式/的/经济/走/向/市场/。 ● 如果每个字最多有4个构词位置(词位) 词首B:占领 词尾E:抢占 词中M:独占鳌头 单字词S:已/占/ 全国 ● 分词结果:/上海/计划/到/本/世纪/末/实现/人均/国内/生产/总值/五千美元/。/ ● 词位标注形式:上/B海/E计/B划/E到/S本/S世/B纪/E末/S实/B现/E人/B均/E国/B内/E生/B产/E总/B值/E五/B千/M美/M元/E。/S 把分词标注改作字的词位标注 中文分词的评测指标 Bakeoff-2006的分词语料库 提供者 语料库 编码 训练集 词次数 测试集 词次数 OOV率 台湾中研院 AS Big5 5.45M 91K 0.042 香港城市大学 CityU 1.64M 220K 0.040 美国宾州大学 CTB GB 508K 151K 0.068 微软亚洲研究院 MSRA 1.26M 100K 0.034 分词系统之间的词语认同率(F值) 测试语料库 分词系统 AS CTB CityU MSRA AS2006 1.0 0.9593 0.9256 0.8583 CTB2006 0.9420 1.0 0.9104 0.8774 CityU2006 0.9321 0.9346 1.0 0.8488 MSRA2006 0.8570 0.8866 0.8483 1.0 ●调和平均值 F=2PR/(P+R)=0.90 ●如计算前三个分词系统,则 F=0.93 人与人之间的词语认同率(F值) M1 M2 M3 T1 T2 T3 M1 0.77 0.69 0.71 0.69 0.70 M2 0.72 0.73 9.71 0.70 M3 0.89 0.87 0.80 T1 0.88 0.82 T2 0.78 ●测试语料:100个句子,4,372个汉字 ●M1-M3为大陆人,T1-T3为台湾人 ●算术平均值 F=(P+R)/2=0.76 小结 ●分词语料库提供的分词知识超过了“分词规范+词表”:上下文信息、知识的颗粒度、知识的覆盖面 ●不同知识表示:“词”还是“字”? ——决定着不同的分词模型 ●语料库彻底改变了徘徊近20年的自动分词技术 可比的测试结果 未登录词对分词精度的损害比分词歧义大得多 不同分词规范之间的词语认同率超过人 短语结构树:宾州树库(PTB) 概率型上下文无关语法(PCFG) S - NP VP 1/1 NP - NP NP 1/7 NP - NP PP 1/7 NP - NNP NNP 1/7 NP - NNP 1/7 NP - DT NN 1/7 NP - PRP$ NN 1/7 NP - NN 1/7 VP - VBD NP NP 1/1 PP - IN NN 1/1 词例化的短语结构树 词例化的PCFG规则 S[announced] - NP[Smith] VP[announced] 1/1 NP[Smith] - NP[Smith] NP[president] 1/2 N
您可能关注的文档
- 打印机资料培训.ppt
- 第一课重症患者疼痛管理.ppt
- GPRS CDSteams 测试.ppt
- 上海天美 UV 2600紫外可见分光光度计产品介绍(2010.11).ppt
- 免费 高清非凡之铝DIY2.ppt
- a4报告)高举中国特色社会主义的伟大旗帜.ppt
- 第二章FAT文件系统 (2).ppt
- 国际贸易中的交通运输 铁路运输.ppt
- 夜场禁毒知识培训.ppt
- 涂装内训资料.ppt
- 2023年陕西省公务员考试行测试卷历年真题及答案详解(历年真题).docx
- 新解读《GB_T 16656.509-2010工业自动化系统与集成 产品数据表达与交换 第509部分:应用解释构造:流形曲面》最新解读.docx
- 医用监护设备在心血管病治疗中的应用.pptx
- 2023年陕西省公务员考试行测试卷历年真题及答案详解(名校卷).docx
- 2023年陕西省公务员考试行测试卷历年真题附答案详解(模拟题).docx
- 新解读《GB_T 16477.5 - 2010稀土硅铁合金及镁硅铁合金化学分析方法 第5部分:钛量的测定 电感耦合等离子体发射光谱法》最新解读.docx
- 2023年陕西省公务员考试行测试卷历年真题附答案详解(名师推荐).docx
- 新解读《GB_T 16656.28 - 2010工业自动化系统与集成 产品数据表达与交换 第28部分:实现方法:EXPRESS模式和数据的XML表达(使用XML模式)》最新解读.docx
- 医用设备行业发展趋势分析.pptx
- 2023年陕西省公务员考试行测试卷历年真题精选答案详解.docx
文档评论(0)