- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SIGHAN分词评测及新分词系统介绍
SIGHAN分词评测及新分词系统介绍 张会鹏 2005.6.12 Outline SIGHAN分词评测简介 新分词系统简介 新分词系统所采用的方法 新分词系统目前开发进度 下个月计划 Outline SIGHAN分词评测简介 新分词系统简介 新分词系统所采用的方法 新分词系统目前开发进度 下个月计划 First International Chinese Word Segmentation Bakeoff 2003年,日本札幌 共19家单位报名,最后有12家单位有结果 分为开放测试和封闭测试 评测标准包括:精确率(P),召回率(R),F值,未登录词召回率(Roov),词表词召回率(Riv)。 First International Chinese Word Segmentation Bakeoff (cont.) 评测语料来源 The Academia Sinica (Taiwan) treebank (Taiwan Big Five encoding). The Beijing University Institute of Computational Linguistics Corpus (GB encoding). The Penn Chinese treebank (GB encoding). Hong Kong City University corpus (HK Big Five encoding). First International Chinese Word Segmentation Bakeoff(cont.) 比赛结果(简体) 最好的两个系统:中科院,微软 中科院:两项第一,一项第二 微软:一项第一,两项第二 Second International Chinese Word Segmentation Bakeoff Time Table: 2005-06-01 Registration Open 2005-06-29 Training data made available 2005-07-27 Testing data made available 2005-07-29 Test results sent back to organizers 2005-08-05 Results privately reported to participants 2005-08-19 Final reports due from participants Second International Chinese Word Segmentation Bakeoff(cont.) 评测语料库来源 CKIP, Academia Sinica, Taiwan City University of Hong Kong, Hong Kong SAR CIS Department, University of Pennsylvania, United States Beijing University, China Microsoft Research, China Second International Chinese Word Segmentation Bakeoff(cont.) registration is opened on 1 June 2005 /bakeoff2005 We have registered. information on registering for particular bakeoff tracks and other important information about the evaluation are due in the coming weeks Outline SIGHAN分词评测简介 新分词系统简介 新分词系统所采用的方法 新分词系统目前开发进度 下个月计划 Motivation 参加SIGHAN分词评测 方法需要改进 实验室对分词的各种特性:可配置,可移植,多线程,性能以及速度等要求越来越高。 新分词系统简介 启动时间:4月8日 名称定为IRLAS(信息检索研究室词法分析系统) 4月28日完成第一个系统设计方案 5月6日形成分词系统设计方案1.0 5月初开始编码-6月12日上午 新分词系统的目标 更高的性能 更快的速度 更好的健壮性(可接收大数据量文本) 最大程度的可配置 可移植(Windows/Linux) 支持多线程 更好的设计:类之间耦合降到最低,易于扩展,代码可读性好,便于接手。 更完备的文档 在今年SIGHAN分词评测中取得好成绩? 新分词系统基本结构 分为几大模块:粗分,时间数词识别,人名(包括外国
原创力文档


文档评论(0)