新版本eig反馈信息.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
新版本eig反馈信息

ICTCLAS 2011 用户手册 WHITEPAPER Thursday, April 14, 2011 目 录 一、ICTCLAS2011简介 3 二、ICTCLAS2011功能介绍 5 2.1、ICTCLAS2011初始界面 5 2.2 分词 6 2.3 用户词典 7 2.4关键词提取 9 2.5 指纹提取 10 三、ICTCLAS2011运行环境 10 四、ICTCLAS2011评测结果 11 ICTCLAS在973评测中的测试结果 11 第一届国际分词大赛的评测结果 11 ICTCLAS3.0的评测结果 12 五、作者简介 13 一、ICTCLAS2011简介 我们在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级次,目前已经升级到了ICTCLAS2011。选择ICTCLAS2011的五大理由: 1.综合性能最优   分词系统能否达到实用性要求主要取决于两个因素:分词精度与分析速度,这两者相互制约,难以平衡。大多数系统往往陷入“快而不准,准而不快”的窘境。我们研制出了完美PDAT大规模知识库管理技术(200510130690.3),在高速度与高精度之间取得了重大突破,该技术可以管理百万级别的词典知识库,单机每秒可以查询100万词条,而内存消耗不到知识库大小的1.5倍。基于该技术,ICTCLAS2011分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。 2.统一的语言计算理论框架  汉语分词牵涉到汉语分词、未定义词识别、词性标注以及语言特例等多个因素,大多数系统缺乏统一的处理方法,往往采用松散耦合的模块组合方式,最终模型并不能准确有效地表达千差万别的语言现象,而ICTCLAS采用了层叠隐马尔可夫模型(Hierarchical Hidden Markov Model),将汉语词法分析的所有环节都统一到了一个完整的理论框架中,获得最好的总体效果,相关理论研究发表在顶级国际会议和杂志上,从理论上和实践上都证实了该模型的先进性。 3.全方位支持各种环境下的应用开发  ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#/Delphi/Java等主流的开发语言; 4.应需而变,量身定做  所有功能模块均可拆卸组装,ICTCLAS有GB2312和BIG5版本,可分别处理目简繁体中文;支持当前广泛承认的分词和词类标准,包括计算所词类标注集ICTPOS3.0,北大标准、滨州大学标准、国家语委标准、台湾“中研院”、香港“城市大学”;用户可以直接自定义输出的词类标准,定义输出格式;用户可以根据自己的需求,进行量身自助式定做适合自己的分词系统。 5.国内和国际权威的公开评测、万客户的认可   有些公司为了商业目的,关门自测,自称准确度99.50%,没有介绍测试环境和测试方法,封闭测试或者小规模的开放测试准确度100%都不足为奇的,ICTCLAS1.0在国内973专家组组织的评测中活动获得了第一名,ICTCLAS2.0在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名,具体的参见系统评测部分。这些都是权威机构进行大规模现场开放测试的结果,真实可信。 目前,ICTCLAS已经向国内外的企业和学术机构颁发了30,000多份授权,其中包括、NEC、中华商务网、硅谷动力、云南日报等企业,、清华大学、华南理工、麻省大学:同时,ICTCLAS广泛地被《科学时报》、《人民日报》海外版、《科技日报》等多家媒体报道。您可以访问Google进一步了解ICTCLAS的应用情况。 ICTCLAS2011有分词、用户词典、关键词提取、指纹提取等四大功能。 2.2 分词 导入或者输入需要处理的文字,选择【切分粒度】【标注集】,点击【分析】,下边框显示处理结果。 2.3 用户词典 导入或者输入需要处理的文字,点击【分析】,下边框显示处理结果。 有些词需要合并在一起,如(沙漠/n鱼/n)写入要合并在一起的词:如(沙漠鱼),点击【添加】就会输入想要的结果。 2.4关键词提取 导入或者输入需要处理的文字,点击【分析】,软件会根据文字内容分析输出文章中的关键词。 2.5 指纹提取 三、ICTCLAS2011运行环境 1. 可以支持Windows、Linux、FreeBSD等多种环境,支持普通PC机器即可运行。 2. 支持G

文档评论(0)

wangsux + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档