网站大量收购独家精品文档,联系QQ:2885784924

中科院计算所中文信息处理技术简介.pdf

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中科院计算所中文信息处理技术简介 中国科学院计算技术研究所 北京市海淀区中关村科学院南路6号100080 中国科学院计算技术研究所从事中文信息处理相关的研究实体有三家,分别是信息智能 与信息安全研究中心、多语言交互技术评测实验室及前瞻中心信息检索课题组。在计算所的 统一领导下,三个实体密切联合、相互策应,在研究上各有侧重、互为补充,以期为中文信 息处理技术发展共同出力。 一、 中国科学院计算技术研究所信息智能与信息安全研究中心简介 中国科学院计算技术研究所信息智能与信息安全研究中心(简称研究中心)主要的研 究方向为:信息安全、互联网挖掘与搜索以及新一代网络信息服务与内容计算。研究中心目 前设置的课题组包括:互联网挖掘与搜索研究组、社会计算研究组、数据流处理与信息安全 研究组、信息智能处理系统组、信息安全系统组和网络安全系统组。研究中心有一支90多人 的高层次科研梯队.绝大部分科研人员具有博士或硕士学位.其中中科院及r程院院士2名, 研究员与正高级工程师2名,副研究员5名。 历年来,研究中心承担了一系列国家级重大科研项目.包括多项973、国家自然基金、863 等重大课题。基于国家科研任务的支持,研究中心在浅层自然语言分析处理、高速数据流筛 选挖掘、互联网信息获取与检索、大规模文本内容计算、社会计算等方面取得了可喜的进展。 l浅屡自然语言分析处理 无论是在检索、文本挖掘以及其它且联网信息处理领域,对白然语言进行一定程度的确 定性分析处理都是很必要的。信息智能与信息安全研究中心在浅层自然语言分析处理方面有 长期的积累,并取得了一系列有影响成果。 1.1词法分析 中文词法分析是信息处理的基础与关键。我们提出了一种基于层叠式隐马尔可夫模型 (HierarchicalHiddenMarkov 析的主要问题(汉语分词、未定义词识别和词性标注)统一到一个完整的理论框架中,实现 了词法分析和词性标注的一体化、未登录词和普通词处理的一体化、多种词法体系一体化, 获得了最好的总体效果。 ●在2002年国家973评测中,ICTCLASI.0获得第一名,分词正确率达到97.58%。 ●ICTCLASI.0作为计算所开源项目。已有国内外将近30000人次下载,在国内外中文信 息处理领域产生了广泛影响。 ·2003年.在ACU国际计算语言学联合会)SIGHAN组织的第一屑国际汉语分词竞赛中, ICTCLAS2.0在四项简繁体分词评测中获得两项第一、一项第一二.总成绩在所有参加评 测的单位中(包括北大、微软、U.Penn、Systran等)名列第一。 ● and 目前最新版本是ICTCLAS3.0,支持GB,BIG5Unieode等编码,词法分析(含分词、 词性标注、未登录词识别)速度达到1MByte/s.版本可订制,适应不同廊用场景。 ●ICTCLAS的功能有:中文分词、词性标注、命名实体识别、新词识别、用户词典定制 等编码,支持当前广泛承认的分词和词类标准,包括计算所词类标注集1CTPOS3.0,北 大标准、滨州大学标准、国家语委标准、台湾“中研院”、香港城市火学;用户可以直 接自定义输出的词类标准.定义输出格式;可按需要输出多个最优结果;所有功能模块 均可拆卸组装。 ●研究中心研制的最新版汉语词法分析系统ICTCLAS3.0提供一套完整的API接121(包括: ·120- 词典,开发者可以直接在自己的系统中调用ICTCLAS,在分词和启发标注的基础上继 续上层开发。 图1 ICTCLAS3.0 1.2词典管理和快速切分 大晕术语表、词表与知识库的存储、查找与管理是信息处理的重要基础,中文文本挖掘 过程中需要频繁地访问词典,词典存储空间大小和查找时间耗费是词典管理的芙键技术指标。 我们提出了一种基于优化双数组TRIE树的词典管理算法,在保证数据查找效率不变的 同时,进一步减少数据稀疏.提高了空间利用率。基于优化双数组TRIE树的词典管理算法 是目前空间耗费最少,速度最快的一种实用词典算法。 ● 利用该算法存储8万词条仅需1.2M空间,检索整个8万词典仅需O.1秒。 ● 采用该词典算法实现的最大匹配分

您可能关注的文档

文档评论(0)

july77 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档