海量分词技术白皮书22.docVIP

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
海量分词技术白皮书22.doc

海量中文智能技术白皮书 海量公司 20年月 序言 4 第一章 产品概述 6 1.1海量中文智能分词基础件简介 6 1.2 海量中文智能分词基础件应用前景 6 第二章 产品技术特点 7 2.1海量中文智能分词基础件的特点 7 2.2 算法特点 8 2.3基础件特点 8 第三章 产品功能介绍 10 3.1词形切分 10 3.2词性标注(高级版) 10 3.3关键词标注(高级版) 10 3.4支持的字符集标准 10 3.5语意指纹提取(高级版) 10 3.6分词颗粒度控制 11 第四章 运行环境 12 4.1 WINDOWS 12 4.2 LINUX 12 4.3 UNIX 13 第五章 海量中文智能分词的典型应用 14 5.1KM知识管理系统 14 5.2搜索引擎 14 5.3辞书出版 14 5.4信息服务 14 5.5网站信息发布 15 第六章 合作伙伴成功案例 16 6.1商务印书馆 16 6.2腾讯SOSO搜索引擎 16 6.3其他案例 17 附录A 数据辞典 18 附录B 市场部联系方式 18 序言 1.什么是中文分词?分词就是将连续的字序列按照一定的规范成词序列的过程。,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。中文分词的应用中文分词主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。通过近几年发展互联网上的信息也在急剧膨胀,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,例如:“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有“和服”,而被当作同一类来处理,结果是检索“和服”的相关信息,会将他们都检索到。通过引入分词技术,可以使机器对信息的整理更准确更合理,在“制造业和服务业是两个不同的行业”中“和服”不会被一个词来处理,那么检索“和服”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。 中文分词的意义和作用要想说清楚中文分词的意义和作用,就到智能计算技术。智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才使人与机器的交流成为可能。再反观我们人类的语言中,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现人类的梦想。 ??? 第一章 产品概述 1.1海量中文智能中文智能应用前景作为中文信息处理的核心和汉语自然语言理解的基础,中文智能分词基础件有着广泛的应用前景。主要应用领域如下: ??? 1)信息检索:如全文检索、主题检索 ??? 2)汉字处理:如智能拼音输入、手写识别输入、中文OCR识别、自动校对、简繁转换 ??? 3)语音处理:如语音合成、语音识别 ??? 4)内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘 ??? 5)自然语言理解:如机器翻译、自然语言接口 第二章 产品技术特点 2.1海量中文智能 中文分词技术的滞后是当前中文信息自动化处理技术发展的瓶颈。词是能独立活动的有意义的最小语言单位。分词是中文信息处理从字符处理水平向语义处理水平的关键,是中文智能计算技术的基础。中文自动分词准确率低主要受以下几个难题的困扰: ??? 1)词表收录 ??? 2)分词规范 ??? 3)未登录词识别 ??? 4)歧义切分 采用复方概念平衡各算法,使海量分词在大规模语料测试中的准确率达到了99.%,分词效率字/,达到实用要求。正因如此,海量承担了2000年度国家863计划课题——“智能信息内容分析方法研究”。 ??? 海量在中文分词技术基础之上推出了海量中文智能分词功能基础件,作为国内最优秀的中文智能分词产品海量中文智能分词功能基础件具有以下特点:准 切分准确率99.% 快 字/秒 ???活 系统外挂分词规范,用户可自定义歧义识别 ??? 海量中文智能分词功能基础件依靠优秀的歧义识别算法,有效的避免了分词歧义的产生,使分词的准确率大大提高。 未登录词识别 ??? 未登录词(包括姓名、地名等)的识别,是影响中文分词准确

文档评论(0)

feiyang66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档