- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【精选】海量分词技术白皮书2 2
海量中文智能技术白皮书
海量公司
20年月
序言 4
第一章 产品概述 6
1.1海量中文智能分词基础件简介 6
1.2 海量中文智能分词基础件应用前景 6
第二章 产品技术特点 7
2.1海量中文智能分词基础件的特点 7
2.2 算法特点 8
2.3基础件特点 8
第三章 产品功能介绍 10
3.1词形切分 10
3.2词性标注(高级版) 10
3.3关键词标注(高级版) 10
3.4支持的字符集标准 10
3.5语意指纹提取(高级版) 10
3.6分词颗粒度控制 11
第四章 运行环境 12
4.1 WINDOWS 12
4.2 LINUX 12
4.3 UNIX 13
第五章 海量中文智能分词的典型应用 14
5.1KM知识管理系统 14
5.2搜索引擎 14
5.3辞书出版 14
5.4信息服务 14
5.5网站信息发布 15
第六章 合作伙伴成功案例 16
6.1商务印书馆 16
6.2腾讯SOSO搜索引擎 16
6.3其他案例 17
附录A 数据辞典 18
附录B 市场部联系方式 18
序言
1.什么是中文分词?分词就是将连续的字序列按照一定的规范成词序列的过程。,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。中文分词的应用中文分词主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。通过近几年发展互联网上的信息也在急剧膨胀,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,例如:“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有“和服”,而被当作同一类来处理,结果是检索“和服”的相关信息,会将他们都检索到。通过引入分词技术,可以使机器对信息的整理更准确更合理,在“制造业和服务业是两个不同的行业”中“和服”不会被一个词来处理,那么检索“和服”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。中文分词的意义和作用要想说清楚中文分词的意义和作用,就到智能计算技术。智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才使人与机器的交流成为可能。再反观我们人类的语言中,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现人类的梦想。???第一章 产品概述
1.1海量中文智能中文智能应用前景作为中文信息处理的核心和汉语自然语言理解的基础,中文智能分词基础件有着广泛的应用前景。主要应用领域如下: ??? 1)信息检索:如全文检索、主题检索 ??? 2)汉字处理:如智能拼音输入、手写识别输入、中文OCR识别、自动校对、简繁转换 ??? 3)语音处理:如语音合成、语音识别 ??? 4)内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘 ??? 5)自然语言理解:如机器翻译、自然语言接口第二章 产品技术特点
2.1海量中文智能
中文分词技术的滞后是当前中文信息自动化处理技术发展的瓶颈。词是能独立活动的有意义的最小语言单位。分词是中文信息处理从字符处理水平向语义处理水平的关键,是中文智能计算技术的基础。中文自动分词准确率低主要受以下几个难题的困扰:??? 1)词表收录??? 2)分词规范??? 3)未登录词识别??? 4)歧义切分
采用复方概念平衡各算法,使海量分词在大规模语料测试中的准确率达到了99.%,分词效率字/,达到实用要求。正因如此,海量承担了2000年度国家863计划课题——“智能信息内容分析方法研究”。??? 海量在中文分词技术基础之上推出了海量中文智能分词功能基础件,作为国内最优秀的中文智能分词产品海量中文智能分词功能基础件具有以下特点:准 切分准确率99.%
快 字/秒???活 系统外挂分词规范,用户可自定义歧义识别??? 海量中文智能分词功能基础件依靠优秀的歧义识别算法,有效的避免了分词歧义的产生,使分词的准确率大大提高。未登录词识别??? 未登录词(包括姓名、地名等)的识别,是影响中文分词准确率的重要因素,海量中文智能分词功
您可能关注的文档
- 【精选】浙江科技学院电机与电力拖动基础答案_习题三.pdf
- 【精选】浙江联通人力资源管理咨询结案报告.ppt
- 【精选】浙江联通职业生涯管理方案与指南.doc
- 【精选】浙江苏泊尔炊具股份有限公司.doc
- 【精选】浙江联通重点行业应用解决方案目录(2009年8月).ppt
- 【精选】浙江稠州商业银行2013校园招聘大礼包_笔试面试经验汇总@大街网@应届生校园招聘 制作.pdf
- 【精选】浙江财经大学2013级新生入学须知(专升本).pdf
- 【精选】浙江财经大学乒乓球理论考试资料1.ppt
- 【精选】浙江远见简介及经典案例.doc
- 【精选】浙江课改机械常识与钳工工艺1.1.ppt
- 【精选】海量招聘案例(MassRecruitmentSolution).pdf
- 【精选】海银财富解析美联储9月按兵不动,不加息政策.pdf
- 【精选】海门镇中心小学五年级语文学习水平评价细则.doc
- 【精选】海银财富财经日报:国债期货现货大跌,中信银行携手碧桂园进军地产租赁市场.pdf
- 【精选】海蜘蛛软路由安装设置教程.pdf
- 【精选】海马英语单词记忆专家张海洋教你.doc
- 【精选】海龙大厦基坑支护设计.doc
- 【精选】海银财富财经日报:绍兴等地出台“限售”政策,中通、韵达相继调整快递价格.pdf
- 【精选】海门市麒麟中学2013届高三高考适应性考试二.doc
- 【精选】涂料企业在2015年应该关注的十个问题.pdf
最近下载
- 爆破工程技术人员取证培训初级D设计题真题参考答案.pdf VIP
- 2026届高一物理必修一同步1.4 速度变化快慢的描述——加速度(原卷版).docx VIP
- 医学课件-医德医风培训模板.pptx VIP
- 1.4 速度变化快慢的描述—加速度(分层作业)(解析版).docx VIP
- 齐鲁医学医德医风.pptx VIP
- 导学案:1.3位置变化快慢的描述—速度.docx VIP
- 2024监理规范知识竞赛练习试题及答案.doc VIP
- 1-3位置变化快慢的描述 速度 【解析版】(人教版2019).doc VIP
- 5.1《倍的认识》课件(共23张PPT) 人教版 三年级上册数学.pptx VIP
- 冀教版小学数学四年级下册【全册】课时练+单元测试卷(含答案).pdf VIP
文档评论(0)