中国自然语言处理白皮书讲解.doc

下载文档 降价啦

6
0
约1.19万字
约 20页
2017-02-08 发布于湖北
举报
版权申诉
保障服务

中国自然语言处理白皮书讲解.doc

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中国自然语言处理白皮书讲解

中国自然语言处理白皮书中国人工智能学会二○一五年十一月《中国人工智能系列白皮书》编委会主　　任：李德毅　执行主任：王国胤副主任：杨放春　谭铁牛　黄河燕　焦李成　马少平　刘　宏　　　　　蒋昌俊　任福继　杨　强委　　员：陈　杰　董振江　杜军平　桂卫华　韩力群　何　清　　　　　黄心汉　贾英民　李　斌　刘　民　刘成林　刘增良　　　　　鲁华祥　马华东　马世龙　苗夺谦　朴松昊　乔俊飞　　　　　任友群　孙富春　孙长银　王　轩　王飞跃　王捍贫　　　　　王万森　王卫宁　王小捷　王亚杰　王志良　吴朝晖　　　　　吴晓蓓　夏桂华　严新平　杨春燕　余　凯　余有成　　　　　张学工　赵春江　周志华　祝烈煌　庄越挺《中国自然语言处理白皮书》编写组任福继　　王小捷　　黄河燕　　孙茂松　　靳光谨周国栋　　王明文　　蔡东风　　何婷婷　　黄萱菁常宝宝王晓龙黄德根胡海青于浩晋耀红王厚峰张玉洁张桂平谭咏梅张克亮全昌勤孙晓陈清财王荣波卫志华钟茂生徐睿峰邱锡鹏沈李斌张仰森目录第1章引言 1 第2章汉语切分 2 2.1汉语切分的性能 2 2.2汉语切分的问题 5 2.3小结 6 第3章人机对话 8 3.1 人机对话系统 8 3.2 对话管理技术 10 3.3 小结 13 第4章总结 14 第5章参考文献 17 第1章引言近年来，随着自然语言处理技术的迅速发展，出现了一批基于自然语言处理技术的应用系统，这些系统引起了大众的热议。例如，IBM的Watson在电视问答节目那么，自然语言处理当前的技术和应用状况究竟如何，已经取得了什么进展、未来的发展会如何？人们的什么期待可能变成现实，什么担心其实还没有必要呢？本白皮书力图对这两个问题作出部分回应。本白皮书首先对目前研究人员在自然语言处理技术及应用方面主要做了什么、做得怎么样进行一些介绍。但是，本白皮书并不准备也不可能做成一个自然语言处理领域的全面技术综述，而只是分别选择自然语言处理领域的一个典型技术和一个典型应用进行介绍和分析。之后，就如何认识当前以及未来的自然语言处理技术和系统给出我们的观点。白皮书力求不用太多的专业术语，而是以较为浅显的语言进行阐述。全书的内容安排如下：在第二章是汉语切分技术的发展介绍和现状分析，第三章是人机对话系统的发展介绍和现状分析，第四章是总结，给出我们的观点。第2章汉语切分自然语言处理领域有许多重要的基础技术，这些技术对自然语言处理应用系统的性能具有重大的影响，汉语切分就是其中之一。不同于英语，汉语是以字串的形式出现，词与词之间没有空格，自动识别字串中的词即为汉语切分。至少在当前，汉语切分是汉语信息处理的基础，大多数其他汉语信息处理技术和应用都会在汉语切分的基础上进行。本章在第一节基于汉语切分的评测结果概要介绍当前汉语切分技术的总体性能，在第二节通过实例具体介绍其中的主要难点问题，最后是小结。 2.1汉语切分的性能汉语切分是汉语语言信息处理技术中开展得最早的研究主题之一。不仅仅是在国内、在国际上也有很多学者加入到这个主题的研究中。国际上最有影响的计算语言学联合会ACL (Association of Computational Linguistics)下设的特殊兴趣小组SIGHAN(Special Interest Group of HAN)从2003年开始组织汉语切分技术的国际评测，一直持续到现在。从该系列评测的结果我们可以大致了解当前汉语切分技术的现状。表2-1到2-3列出了SIGHAN汉语切分技术评测的部分结果数据[1]-[4]。由于没有一个评测数据在各届评测中都一直被使用，而不同评测数据之间的结果难以直接比较。因此，这些表是按不同评测数据分别列出的。表中列出的都是历年参加评测的所有系统中取得的最好成绩。性能指标一般包括准确率P(Precision)、召回率R(Recall)、F测度(F-measure)、词典内词的召回率Rin以及未登录词的召回率Roov。这些指标从不同侧面反映技术的性能，所有指标都是值越高越好。表2-1 2003和2005年北京大学评测数据上的最好成绩 P R F Rin Roov 2003 0.956 0.963 0.959 0.975 0.799 2005 0.969 0.968 0.969 0.976 0.838 表2-2 2005和2006年微软亚洲研究院评测数据上的最好成绩 P R F Rin Roov 2005 0.965 0