- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
网络聊天机器人作为一款供人类生活学习的工具近年来备受关注,
其技术也随着信息处理水平的提高而日渐成熟。目前活跃在网上的“小
i机器人n1,可以随时查询一些诸如天气情况之类的便于人们日常生活
的知识,可以陪用户聊天、学习语言,供用户娱乐休闲。介于网络聊天
机器人的聊天、学习的功能,本文设计并研究其在少数民族地区汉语教
学上的应用系统,并围绕着网络聊天机器人的关键技术——自然语言理
解进行深入研究。
本文对网络聊天机器人的技术研究是从汉语分词开始的。由于汉语
本身的语言特点,词与词之间不能用空格之类的显性标志分开,所以汉
语分词就成了汉语自然语言处理的“瓶颈”心1。解决好中文分词决定着
网络聊天机器人系统的性能好坏。所以本文研究的主要内容、关键技术
及创新点主要有以下几点:
一、本文采用统计自然语言处理方法,收集了少数民族汉语初中教
材第五、六册30篇课文,建立了一个小规模的汉语语料库。语料库的工
作包括断词断旬处理、词性标注及统计分析等。词性标注均严格按照《汉
语词典》里的词做标注。这项工作是一项长期而繁重的工作,需要大量
的手工劳动去完成。所建的语料库为后续的工作做了数据上的支持。
二、汉语存在歧义和未登录词等问题,所以歧义消解和未登录词识
别是汉语分词关键问题。本文从最短路径算法解决歧义和未登录词具有
快速、高效的特点,但不能很好的处理多条最短路径的问题,提出了对
最短路径算法的改进方法——次短路径算法,这种方法避免了存在多条
最短路径时不A日匕I工广:gud断最优解的问题,同时又延续了最短路径算法的特性。
实验证明,次短路径算法对汉语分词的歧义效果和未登录词的识别有很
大的改善作用。这是本文的贡献之一。
三、本文分析了如何在中文分词中建立隐马尔可夫模型(H删)的结
构和参数训练等问题,并用实旬网格图详细的说明了HMM模型中的第二
个解码问题的算法一维特比算法的过程,这样做的一个优势在于能够清
楚地看到待切分的句子按维特比思想寻找最佳的阶段切分词,然后递归
回溯找到最佳的词性序列,完成分词过程。目前这一问题的理论思想成
熟,但现有的文献对其分词的实践细节描述的很匮乏,使得本文的这项
工作可作为新进入的研究人员作为参考学习。这是本文的贡献之二。
四、结合次短路径搜索出来的路径,在已训练好的HMM模型下,通
过仿真实验验证维特比分词算法,找到有效的分词结果。文中给出了与
一般隐马尔可夫模型的分词比较。实验结果表明,结合次短路径算法的
隐马尔可夫分词算法在一定条件下提高了隐马尔可夫算法的效率,同时
也提高了分词的召回率和准确率。这是本文的贡献之三。
五、本文的工作都是结合编程实践展开的。编程思想借助本文作者
发表的一篇论文。该论文详细论述了一种避免设计复杂程序的新方法。
这种方法的思想是基于算法的逻辑结构独立于存储结构,在不改变算法
逻辑结构的前提下,只改变算法的存储结构,如利用数组存储复杂的图
结构来设计并实现图的深度优先算法。在这之前查到的:丈献都是基于图
结构的存储方式,如邻接表等。这一方法使得很多程序都变得简单了。
本文源于这一思想,将其应用于维特比算法上,只改变算法的输入输出
接口,而不改变维特比算法的逻辑结构,就可以找到合适的词性序列。
这一方法在程序设计课程上可以应用于许多优秀的经典算法。这是本文
的贡献之四。
关键字网络聊天机器人,自然语言处理,语料库,隐马尔可夫,维特比
ABSTRACT
Asa toolforhuman’S Internetchatrobothadbeen
computer life,the
concerted alsohadbeenbecamemoremature
recentlyyears.Ittechnology
withthecontinual oftheinformation robot
development technology.The
theIntemetforat
‘‘xiaoi’’activeson can the
您可能关注的文档
- 图的可迹性和直积图着色性质的讨论.pdf
- 涂尔干与吉登斯社会学方法比较的研究.pdf
- 完善企业内部培训体系推动学习型组织的建设_中国工商银行内蒙古分行员工培训现状分析与对策.pdf
- %5bCo(phen)2hpip%5d3%2b与DNA的相互作用及其C2Al4异构体间动力学转变过程的理论的研究.pdf
- “格里尔逊”纪录理论在我国影响的研究.pdf
- “环境监测与治理技术专业”工作过程导向教学模式的研究_以某高职院校为例.pdf
- “两型社会”建设背景下的城市生态位评价_以长沙、株洲、湘潭三市为例.pdf
- “市管县”到“省直管县”%3a体制转型下的人力资源配置优化问题的研究.pdf
- “氧化还原反应”中化学概念的动态难度的研究.pdf
- “音乐·游戏·审美”_小学音乐趣味教学模式的理论与实践.pdf
- “再造政府”的理论与实践_克林顿联邦政府改革探析.pdf
- “掌握学习”教学理论在高校篮球普修课技术教学中的应用的研究.pdf
- 《白鲸》的生态学解读_美国激进时代精神生态质询.pdf
- 《读者》杂志营销策略创新的研究.pdf
- 《法国中尉的女人》的狂欢化特点的研究.pdf
文档评论(0)