《人工智能技术应用基础》课件_0105 校园客服机器人.pptxVIP

《人工智能技术应用基础》课件_0105 校园客服机器人.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

技术应用篇

项目一智能客服机器人任务5校园客服机器人

校园客服机器人智能客服机器人是指用电脑代替人工执行客服任务的机器人。随着互联网技术、人工智能、大数据的发展,智能客服机器人经历了很多技术革新,功能不断完善,目前已经广泛应用于我们的工作和生活,尤其是在在线客服系统中,智能客服机器人更是不可或缺的存在。智能客服系统的最大优势是能降低企业客服运营成本、提升用户体验,一般包含以下五个主要功能模块:语音识别自然语言理解对话管理自然语言生成语音转换

校园客服机器人影响智能客服的智能化水平的,主要有以下三个要素:通过人工经验总结构建问题集,依据此问题集建立一个高质量、高扩展性的语料库,并在此基础上通过各种渠道获取尽可能多的行业或相关主题的问答知识。语料库是客服机器人寻找答案的来源,覆盖面越广,机器人能够回答的问题就越多。语言文化博大精深,用户表达问题的方式通常都是非标准化的,同一问题的问法多种多样,因此必须扩展问题的表达形式,进行问题归一化,使其能够匹配知识库中的标准问法。在大型语料库中如何快速高效地检索出正确答案,这是一个技术关键。问题归一化处理问题检索方法01基于问题集的语料库0203

校园客服机器人这三个方面不仅需要如机器学习、自然语言处理、搜索技术等的技术支持,同样需要工作量巨大如语料库建设、语义知识库等基础性建设。当前,技术已相对成熟,反而是基础性类库的规模和质量成了决定客服机器人智能化水平的关键因素。

02011.构建语料库(1)建立问答库(FrequentlyAskedQuestions,FAQ)是指常见问题的解答,具体形式是问题和与问题相关的答案组成问答对(QApair)。下面以中山职业技术学院新生常见问题集合为例来构建校园客服的问答库。新建一个txt文件,输入问题答案对,问题和答案之间用Tab键隔开,一行一个问题答案对,期间不要手动换行。获取问题列表questionList[]、分词处理后的问题列list_kw[]和对应问题的回答列表answerList[],从而构建语料库。

1.构建语料库(2)分词处理——jieba库比如“已经婚的和尚未结婚的同志都要计划生育。”,可以产生以下两种不同的断句:断句1:已经结婚/的/和/尚未/结婚/的/同志/都/要/计划/生育。断句2:已经结婚/的/和尚/未结婚/的/同志/都/要/计划/生育。这样含义就完全不同了。自然语言处理技术的很多算法都是来源于国外,在英文中每个单词都是一个词,单个字母没有含义而单词可以准确地表达出一定含义,因而一般是以词为单位进行分析。在中文文本处理时,一般也要用词来作为最小单位进行文本分析。英文中每个单词间本来就是隔开的,但是中文的词与词之间是没有任何符号标志的,所以在分词处理方面中文比英文难度大很多。

1.构建语料库中文自然语言处理的分词处理里,最简单实用的就是jieba库,是一个完全“madeinchina”的分词处理技术。jieba分词属于概率语言模型分词,利用一个中文词库来确定汉字之间的关联概率,将汉字间关联概率大的组成词组从而形成分词结果。另外除了分词,用户还可以添加自定义的词组。jieba库简介jieba库使用jieba支持三种分词模式,分别是:全模式。把句子中所有可以组成词的词语都扫描出来,速度非常快,但是不能解决歧义。精确模式。试图将句子最精确地切开,非常适合文本分析。搜索引擎模式。在精确模式的基础上,对长词再次切分,从而提高召回率。

1.构建语料库函数描述jieba.cut(s)jieba分词常用函数及其功能jieba.addword(w)jieba.cut(s,cutall=True)jieba.lcut(s)jieba.lcut(s,cutall=True)jieba.lcut_for_search(s)精确模式,返回一个可迭代的数据类型。向分词词典汇总增加新词。全模式,输出文本s中所有可能单词。精确模式,返回一个列表类型,推荐使用。全模式,返回一个列表类型,推荐使用。搜索引擎模式,返回一个列表类型,推荐使用。

jieba库是第三方库,使用前需要先安装,推荐使用“pipinstalljieba”或者?pip3installjieba进行安装,安装完成后在Python代码中通过?importjieba?来引用。下面以“中华人民共和国是一个伟大的国家”来演示jieba分词三种模式的结果:1.构建语料库对应的分词结果调用jieba分词函数三种模式的Python代码

1.构建语料库(3)分词过滤——停用词停用词,是指在信息检索中,为了节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后自动过滤掉的某些字或词,这些字或词

文档评论(0)

kd8w + 关注
实名认证
文档贡献者

kd8w

1亿VIP精品文档

相关文档