- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
产品经理视角下的自然语言处理 /
一、名词解释
1. 语音交互“三驾马车”
1)ASR
语音自动识别,把外界的声音转写成文字,相当于人类的耳朵。
2)NLP
分为NLU和NLG两部分, NLU负责理解内容,NLG负责生成内容。
前者是对外界输入的理解,后者是根据理解的内容生成对应的输出,相当于人类的大脑。
3)TTS
语音合成,NLG生成的文字由TTS由不同音色播报出来,相当于人类的嘴巴。
2. 自然语言理解
1)语料
语料是构成训练集和测试集的基本单位,可以是句子、短语,通过对大量语料学习帮助模型识别用户的意图。
2)训练集和测试集
顾名思义前者是用来训练模型进行意图识别的,而后者是用来测试模型学习效果如何的,二者都是由语料构成。
3)置信度
人为设定,超过了模型的置信度表示模型就会去理解(结果可能会理解错或理解对),小于置信度,强制模型不去理解。
3. 模型及算法
1)机器学习模型
通过算法使得机器能从大量历史数据中学习规律,从而对新的样本做出智能识别或对未来做出预测,相当于培养模型“举一反三”的能力。
2)神经网络模型
通过大量的简单计算单元构成的非线性系统,在一定程度上模仿了人脑神经系统的信息处理、存储和检索功能,是对人脑神经网络的某种简化、抽象和模拟,相当于“由浅入深”的学习过程。
二、语音交互的应用场景
从目前商业市场划分来看,语音交互主要应用场景及细分赛道众多:智能家居、车载场景、医疗场景、教育场景和客服场景等。
从有无硬件载体上可简单粗暴的分为两大类:
1. 聊天机器人
产品定位于日常的“人机闲聊”。
可掌控简单或复杂场景人机交互,依赖于ASR、NLP和TTS,通常使用嵌入式系统与硬件完成对接,如常见的天猫精灵、Siri和车载机器人等,主要应用在智能机器人领域。
2. 语音外呼
产品定位于“完成任务”,业务属性更强。
上游通过呼叫中心(FS)、电信运营商拿到路线和号码资源,下游触达用户完成活动营销、欠款通知和生活服务,主要应用于智能语音外呼和呼入,通常会有固定的“业务流程“作为客户引导手段。
目前智能语音行业由于应用场景、业务要求、客户体验或监管要求等原因都会使用封闭问答集来约定与客户交互的边界。
如在保险营销的业务中,客户若是询问了和业务不相关的内容(今天气温是多少度?晚餐有什么推荐的吗?)机器会使用提前设定好的固定的“兜底”话术来应答(你说啥,我不懂,请回答业务相关的内容)将用户重新拉回业务流程中,而不会与客户进行“不相关领域”的闲聊。
由于业务属性的特殊性,客服性质的外呼业务对监管和用户投诉格外关注,B端客户对应答话术的要求及意图识别的准确率要求较高。
所以除了使用语料来训练模型,基本上还会使用正则表达式和关键字的策略进行意图匹配的辅助。
三、自然语言理解
NLP(自然语言处理)被誉为人工智能的掌上明珠,究其原因“交流”在人类社会演进中起到了最重要的作用。
作为“交流”最重要的途径和方式之一,语言伴随着人类社会的发展,历久弥新,形成了博大精深、非常复杂的体系。
不同的职业领域、不同的历史时期、也就是我们常说的“自然语言”,就像平常妈妈和你说话一样,不需要完整的语法、不需要主谓宾定状补的限定,拟人比喻倒装夸张对偶各种修辞一起来。
让孔子来理解我们今天的“语言”他其实也不知道我们在表达什么意思,更何况是机器人呢。
和妈妈交互的场景,在机器人眼里以下对话可能是这个样子的:
妈:“把你那猪窝收拾收拾,和你爹一个熊样”!
机器人的理解:你和你爸都是熊,你俩长得很像。你养了一只猪,猪窝太乱你需要整理下。
如果没有具体的对话场景,而且对于一个没有感情的机器,很难让他理解我们人类日常生活中的语言。
但是,我们可以教他,就像儿童成长过程一样:你妈第一次骂你“和你爹一个熊样”你也不知道是什么意思,但是骂的多了加上她骂人时的表情、语气、情绪等你就知道了“和你爹一个熊样”实际上是在骂你。
四、理解和优化过程
1. 训练模型
如上图“不想上班“标签的训练集的语料内容,都是表明作者不想上班的意思,并把其中的80%语料作为训练集扔给模型,让其去学习(可以抽象成将复杂的非向量化的文本内容归一化为可以计算的数学模型,之后再转换为机器可以理解的0和1,具体的实现过程作者也了解过,其中涉及到很多的数学内容,较为复杂感兴趣的同学可自行学习)。
最终,机器可以明白了其中的大部分意思。
2. 测试模型
不能机器说学会了,我们就认为它学会了,还要使用测试集对它进行“考试”,使用上述语料中剩余的20%作为测试集进行测试,得到模型的“识别率”。
识别率和“训练集”和“测试集”中的语料内容很大的关系,需要合理的进行分配。
否则结果会出现“过拟合”(考的恰好都是我会的,不会的都没考,成绩很高)和“欠拟合”(考的都不会,成绩很低)的现象。
最终考试成绩好,皆大
原创力文档


文档评论(0)