自然语言处理教学课件14.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* (3)问题路由与专家推荐 专家推荐与问题路由的分类: 共八类(5-8) 方法 目标 方法举例 基于分类的方法 转换为将专家用户与其他用户区分开的分类问题 SVM, C4.5决策树,随机森林、朴素贝叶斯、GBDT 基于专业知识概率模型的方法 使用贝叶斯概率模型来获得用户可信度的后验估计 协同过滤方法 应用协同过滤方法,通过用户的行为特征进行判断 混合方法 综合使用上述多种方法 * (3)问题路由与专家推荐 基于分类的问题路由方法: 收集由三元组问题,提问者,回答者组成的数据。 识别特征,以捕捉问题和用户的信息与关系 创建训练样例 使用RankingSVM算法来学习排序模型 使用学习的排序模型根据用户的专业程度对新发布的问题对候选回答者进行排序。 * (3)问题路由与专家推荐 基于分类的问题路由方法: * CQA数据集: 多由Yahoo!Answers、Quora、百度知道等大型社区问答网站提供的问答数据集。 (4)相关数据集及评价方法 排序模型: 给定一个输入 得到一个输出列表 按置信度的高低排序 评价: 第一项准确率(Precision@1) 平均准确率(Mean Average Preision) 平均倒数排名(Mean Reiprocal Rank) 相似问题检索 问题路由 专家推荐任务 * 答案摘要任务: 可以视为分类任务: 给定问题,以及对应答案,对答案中的句子进行分类,判断是不是摘要句 评价指标: 精确度(Precision) 召回率(Recall) F1值 同时利用ROUGE-1、ROUGE-2和ROUGE-L等评价方法评价RPF指标的效果,进而评价摘要效果的好坏。 (4)相关数据集及评价方法 * 第14章 问答系统 14.1 问答系统概述 14.2 检索式问答 14.3 知识库问答 14.4 社区型问答 14.5 阅读理解式问答 阅读理解式问答 大量信息以非结构化形式蕴含于文本数据中,如何利用这些文本数据回答用户问题是一个重要的研究方向。 阅读理解式问答(也称机器阅读理解)是一类利用文档回答用户问题的任务,它要求计算机系统在“阅读”完给定一篇文本之后回答相应问题。 考察机器对语言和文本进行深层分析与理解的能力。 按照答案形式及来源的不同,阅读理解式问答可以分为:1)选择式;2)填空式;3)抽取式,和4)生成式四类问答任务。 * (1)选择式问答:任务 选择式问答:给定一篇文档、若干个与之相关的问题和每个问题相对应的候选答案,模型需要根据给定的这些数据从候选答案中选出正确答案。 * (1)选择式问答:典型方法 * (2)填空式问答:任务 完形填空任务的一般形式通常是给定一文本,然后从文本中去掉一个词或者句子,然后模型需要通过阅读给定的文本,从文本中找出能够填到这个空中的正确答案。 这种测试方式由语言学家于 1953 年提出, 该方法主张通过一次测试全面地评价被测对象的总体语言水平。其考察的不仅仅是语言建模能力,更是深层次的推理能力。文本中扣掉的往往是实体或者名词,需要模型理解整个文章的含义后进行作答。 * (2)填空式问答:典型方法 * (3)抽取式问答:任务 抽取式问答:给定一篇文档和一个问题,从文档中找出一个连续的区间作为答案来回答问题。 此处区间的范围可以是一个单词,一个短语甚至一个句子。 2016年斯坦福大学Rajpurkar等人提出的SQuAD 是该任务的经典数据集,也是阅读理解领域最受关注的数据集之一。 * (3)抽取式问答:典型方法 * (4)生成式问答:任务 有些场景中,给定一篇文档和一个问题,没有候选答案项,答案也不一定出现在给定文档中,此时,模型需要开放的生成答案。 从答案设定的角度而言,相较于前几种阅读理解式问答任务,生成式问答的设定更加接近真实场景。 * (4)生成式问答:典型方法 * (5)常用数据集及评价方法 常用数据集 常用评价方法 选择式问答和填空式问答通常可以采用准确率进行模型评估; 抽取式和生成式通常采用获得答案和标准答案的匹配程度作为评估指标:1)完全匹配:预测答案和标准答案是否完全匹配;2)F1:对比预测答案和标准答案的词重合度。 * 总结 问答系统主要包含4类:检索式问答、知识库问答、社区问答以及阅读理解。 检索式问答研究问题理解、段落检索和答案抽取。 知识库问答主要包括基于语义解析和语义匹配的方法。 社区问答主要关注如何为用户推荐更优秀的答案。 阅读理解式问答包括选择式、填空式、抽取式和生成式四类应用形式。 扩展阅读 IBM研发的Watson系统 在2011年的美国智力竞赛节目《Jeopardy! 》 中战胜人类选手。 系统各个模块及其关键技术以专刊的形式发表在2012年的IBM研发学报(IBM Journal of Rese

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

副教授持证人

知识共享

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

相关文档