- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《自然语言处理》13-文本生成.pptx
0第 13 章 文本生成自然语言处理
目录113.1 文本生成概述13.2 文本摘要13.3 面向数值表格的文本生成13.4 文本生成评价
目录213.1 文本生成概述13.2 文本摘要13.3 面向数值表格的文本生成13.4 文本生成评价
13.2 文本生成概述3疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶文本-文本 疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶表格数据-文本疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶图像-文本图像到文本的生成是指根据给定的图像生成描述该图像内容的自然语言文本文本生成就是指期待未来有一天计算机能够像人类一样学会表达,撰写出高质量的自然语言文本,满足特定需求的过程。文本到文本的生成主要指对给定文本进行理解、变换和丰富从而获得新文本的技术结构化数据到文本的生成指根据给定的数值数据生成相关文本
13.2 文本-文本的生成概述从由多生少向由少生多发展4压缩式文本生成平行式文本生成增量式文本生成输入输出长度较短长度较长稀少丰富篇章作文段落故事风格迁移文本复述标题生成自动文摘九歌——人工智能诗歌写作系统微软小冰现代诗集
13.2 表格数据-文本的生成概述从简单描述向复杂报道发展5天气预报维基百科餐馆概况体育新闻
13.2 表格数据-文本的生成概述从单体描述向跨模态交互发展6图像物体识别1图像描述生成2图像问答3
目录713.1 文本生成概述13.2 文本摘要13.3 面向数值表格的文本生成13.4 文本生成评价
8目录13.2 文本摘要13.2.1 抽取式方法13.2.2 生成式方法
目录13.2 文本摘要13.2.1 抽取式方法13.2.2 生成式方法
13.2 文本摘要文本摘要的目的通过对海量文本中重要内容进行选择和归纳来完成内容压缩,将源文本还原为摘要文本,帮助用户快速了解文章核心内容,进而达到节省时间和资源的目的。10
13.2 文本摘要文本摘要的分类11根据处理文档数量单文档摘要多文档摘要根据是否提供上下文环境主题或查询无关摘要主题或查询相关摘要根据摘要输出文本的不同生成式摘要抽取式摘要根据所处理语言的数量进行区分单语言摘要多语言摘要跨语言摘要根据摘要的应用类型标题摘要传记摘要电影摘要
12目录13.2 文本摘要13.2.1 抽取式方法13.2.2 生成式方法
13.2.1抽取式方法抽取式方法的基本流程对文档中的句子进行重要性计算或排序选择重要的句子组合成最终摘要13
13.2.1抽取式方法Lead方法Lead方法即直接从输入文档中提取前几个句子组成摘要。如果输入是多篇文档,可直接提取每篇文档的前几个句子。该方法对于单文档摘要任务而言效果很不错,原因在于对于新闻文档而言,新闻都是由总分或者总分总结构组成,首句以及位置靠前的句子通常具有概括性。14新闻摘要样例
13.2.1抽取式方法高频词方法① 重要度评价句子的重要度是对句中 每个单词分析得到的,这里主要考虑句子中单词在整个文档中出现的频率 以及单词在句子中的相对位置这两方面因素。15
13.2.1抽取式方法高频词方法② 确定重要单词集一方面:并不是词频一味地高就包含更多信息,另一方面:单词频率过低则常常是生僻词,不具有代表性。16
13.2.1抽取式方法高频词方法③ 确定句子的相对重要性考量句子中重要单词的相对位置17
13.2.1抽取式方法基于TF-IDF的方法利用句子中每个单词的统计信息来综合权衡句子的重要程度,通过统计分析在该领域下代表性单词的词频信息来作为计算每个单词权重的依据,进而用于选取摘要句词。18
13.2.1抽取式方法基于TF-IDF的方法TF-IDF的全称是词频-逆文本频率指数(Term Frequency - Inverse Document Frequency)词频:这部分衡量的是单词 t 在一个文档中出现的频繁程度。逆文本频率:衡量的是单词t的重要程度。通过对句子中所有关键词的权重加和得到一个分数作为该句子能否被当作摘要的一个依据。19
13.2.1抽取式方法TextRank方法该方法借鉴网页排序的思想,基于句子构建一个无向带权图,然后采用图排序算法对句子进行重要程度的评估,根据计算得到的句子的重要程度值并将其作为摘要句候选的主要参考条件。首先基于文档句子构建无向带权图,图中的顶点为句子,两个句子之间构建一条无向边,边的权重可通过相似度计算公式进行计算迭代执行下列公式进行计算20
13.2.1抽取式方法HMM方法隐马尔可夫模型(Hidden Markov Model,HMM)是一种常用的概率图模型,因其序列化建模,从而在早期的自然语言处理任务上有着大规模的应用。隐马模型结构定义:
您可能关注的文档
最近下载
- T∕CAOE 20.8-2020 海岸带生态系统现状调查与评估技术导则 第8部分:砂质海岸.docx VIP
- (高清版)DB15∕T 4089-2025 《工业企业碳流图绘制方法》.pdf VIP
- 安全生产管理制度汇编.doc VIP
- 江苏省2014定额解读(模板工程计算规则下).ppt VIP
- GB 18918-2002城镇污水处理厂污染物排放标准.docx VIP
- 站用交直流电源系统技术规范第4部分:阀控式铅酸蓄电池.pdf VIP
- ST段抬高型心梗(STEMI)的心电图表现.pptx VIP
- 步步高家教机X2用户手册.pdf
- 新解读《GB_T 13863-2011激光辐射功率和功率不稳定度测试方法》最新解读.docx VIP
- 2025年政府采购评审专家考试试题库(附答案).docx VIP
文档评论(0)