《生成式人工智能(AIGC)通识教程(微课版)》课件 【第07-08讲】生成式人工智能基础与应用.pptx

《生成式人工智能(AIGC)通识教程(微课版)》课件 【第07-08讲】生成式人工智能基础与应用.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

生成式人工智能基础与应用第五章多媒体内容的生成文本生成图像生成音频生成视频生成基于项目的学习(PBL)与做中学理念贯穿全课程通过9个实验任务,体验多媒体内容生成的全流程:总时长:160分钟(共2讲)浙江交通职业技术学院

多媒体内容生成概述AIGC的本质与价值生成式人工智能(AIGC)通过对大量数据的学习,能够自动生成全新且有实用价值的多媒体内容。其核心价值在于降低内容创作门槛、提升创作效率、激发创新灵感,实现只要会说话就能创作的愿景。文本生成以token为单位,通过大模型实现多风格文本创作、内容改写与风格迁移。图像生成以pixel为基本单元,通过扩散模型等技术实现文生图、图生图等多样化创作。音频生成以sample为基本单元,实现语音合成、音乐创作、音效设计等多元化应用。视频生成结合图像与音频技术,实现文生视频、动画创作、视频编辑等创新应用。应用前景教育领域:个性化教学内容生成、创意教学素材开发创意产业:广告创作、艺术设计、游戏开发商业应用:产品展示、营销内容、品牌形象塑造跨模态融合是AIGC多媒体内容生成的未来趋势

多媒体内容的基本构成要素文本(Token)定义:文本由词汇(word)构成,在AIGC中以token为最小处理单元。特点:每个token承载特定语义信息和上下文关系,可以是单词、词素或标点符号。生成原理:大模型通过预测下一个最可能出现的token,实现自然流畅的文本生成,类似于文字接龙。在大模型中,文本被切分为token序列,如人工智能可能被切分为[人工,智能],模型根据前文预测下一个token。图像(Pixel)定义:图像由像素(pixel)组成,每个像素有独立的颜色值,常用RGB或CMYK色域表示。特点:分辨率和比特深度决定图像质量,像素间存在空间相关性。生成原理:AIGC通过扩散模型等技术,实现从随机噪声到有意义图像的逐步转换,或通过GAN的对抗学习生成逼真图像。扩散模型通过加噪-去噪过程,逐步将随机噪声转化为符合描述的图像,是当前主流图像生成技术。音频(Sample)定义:音频由采样点(sample)组成,是对连续声波在特定时间点的数字化表示。特点:采样率和比特深度决定音频的清晰度和动态范围,常见采样率为16kHz-48kHz。生成原理:AIGC通过WaveNet、SampleRNN等模型,预测音频样本序列;或通过SpeechUnit编码降低处理复杂度,提升生成效率。现代音频生成模型如GPT-4o能实现端到端的语音生成与情感识别,支持自然对话交互。跨模态融合AIGC的核心优势在于能够对token、pixel、sample等基本单元进行智能排列组合,并实现文本、图像、音频等多模态内容的协同生成,创造出全新且有实用价值的多媒体内容。理解基本构成要素是掌握AIGC生成原理的基础

实验任务1:文本生成与风格迁移体验实验目标体验AIGC文本生成的基本流程与能力理解大语言模型中的token机制掌握文本风格迁移的基本方法探索不同提示词对生成结果的影响实验步骤1登录ChatGPT或其他大语言模型可使用ChatGPT、文心一言等工具2输入基础文本生成提示词例如:请写一篇关于AIGC技术发展的短文3尝试风格转换要求AI将生成的文本转换为不同风格(如诗歌、新闻、科幻等)4分析token使用情况观察不同提示词、不同输出长度的token消耗差异理解Token机制Token是大语言模型处理文本的最小单位,一个token通常对应一个单词、标点或词的一部分。生成式人工智能(AIGC)是未来发展的方向。中文分词示例:每个框代表一个可能的token风格迁移提示示例古诗风格请将上述内容改写成古诗风格,使用韵律和意象,保留核心信息科普文风格请将这段文字转换为面向初中生的科普文,使用通俗易懂的语言和生动的比喻新闻报道风格请将这段内容改写成客观、简洁的新闻报道风格,包含标题和导语实验提示尝试对同一内容应用不同风格转换,观察并记录AI如何保留核心信息的同时改变表达方式建议实验时间:30分钟

AIGC生成策略:自回归vs非自回归自回归生成原理逐步生成序列,每一步依赖前一步结果,类似于文字接龙。优点生成质量高上下文连贯性强适合文本等高依赖性内容缺点生成速度慢误差易累积不适合高维数据(如高分辨率图像、音频)非自回归生成原理并行生成所有元素,一次性输出结果,不依赖序列关系。优点生成速度快适合高维数据计算效率高,便于并行处理缺点上下文依赖弱生成质量可能略低不适合强依赖序列关系的内容混合策略结合两者优点,部分阶段自回归,部分阶段并行。平衡生成质量与效率,适用于复杂多模态内容生成。适用于文本高质量文章、对话、创意写作适用于多媒体高分辨率图像、音频、视频应用场景对比自回归优势:长文本生成、对话系统、故事创作、代码生成非自回归优势:图像生成、音频合成、视频

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档