- 1、本文档共84页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
创意火花:AIGC赋能艺术创作的无限可能工单四
目录CONTENTSAIGC生成图像01AIGC生成音频02AIGC生成视频03
AIGC生成图像01
通过多层神经网络学习图像的特征表示。深度学习用于从随机噪声或输入数据中生成新的图像。生成模型衡量生成图像与真实图像之间的差异,指导模型优化。损失函数关键技术
生成对抗网络(GAN)生成对抗网络(GAN)主要由生成器和判别器两部分组成。生成器负责生成图像,判别器负责判断图像是真实的还是生成的。核心模型
(2)变分自编码器(VAE)通过编码器将输入图像压缩为潜在向量,再通过解码器将潜在向量还原为图像。生成图像时,直接从潜在空间采样并解码。核心模型
(3)扩散模型(DiffusionModels)通过逐步添加噪声将真实图像转化为随机噪声,再通过逆向过程从噪声中生成图像。训练过程中,模型学习如何逐步去除噪声,最终生成高质量的图像。核心模型
(4)自回归模型(AutoregressiveModels)将图像生成问题转化为像素点的序列预测问题,逐个像素生成图像。核心模型
文生图与图生图文生图图生图通过输入提示词,AI模型根据文字内容生成对应的图像通过输入一张图像,AI模型根据图像内容生成新的图像。
文生图与图生图特性文生图图生图输入文字描述/提示词原始图像输出全新生成的图像基于原图的新图像(风格化、修复等)技术核心文本编码+图像生成模型图像编码+图像转换模型适用场景创意设计、技术创作图像修复、风格迁移、设计优化
AIGC生成图像常用工具工具名称功能特点文心一格百度推出的AI艺术与创意平台,支持根据用户输入的文字描述生成绘画作品,提供多种风格选择。通义万相阿里云旗下的AI创意平台,支持文生图、图生图、涂鸦作画等多种场景。用户可通过输入文字描述或上传参考图片,生成符合语义描述的多样化风格图像。美图WHEE美图公司推出的AI绘画平台,支持文生图、图生图、风格模型训练等多种功能。平台提供线稿上色、涂鸦生图等功能,适合专业设计师的需求。即梦AI剪映旗下的AI创作平台,支持多图融合、局部重绘、一键扩图等编辑功能。风格丰富,有多种艺术风格选项。对中文提示词理解精准,有活跃的创意社区,用户可分享作品、获取灵感Midjourney以强大的图像生成能力和丰富的风格选择而闻名,用户可通过输入文字描述或上传参考图片,生成高质量的图像作品。StableDiffusion一种开源的AI图像生成模型,以其高质量的图像生成效果和广泛的应用场景而受到关注。StableDiffusion模型可用于生成各种风格的图像,如风景、人物、抽象等,并支持用户自定义生成条件和参数。
AIGC生成音频02
(1)数据准备AIGC生成音频基本原理收集大量的音频数据作为训练集。数据收集1降噪处理(去除录音中的背景噪声)分段处理(将长音频文件切割成较短的片段)特征提取(从音频数据中提取出有用的特征信息)数据预处理2
(2)模型训练AIGC生成音频基本原理通过学习音频数据的特征分布来掌握音频生成的规律学习音频数据分布常用的模型包括WaveNet、Tacotron和Transformer等,能够学习音频数据的分布规律选择深度学习模型通过计算损失函数来衡量生成音频与真实音频之间的差异,并根据梯度下降等优化算法调整模型参数,以减小损失值。迭代优化模型参数010203
(3)音频生成AIGC生成音频基本原理输入文本、音符序列或其他条件信息来生成对应的音频。语音合成任务,输入可以是文本字符串音乐生成任务,输入可以是音符序列或和弦进行;环境音效生成,输入是描述音效类型的标签或参数。输入条件信息1模型会利用学到的音频数据分布规律来合成音频波形。生成的音频可以是语音、音乐或环境音效等,具体取决于输入的条件信息和模型的训练目标。生成音频2
(4)后处理AIGC生成音频基本原理进行后处理工作进一步提高其质量,包括调整音高、音量和音色等参数,以使生成的音频更加符合要求或特定的应用场景。优化生成视频经过后处理的音频即为最终结果,可以供用户直接使用,也可以进一步进行编辑和加工。输出最终结果
AIGC生成音频常用工具工具名称功能特点豆包支持一键生成中文歌曲,提供多种音乐风格、情绪、音色选择,可自定义歌词,生成的音乐可下载、分享或发布讯飞智作以智能配音服务为特色,也具备一定音乐生成相关功能。可为内容生产者提供文字转语音、语音合成等工具,还拥有AI工具箱可用于创作相关网易天音一站式AI音乐创作工具,功能全面。具备智能编曲功能,能根据用户输入的关键词或和弦走向,一键渲染生成完整的歌曲编曲天工AI在线音乐创作平台,可以根据歌词或音乐风格生成原创歌曲Soundful专注于生成背景音乐,支持多种风格和场景,适合视频配乐和广告制作
AIGC生成视频03
AIGC生成
您可能关注的文档
- DB62T 4139-2020 循环型社区建设规范.pdf
- DB62T 4118-2020 碧桃栽培技术规程.pdf
- DB62T 4135-2020 抗冲改性聚氯乙烯(PVC-M)管材高速冲击试验方法.pdf
- DB62T 4149-2020 绵羊腹腔镜输精技术规程.pdf
- DB62T 4157-2020 杂交构树袋装发酵饲料生产技术规范.pdf
- DB44_T 2608-2025 伴生放射性矿开发利用场地土壤放射性污染状况调查技术导则.pdf
- DB44_T 2607.4-2025 滨海蓝碳碳汇能力调查与核算技术指南 第4部分:盐沼.pdf
- DB43_T 3178-2024 烟叶农场建设管理要求.pdf
- DB37_T 4838-2025 含氢分布式综合能源系统运行优化指南.pdf
- DB37_T 4834-2025 高速公路集中养护工作指南.pdf
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)