如何才能高效的产出AI类视频.docx

下载文档

2
0
约7.08千字
约 15页
2025-02-16 发布于重庆
举报
版权申诉
保障服务

如何才能高效的产出AI类视频.docx

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

如何才能高效的产出AI类视频

现在很多圈友做类似达人秀变装类型的视频，可能需要1个小时甚至更长时间才能做好一条视频。目前我也在做达人秀这个赛道，我通过自己总结的这套工作流可以做到平均15分钟左右产出一条视频，好的情况下可以做到10分钟左右可以产出一条。至于视频的效果，口说无凭，上视频展示~

[63_1738997583_raw.mp4]

[50_1738997466_raw.mp4]

如果看到这里，如果你认同我产出视频的效果，且仍然对我的整套工作流感兴趣的话，那么下面我将介绍整体的思路和所用到的工具

一、工作流整体思路及需要的工具

1??工作流拆解

如果想要提升自己的工作效率，就需要从两方面下手：1、节省不必要的时间；2、并发式工作（多项工作同时进行）。因此我的整体思路是这样的：

首先拆解我的对标账号，拆解它的常规模板，一般情况下会发现达人秀变装视频是由两到三段的变装+评委镜头+一个跳舞或者其他的才艺表演所组成的；

分析用到的道具：

画图部分：考虑到追求效率，肯定是没有功夫在MJ上面一个个roll图，那么更具稳定性的选择肯定是flux+lora的组合，一般情况下我会一个提示词出八张图，里面总有一张是能用的，挑出来就好了。需要变装的部分就要配合即梦做一些微调，视频的品控就基本上能保证了

视频部分：变装部分肯定是由runway搞定的，跳舞部分runway生成的就比较生硬，需要用其他AI模型来实现。可以考虑可灵、海螺、智谱清影等等，这里我选用了智谱清影，便宜效果也说的过去

剪辑部分：目前是采用了之前Gary教练的卡标签的逻辑

除了上述的这些大家都不陌生的一些工具和手法，帮助我提效的关键点还有两个，就是我的flux提示词智能体和runway提示词智能体，这两块极大的提升了我的整体工作流效率。（具体操作流程我们后面去讲）

并发的逻辑：

利用好roll图和roll视频的等待时间，实际上可以同时做这三步，就相当于做三个视频

2??所需工具

绘图模型：Flux（本地或者云算力）；

视频模型：runway、搭配一个其他效果好的视频模型；

临时存储空间：Droper（我是mac，不知道win有没有。这个很好用，待会我们讲具体操作流程的时候再讲具体用法）；

可以做Agent的平台，GPTs，Dify，chatbox，coze啥的都行

二、具体操作方法：

1??文生图部分：

（1）文生图提示词智能体的打造

想必大家很多人都是用多模态模型进行的提示词反推，如果没有的话准备过提示词库也是可以的。这部分的内容其实都是我们给大模型准备智能体设定的精华。在有反推图片的上下文的对话里或喂给模型资料后，你可以这么问：

请你仔细的阅读我们之间的对话，我给你的照片都是油管爆款视频的一些截图，请你在其中找到共性，并总结成prompt返回给我

这种情况下，大模型会给我们返回出一些它总结出来的图片的共性，再根据我们的场景需求进行调整，就可以产出一个批量输出flux的提示词的智能体。

当然，如果有小伙伴跟我一样在自己串API去做这件事儿，由于其实我们规定的已经很具体了，留给AI发挥的只有让它自己进行创意加工。所以不需要特别强的性能的模型（比如说，现在大家天天挂在嘴边的deepseek-r1，泛化太强了，天天往原子量子上扯），只要一些好用的国外大模型。比如说cluade，去找一些便宜的中转IP用就OK，因为这个提示词生成还是挺费token的，动不动就上万的token。deepseek-v3也是个不错的选择，便宜大碗。

通过整理和手工微调，我得到了这样一段提示词：

Markdown

你是一位专为AGT（美国达人秀）舞台创作变装表演提示词的AI助手。您的任务是生成三个连续的、相互关联的场景提示词，每组包含三个提示词。请严格遵循以下规则：

技术规格要求：

相机参数：每个提示词开头需自然融入以下参数：

Shoton[相机型号],[镜头参数],[光圈值],[快门速度],[ISO值]

画面构图：

始终保持竖屏构图，针对手机屏幕优化。

表演者占据画面高度的4/5。

所有场景均在舞台上发生。

出场人物为两位女生。

场景序列要求：

场景1：初始登场

双人优雅站姿，面向前方。

着装统一，身着礼服。

场景2：视觉转换

一人保持场景1的形态。

另一人呈现一个具体的非人物元素（如常见物品）。

保持色彩统一。

场景3：最终呈现

仅剩一个人物。

完成主题转化，视觉效果统一。

呼应初始色调。

场景必备元素：

表演者位置：明确描述位置（左、右）。

服装细节：详细描述服装设计。

灯光与特效：包含AGT特有的舞台元素（蓝色灯光、射灯、烟雾效果）。

舞台氛围：描述背景和空间关系。

写作规范：

使用描述性的现在时语言。

禁止使用变化过程词汇，仅描述可见内容。

保持与原始服装的颜色一致性。

包含专业摄影术语

您可能关注的文档

文档评论（0）

如此醉 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

如何才能高效的产出AI类视频.docx