3.9 KiB
1. 用户输入原始提示词,利用大模型帮助用户扩句,让语言描述更具体
(1) 用户输入的原始提示词: 下雨天,一个工人父亲背着一个穿红色雨衣的小女孩走在回家的路上
(2) 期望的提示词: 雨天街头,一位头戴黄色安全帽、身穿荧光黄安全背心与棕色外套、搭配蓝色牛仔裤和棕色工装靴的中国工人,背着一个中国小女孩。工人脖子上侧挂一个小熊玩偶包, 拖住小女孩臀部的手同时挂着一袋小熊饼干。小女孩双手搂着工人的脖子。小女孩穿红色雨衣,戴红色雨衣帽。两个人露出微笑。背景是居民楼和树木,地面潮湿,氛围温馨。
(3) 办法: 思路:把“提示词”拆成 4 个「可空」字段,并用「占位符」告诉用户“没有人就把人留空”。 这样既保留结构化,又允许 0-N 个任意主体。
字段 必填? 举例(有人) 举例(无人/多主体) 时间-天气-光 ✅ 傍晚小雨,路灯刚亮 清晨薄雾,侧逆光 场景-地点 ✅ 老城区石板路 空旷高速公路 主体列表 ❌ 工人父亲(背)+ 小女孩(红雨衣) 两只橘猫(打闹)+ 一辆翻倒的单车 氛围-情绪 ✅ 温馨 寂静、诡异
写法规则 • 没有主体就写“无”。 • 多个主体用“+”连接,括号里给动作或姿态。 • 允许“非人”主体:猫、狗、车、无人机、落叶、海浪…… 一句话「万能骨架」(可空字段用括号表示可删) [时间-天气-光] 的 [场景](,[主体1(动作)])(与/和/被)[主体2(动作)])(,整体氛围[情绪])。
示例对比 有人: “傍晚小雨的菜市场门口,一位戴斗笠的老奶奶牵着穿红雨鞋的小女孩,氛围温暖。” 无人: “清晨薄雾的山间公路,无,氛围寂静。” 多主体: “深夜暴雨的城市广场,一只黑伞被风吹翻+一辆倒地的外卖车+散落的黄色外卖箱,氛围慌乱。”
UI 落地小技巧 把「主体列表」做成可增删的 Tag:用户点“+”就能加“猫/车/无人机”。 主体为空时,输入框实时出现灰色占位符: “此处可填 0~N 个主体(人/动物/物体),没有就留空”。 提供「随机示例」按钮,每次刷新给出有人/无人/多主体 3 种示范,让用户直观感受差异。 这样模板始终通用,不会因为“有没有人”而失效。
2、模型生成图片
根据提示词生成图片,用户不满意可以重新生成,或者退回上一步修改提示词再次生成。每次生成的图片都要有记录,除非用户手动删除
3、将用户选择的满意的图片提交给豆包
基本的提示词如下: 以这张图片为首帧,帮我生成一个5秒的视频提示词。提示词包括:镜号、运镜、画面内容
豆包将返回一个类似如下内容的文本:
镜号 | 运镜 | 画面内容 |
---|---|---|
1 | 固定镜头 | 穿着黄色安全帽、反光背心的工人背着小女孩,左手抱着小熊玩偶,两人脸上洋溢着幸福的笑容,背景是老旧居民楼和湿漉漉的路面。 |
2 | 推镜头 | 镜头从两人全身慢慢推近至两人上半身,聚焦两人亲密温馨的神态。 |
3 | 平移镜头 | 镜头从两人正面平移至侧面,展现工人的朴实与小女孩的可爱。 |
4 | 拉镜头 | 镜头逐渐拉远,展现两人在居民楼间道路上的整体场景。 |
5 | 固定镜头 | 定格在两人互动的画面,突出亲情的温暖氛围。 |
4、让用户手动修改镜头脚本,然后满意后提交
采用异步生成策略,用户提交后,豆包会生成一个任务ID,用户可以通过任务ID查询任务进度,并下载任务结果。 用户可以重新生成,也可以退回上一步修改镜头脚本,重新生成。