This commit is contained in:
2025-08-20 10:51:37 +08:00
parent afa29b93c6
commit a8917f879b
2 changed files with 66 additions and 1 deletions

View File

@@ -2,4 +2,5 @@
https://baijiahao.baidu.com/s?id=1832704271457492977&wfr=spider&for=pc https://baijiahao.baidu.com/s?id=1832704271457492977&wfr=spider&for=pc
# 官方例子 # 官方例子
https://github.com/volcengine/volc-sdk-python/blob/main/volcengine/example/visual/cv_submit_task.py https://github.com/volcengine/volc-sdk-python/blob/main/volcengine/example/visual/cv_submit_task.py

View File

@@ -0,0 +1,64 @@
### 1. 用户输入原始提示词,利用大模型帮助用户扩句,让语言描述更具体
(1) 用户输入的原始提示词:
下雨天,一个工人父亲背着一个穿红色雨衣的小女孩走在回家的路上
(2) 期望的提示词:
雨天街头,一位头戴黄色安全帽、身穿荧光黄安全背心与棕色外套、搭配蓝色牛仔裤和棕色工装靴的中国工人,背着一个中国小女孩。工人脖子上侧挂一个小熊玩偶包,拖住小女孩臀部的手同时挂着一袋小熊饼干。小女孩双手搂着工人的脖子。小女孩穿红色雨衣,戴红色雨衣帽。两个人露出微笑。背景是居民楼和树木,地面潮湿,氛围温馨。
(3) 办法:
思路:把“提示词”拆成 4 个「可空」字段,并用「占位符」告诉用户“没有人就把人留空”。
这样既保留结构化,又允许 0-N 个任意主体。
字段 必填? 举例(有人) 举例(无人/多主体)
时间-天气-光 ✅ 傍晚小雨,路灯刚亮 清晨薄雾,侧逆光
场景-地点 ✅ 老城区石板路 空旷高速公路
主体列表 ❌ 工人父亲(背)+ 小女孩(红雨衣) 两只橘猫(打闹)+ 一辆翻倒的单车
氛围-情绪 ✅ 温馨 寂静、诡异
写法规则
• 没有主体就写“无”。
• 多个主体用“+”连接,括号里给动作或姿态。
• 允许“非人”主体:猫、狗、车、无人机、落叶、海浪……
一句话「万能骨架」(可空字段用括号表示可删)
[时间-天气-光] 的 [场景][主体1(动作)])(与/和/被)[主体2(动作)])(,整体氛围[情绪])。
示例对比
有人:
“傍晚小雨的菜市场门口,一位戴斗笠的老奶奶牵着穿红雨鞋的小女孩,氛围温暖。”
无人:
“清晨薄雾的山间公路,无,氛围寂静。”
多主体:
“深夜暴雨的城市广场,一只黑伞被风吹翻+一辆倒地的外卖车+散落的黄色外卖箱,氛围慌乱。”
UI 落地小技巧
把「主体列表」做成可增删的 Tag用户点“+”就能加“猫/车/无人机”。
主体为空时,输入框实时出现灰色占位符:
“此处可填 0~N 个主体(人/动物/物体),没有就留空”。
提供「随机示例」按钮,每次刷新给出有人/无人/多主体 3 种示范,让用户直观感受差异。
这样模板始终通用,不会因为“有没有人”而失效。
#### 2、模型生成图片
根据提示词生成图片,用户不满意可以重新生成,或者退回上一步修改提示词再次生成。每次生成的图片都要有记录,除非用户手动删除
#### 3、将用户选择的满意的图片提交给豆包
基本的提示词如下:
以这张图片为首帧帮我生成一个5秒的视频提示词。提示词包括镜号、运镜、画面内容
豆包将返回一个类似如下内容的文本:
|镜号|运镜|画面内容|
| :---: | :---: | --- |
|1|固定镜头|穿着黄色安全帽、反光背心的工人背着小女孩,左手抱着小熊玩偶,两人脸上洋溢着幸福的笑容,背景是老旧居民楼和湿漉漉的路面。|
|2|推镜头|镜头从两人全身慢慢推近至两人上半身,聚焦两人亲密温馨的神态。|
|3|平移镜头|镜头从两人正面平移至侧面,展现工人的朴实与小女孩的可爱。|
|4|拉镜头|镜头逐渐拉远,展现两人在居民楼间道路上的整体场景。|
|5|固定镜头|定格在两人互动的画面,突出亲情的温暖氛围。|
#### 4、让用户手动修改镜头脚本然后满意后提交
采用异步生成策略用户提交后豆包会生成一个任务ID用户可以通过任务ID查询任务进度并下载任务结果。
用户可以重新生成,也可以退回上一步修改镜头脚本,重新生成。