diff --git a/dsLightRag/JiMeng/即梦文档.txt b/dsLightRag/JiMeng/即梦文档.md similarity index 82% rename from dsLightRag/JiMeng/即梦文档.txt rename to dsLightRag/JiMeng/即梦文档.md index abc352b8..8e5d206e 100644 --- a/dsLightRag/JiMeng/即梦文档.txt +++ b/dsLightRag/JiMeng/即梦文档.md @@ -2,4 +2,5 @@ https://baijiahao.baidu.com/s?id=1832704271457492977&wfr=spider&for=pc # 官方例子 -https://github.com/volcengine/volc-sdk-python/blob/main/volcengine/example/visual/cv_submit_task.py \ No newline at end of file +https://github.com/volcengine/volc-sdk-python/blob/main/volcengine/example/visual/cv_submit_task.py + diff --git a/dsLightRag/JiMeng/设计思路.md b/dsLightRag/JiMeng/设计思路.md new file mode 100644 index 00000000..5f58ea3e --- /dev/null +++ b/dsLightRag/JiMeng/设计思路.md @@ -0,0 +1,64 @@ + +### 1. 用户输入原始提示词,利用大模型帮助用户扩句,让语言描述更具体 + +(1) 用户输入的原始提示词: +下雨天,一个工人父亲背着一个穿红色雨衣的小女孩走在回家的路上 + +(2) 期望的提示词: +雨天街头,一位头戴黄色安全帽、身穿荧光黄安全背心与棕色外套、搭配蓝色牛仔裤和棕色工装靴的中国工人,背着一个中国小女孩。工人脖子上侧挂一个小熊玩偶包,拖住小女孩臀部的手同时挂着一袋小熊饼干。小女孩双手搂着工人的脖子。小女孩穿红色雨衣,戴红色雨衣帽。两个人露出微笑。背景是居民楼和树木,地面潮湿,氛围温馨。 + +(3) 办法: +思路:把“提示词”拆成 4 个「可空」字段,并用「占位符」告诉用户“没有人就把人留空”。 +这样既保留结构化,又允许 0-N 个任意主体。 + + +字段 必填? 举例(有人) 举例(无人/多主体) +时间-天气-光 ✅ 傍晚小雨,路灯刚亮 清晨薄雾,侧逆光 +场景-地点 ✅ 老城区石板路 空旷高速公路 +主体列表 ❌ 工人父亲(背)+ 小女孩(红雨衣) 两只橘猫(打闹)+ 一辆翻倒的单车 +氛围-情绪 ✅ 温馨 寂静、诡异 + +写法规则 +• 没有主体就写“无”。 +• 多个主体用“+”连接,括号里给动作或姿态。 +• 允许“非人”主体:猫、狗、车、无人机、落叶、海浪…… +一句话「万能骨架」(可空字段用括号表示可删) +[时间-天气-光] 的 [场景](,[主体1(动作)])(与/和/被)[主体2(动作)])(,整体氛围[情绪])。 + +示例对比 +有人: +“傍晚小雨的菜市场门口,一位戴斗笠的老奶奶牵着穿红雨鞋的小女孩,氛围温暖。” +无人: +“清晨薄雾的山间公路,无,氛围寂静。” +多主体: +“深夜暴雨的城市广场,一只黑伞被风吹翻+一辆倒地的外卖车+散落的黄色外卖箱,氛围慌乱。” + +UI 落地小技巧 +把「主体列表」做成可增删的 Tag:用户点“+”就能加“猫/车/无人机”。 +主体为空时,输入框实时出现灰色占位符: +“此处可填 0~N 个主体(人/动物/物体),没有就留空”。 +提供「随机示例」按钮,每次刷新给出有人/无人/多主体 3 种示范,让用户直观感受差异。 +这样模板始终通用,不会因为“有没有人”而失效。 + + +#### 2、模型生成图片 +根据提示词生成图片,用户不满意可以重新生成,或者退回上一步修改提示词再次生成。每次生成的图片都要有记录,除非用户手动删除 + + +#### 3、将用户选择的满意的图片提交给豆包 +基本的提示词如下: +以这张图片为首帧,帮我生成一个5秒的视频提示词。提示词包括:镜号、运镜、画面内容 + +豆包将返回一个类似如下内容的文本: + +|镜号|运镜|画面内容| +| :---: | :---: | --- | +|1|固定镜头|穿着黄色安全帽、反光背心的工人背着小女孩,左手抱着小熊玩偶,两人脸上洋溢着幸福的笑容,背景是老旧居民楼和湿漉漉的路面。| +|2|推镜头|镜头从两人全身慢慢推近至两人上半身,聚焦两人亲密温馨的神态。| +|3|平移镜头|镜头从两人正面平移至侧面,展现工人的朴实与小女孩的可爱。| +|4|拉镜头|镜头逐渐拉远,展现两人在居民楼间道路上的整体场景。| +|5|固定镜头|定格在两人互动的画面,突出亲情的温暖氛围。| + +#### 4、让用户手动修改镜头脚本,然后满意后提交 +采用异步生成策略,用户提交后,豆包会生成一个任务ID,用户可以通过任务ID查询任务进度,并下载任务结果。 +用户可以重新生成,也可以退回上一步修改镜头脚本,重新生成。