'commit'

2025-08-20 10:51:37 +08:00
parent afa29b93c6
commit a8917f879b
2 changed files with 66 additions and 1 deletions
--- a/dsLightRag/JiMeng/即梦文档.txt
+++ b/dsLightRag/JiMeng/即梦文档.txt
@@ -2,4 +2,5 @@
 https://baijiahao.baidu.com/s?id=1832704271457492977&wfr=spider&for=pc
 # 官方例子
-https://github.com/volcengine/volc-sdk-python/blob/main/volcengine/example/visual/cv_submit_task.py
+https://github.com/volcengine/volc-sdk-python/blob/main/volcengine/example/visual/cv_submit_task.py
--- a/dsLightRag/JiMeng/设计思路.md
+++ b/dsLightRag/JiMeng/设计思路.md
@@ -0,0 +1,64 @@
 ### 1. 用户输入原始提示词，利用大模型帮助用户扩句，让语言描述更具体
 (1) 用户输入的原始提示词：
 下雨天，一个工人父亲背着一个穿红色雨衣的小女孩走在回家的路上
 (2) 期望的提示词：
 雨天街头，一位头戴黄色安全帽、身穿荧光黄安全背心与棕色外套、搭配蓝色牛仔裤和棕色工装靴的中国工人，背着一个中国小女孩。工人脖子上侧挂一个小熊玩偶包，拖住小女孩臀部的手同时挂着一袋小熊饼干。小女孩双手搂着工人的脖子。小女孩穿红色雨衣，戴红色雨衣帽。两个人露出微笑。背景是居民楼和树木，地面潮湿，氛围温馨。
 (3) 办法：
 思路：把“提示词”拆成 4 个「可空」字段，并用「占位符」告诉用户“没有人就把人留空”。
 这样既保留结构化，又允许 0-N 个任意主体。
 字段	        必填？	举例（有人）	                举例（无人/多主体）
 时间-天气-光	✅	    傍晚小雨，路灯刚亮	            清晨薄雾，侧逆光
 场景-地点	✅	    老城区石板路	                空旷高速公路
 主体列表	    ❌	    工人父亲（背）+ 小女孩（红雨衣）	两只橘猫（打闹）+ 一辆翻倒的单车
 氛围-情绪	✅	     温馨	                    寂静、诡异
 写法规则
 • 没有主体就写“无”。
 • 多个主体用“+”连接，括号里给动作或姿态。
 • 允许“非人”主体：猫、狗、车、无人机、落叶、海浪……
 一句话「万能骨架」（可空字段用括号表示可删）
 [时间-天气-光] 的 [场景]（，[主体1(动作)]）（与/和/被）[主体2(动作)]）（，整体氛围[情绪]）。
 示例对比
 有人：
 “傍晚小雨的菜市场门口，一位戴斗笠的老奶奶牵着穿红雨鞋的小女孩，氛围温暖。”
 无人：
 “清晨薄雾的山间公路，无，氛围寂静。”
 多主体：
 “深夜暴雨的城市广场，一只黑伞被风吹翻+一辆倒地的外卖车+散落的黄色外卖箱，氛围慌乱。”
 UI 落地小技巧
 把「主体列表」做成可增删的 Tag：用户点“+”就能加“猫/车/无人机”。
 主体为空时，输入框实时出现灰色占位符：
 “此处可填 0~N 个主体（人/动物/物体），没有就留空”。
 提供「随机示例」按钮，每次刷新给出有人/无人/多主体 3 种示范，让用户直观感受差异。
 这样模板始终通用，不会因为“有没有人”而失效。
 #### 2、模型生成图片
 根据提示词生成图片，用户不满意可以重新生成，或者退回上一步修改提示词再次生成。每次生成的图片都要有记录，除非用户手动删除
 #### 3、将用户选择的满意的图片提交给豆包
 基本的提示词如下：
 以这张图片为首帧，帮我生成一个5秒的视频提示词。提示词包括：镜号、运镜、画面内容
 豆包将返回一个类似如下内容的文本：
 |镜号|运镜|画面内容|
 | :---: | :---: | --- |
 |1|固定镜头|穿着黄色安全帽、反光背心的工人背着小女孩，左手抱着小熊玩偶，两人脸上洋溢着幸福的笑容，背景是老旧居民楼和湿漉漉的路面。|
 |2|推镜头|镜头从两人全身慢慢推近至两人上半身，聚焦两人亲密温馨的神态。|
 |3|平移镜头|镜头从两人正面平移至侧面，展现工人的朴实与小女孩的可爱。|
 |4|拉镜头|镜头逐渐拉远，展现两人在居民楼间道路上的整体场景。|
 |5|固定镜头|定格在两人互动的画面，突出亲情的温暖氛围。|
 #### 4、让用户手动修改镜头脚本，然后满意后提交
 采用异步生成策略，用户提交后，豆包会生成一个任务ID，用户可以通过任务ID查询任务进度，并下载任务结果。
 用户可以重新生成，也可以退回上一步修改镜头脚本，重新生成。