dsProject/设计思路.md at d4d5bf812c9d43f2f6d52e00ff0e9e9152937fa0

huanghai/dsProject

Fork 0

Files

HuangHai d4d5bf812c 'commit'

2025-08-20 14:02:57 +08:00

3.9 KiB

Raw Blame History

1. 用户输入原始提示词，利用大模型帮助用户扩句，让语言描述更具体

(1) 用户输入的原始提示词：下雨天，一个工人父亲背着一个穿红色雨衣的小女孩走在回家的路上

(2) 期望的提示词：雨天街头，一位头戴黄色安全帽、身穿荧光黄安全背心与棕色外套、搭配蓝色牛仔裤和棕色工装靴的中国工人，背着一个中国小女孩。工人脖子上侧挂一个小熊玩偶包，拖住小女孩臀部的手同时挂着一袋小熊饼干。小女孩双手搂着工人的脖子。小女孩穿红色雨衣，戴红色雨衣帽。两个人露出微笑。背景是居民楼和树木，地面潮湿，氛围温馨。

(3) 办法：思路：把“提示词”拆成 4 个「可空」字段，并用「占位符」告诉用户“没有人就把人留空”。这样既保留结构化，又允许 0-N 个任意主体。

字段必填？举例（有人）举例（无人/多主体）时间-天气-光 ✅ 傍晚小雨，路灯刚亮清晨薄雾，侧逆光场景-地点 ✅ 老城区石板路空旷高速公路主体列表 ❌ 工人父亲（背）+ 小女孩（红雨衣）两只橘猫（打闹）+ 一辆翻倒的单车氛围-情绪 ✅ 温馨寂静、诡异

写法规则 • 没有主体就写“无”。 • 多个主体用“+”连接，括号里给动作或姿态。 • 允许“非人”主体：猫、狗、车、无人机、落叶、海浪…… 一句话「万能骨架」（可空字段用括号表示可删） [时间-天气-光] 的 [场景]（，[主体1(动作)]）（与/和/被）[主体2(动作)]）（，整体氛围[情绪]）。

示例对比有人： “傍晚小雨的菜市场门口，一位戴斗笠的老奶奶牵着穿红雨鞋的小女孩，氛围温暖。” 无人： “清晨薄雾的山间公路，无，氛围寂静。” 多主体： “深夜暴雨的城市广场，一只黑伞被风吹翻+一辆倒地的外卖车+散落的黄色外卖箱，氛围慌乱。”

UI 落地小技巧把「主体列表」做成可增删的 Tag：用户点“+”就能加“猫/车/无人机”。主体为空时，输入框实时出现灰色占位符： “此处可填 0~N 个主体（人/动物/物体），没有就留空”。提供「随机示例」按钮，每次刷新给出有人/无人/多主体 3 种示范，让用户直观感受差异。这样模板始终通用，不会因为“有没有人”而失效。

2、模型生成图片

根据提示词生成图片，用户不满意可以重新生成，或者退回上一步修改提示词再次生成。每次生成的图片都要有记录，除非用户手动删除

3、将用户选择的满意的图片提交给豆包

基本的提示词如下：以这张图片为首帧，帮我生成一个5秒的视频提示词。提示词包括：镜号、运镜、画面内容

豆包将返回一个类似如下内容的文本：

镜号	运镜	画面内容
1	固定镜头	穿着黄色安全帽、反光背心的工人背着小女孩，左手抱着小熊玩偶，两人脸上洋溢着幸福的笑容，背景是老旧居民楼和湿漉漉的路面。
2	推镜头	镜头从两人全身慢慢推近至两人上半身，聚焦两人亲密温馨的神态。
3	平移镜头	镜头从两人正面平移至侧面，展现工人的朴实与小女孩的可爱。
4	拉镜头	镜头逐渐拉远，展现两人在居民楼间道路上的整体场景。
5	固定镜头	定格在两人互动的画面，突出亲情的温暖氛围。

4、让用户手动修改镜头脚本，然后满意后提交

采用异步生成策略，用户提交后，豆包会生成一个任务ID，用户可以通过任务ID查询任务进度，并下载任务结果。用户可以重新生成，也可以退回上一步修改镜头脚本，重新生成。

3.9 KiB Raw Blame History Unescape Escape

1. 用户输入原始提示词，利用大模型帮助用户扩句，让语言描述更具体

2、模型生成图片

3、将用户选择的满意的图片提交给豆包

4、让用户手动修改镜头脚本，然后满意后提交

3.9 KiB

Raw Blame History