古装短视频：从脚本到成片的完整管线

版本v1.0.0

适用场景古装/人像短视频，需口型同步

产出质量S 9.5/10

核心模型Kling O3

辅助工具GPT Image 2 / LibTV / VoxCPM2 / FFmpeg

平均耗时8-12 分钟/条

单条成本¥0（LibTV VIP 额度）

§1 决策前提

什么时候不该用这套方法。反向筛选比正向推荐更重要——读这一节决定是否值得继续。

适用条件

人物主体明确，需面部特写或半身构图
需要口型与音频同步（对话、独白、情绪表达）
古装/汉服/丝织物为主的服装材质
情绪表达需求细腻（忧伤、克制、含蓄）

不适用场景（会翻车）

❌ 高动态战斗场景

Kling O3 动作生成能力弱于 Seedance 2.0，战斗场景请用 Seedance 高动态管线

❌ 复杂多人互动

Kling 在多人场景下角色一致性容易崩溃，建议降级为单人+环境

❌ 快速出片不在意口型

Happy Horse 1.0 3 分钟出片，零审核，不需要音画同步时首选

§2 管线总图

1. 出图GPT Image 2
9:16 portrait

→

2. 图筛选人工
4 条挑图标准

→

3. 图生视频Kling O3
singleImage2video

→

4. 配音合成VoxCPM2 + FFmpeg
（可选，Kling原生已含）

步骤	工具	关键参数	耗时
1. 出图	GPT Image 2	9:16, 高细节, photorealistic	~30s
2. 图筛选	人工	4 项质检标准（见 §3.2）	~1min
3. 图生视频	Kling O3	singleImage2video, duration=10, enableSound=on	~5-8min
4. 配音合成	VoxCPM2 + FFmpeg	仅在不需要原生音画同步时	~2min

§3 分步拆解

3.1 出图：GPT Image 2 参考图生成

做什么：用英文精炼 prompt 生成 9:16 竖屏古装人像参考图，作为 Kling 图生视频的输入。

为什么这样做：

为什么先用 Image2 出图而非 Kling 文生视频：Kling 文生视频缺乏对丝绸/汉服材质的精确理解。先出图可以精确控制服装纹理（porosity）、面部光影、情绪线条，图生视频继承这些细节。
为什么用英文 prompt：GPT Image 2 对英文 prompt 的纹理描述理解准确度显著高于中文。"silk porosity" 比 "丝绸透气感" 更易被正确渲染。
为什么强调 photorealistic + film grain：消除"一眼 AI"的塑料肤质感。film grain 能有效破坏 AI 图像的过平滑特征。

参考图 Prompt 模板

Cinematic portrait of a Chinese beauty in traditional hanfu,
soft diffused window light from the [LEFT/RIGHT],
visible skin texture with subtle pores,
no plastic skin, photorealistic,
[EMOTION] expression, [FACIAL_DETAIL],
moist eyes reflecting light,
9:16 aspect ratio, shallow depth of field,
warm golden-hour tone, 4K film grain

变量	取值范围	效果差异
`LEFT/RIGHT`	left / right / top-left	left=面部阴影在右，更有层次；right=平光，适合明快情绪
`EMOTION`	restrained melancholy / serene calm / subtle smile	melancholy=眉头张力，serene=肌肉放松
`FACIAL_DETAIL`	slight eyebrow tension / relaxed features	tension=微表情表达，relaxed=自然态

翻车记录

❌ 眼眶过暗，像"熊猫眼"

prompt 加了 "dramatic eye shadow" 导致。去掉眼部化妆描述，用 "natural makeup, barely visible"

❌ 丝绸材质反光像塑料

"silky smooth" 被解释为塑料光滑感。改为 "raw silk texture, visible weave, matte finish"

❌ 眼泪像水滴不真实

直接 prompt "tears streaming down" 生成的是水滴特效。改为 "moist eyes, subtle tear film reflecting light, not streaming"

❌ 皮肤过白像瓷娃娃

GPT Image 2 对东方女性默认渲染偏白。加 "natural Asian skin tone, slight warmth, visible capillaries"

3.2 图筛选：人工质检标准

做什么：生成 4-6 张图后，按 4 项标准筛选，选最优 1 张进入视频生成。

为什么这样做：图生视频的质量上限取决于参考图。Kling 继承参考图的所有瑕疵——手指异常、服装纹理错误、光影不合理——都会被放大成视频中的明显缺陷。

4 项质检标准

手部完整性：手指数量正确，无融合，无异常弯曲。这是 AI 出图最高频的翻车点。
服装纹理：丝绸/汉服纹理清晰可辨，无模糊块状区域。模糊的纹理在视频中会闪烁。
面部光影：光源方向一致，无多光源打架。不一致的光影在视频中表现为面部 "跳动"。
情绪准确度：微表情（眉头、眼角、嘴角）与目标情绪匹配。

3.3 图生视频：Kling O3

做什么：将精选参考图通过 LibTV CLI 提交给 Kling O3，生成带原生音画的视频。

为什么这样做：

为什么选 singleImage2video 而非 mixed2video：mixed2video（图+音频直传）参数组合在 LibTV 已验证不兼容，会静默失败。singleImage2video + enableSound 是已验证的稳定路径。
为什么 duration=10 而非 5：5 秒动作刚展开就结束了，10 秒给情绪足够的展开空间。Kling 在 10 秒时长下动作节奏最自然。
为什么 quality=high：standard 模式下口型同步精度显著下降，high 模式有更好的面部追踪。

Kling O3 参数

{
  "model": "kling-v3-omni",
  "modeType": "singleImage2video",
  "duration": 10,
  "ratio": "9:16",
  "quality": "high",
  "enableSound": "on"
}

翻车记录

❌ 审核卡在 11%→40% 超过 10 分钟

纯自然现象。最长等过 8 分钟，未出现永久卡死。不要取消重试——取消后重建任务审核重新排队。

❌ 音画同步偏移

enableSound 默认 on，但偶尔出现 0.3s 左右的口型延迟。目前无设置级修复方案，后期可用 DaVinci Resolve 微调。

❌ 眼泪在视频中消失

参考图中的 tear film 被 Kling 解释为"光影效果"而非"液体"。泪水场景需在 prompt 中显式强调 "tears visibly rolling down cheek, wet trail"。

3.4 配音合成（后处理，可选）

做什么：当 Kling 原生音频不满足需求时（如需要特定方言、特定情绪语气），用 VoxCPM2 生成音频 + FFmpeg 合成替换。

为什么这样做：Kling 原生音频目前只有普通话，方言（如四川话）需要外部 TTS。VoxCPM2 是当前质量最高的本地 TTS 方案。

FFmpeg 合成参数

ffmpeg -y -i video.mp4 -i audio.wav \
  -c:v libx264 -preset fast -crf 23 \
  -c:a aac -b:a 192k \
  -af "volume=6dB" \
  -movflags +faststart output.mp4

§4 参数卡片

以下参数卡可独立引用、截图分享。每条管线的方法论价值浓缩于此。

GPT Image 2 · 古装人像

Cinematic portrait of a Chinese beauty in traditional hanfu,
soft diffused window light from the left,
visible skin texture with subtle pores,
no plastic skin, photorealistic,
restrained melancholy expression, slight eyebrow tension,
moist eyes reflecting light,
9:16 aspect ratio, shallow depth of field,
warm golden-hour tone, 4K film grain

Kling O3 · 图生视频

libtv node create "视频名称" \
  -t video \
  -s model="kling-v3-omni" \
  -s modeType="singleImage2video" \
  -s duration=10 \
  -s ratio="9:16" \
  -s quality="high" \
  --left "<image_nodeKey>" \
  --prompt "时间轴叙事的动作描述..." \
  --run

效果对照

参数	值 A	值 B	效果差异
duration	5s	10s	10s 动作展开充分，微表情自然；5s 偏急促
quality	standard	high	high 面部追踪明显更好，口型同步精度提升
enableSound	off	on	on=原生音画同步，off=需后期配音
灯光方向	from the left	from the right	left=面部阴影在右，层次感强；right=平光

§5 验证记录

日期	版本	产出	质量	备注
2026-06-03	v1.0.0	古装美女四川话版	9.5/10	首次 Kling O3 音画同步验证
2026-06-03	v1.0.0	古装美女流泪版	9.5/10	出图 3 次迭代，Kling 2 次调参

§6 版本演进

v1.0.0 (2026-06-03)：初版。覆盖 GPT Image 2 出图 → Kling O3 图生视频完整管线。含 7 个翻车案例。