古装短视频:从脚本到成片的完整管线

版本v1.0.0
适用场景古装/人像短视频,需口型同步
产出质量S 9.5/10
核心模型Kling O3
辅助工具GPT Image 2 / LibTV / VoxCPM2 / FFmpeg
平均耗时8-12 分钟/条
单条成本¥0(LibTV VIP 额度)

§1 决策前提

什么时候不该用这套方法。反向筛选比正向推荐更重要——读这一节决定是否值得继续。

适用条件

不适用场景(会翻车)

❌ 高动态战斗场景
Kling O3 动作生成能力弱于 Seedance 2.0,战斗场景请用 Seedance 高动态管线
❌ 复杂多人互动
Kling 在多人场景下角色一致性容易崩溃,建议降级为单人+环境
❌ 快速出片不在意口型
Happy Horse 1.0 3 分钟出片,零审核,不需要音画同步时首选

§2 管线总图

1. 出图GPT Image 2
9:16 portrait
2. 图筛选人工
4 条挑图标准
3. 图生视频Kling O3
singleImage2video
4. 配音合成VoxCPM2 + FFmpeg
(可选,Kling原生已含)
步骤工具关键参数耗时
1. 出图GPT Image 29:16, 高细节, photorealistic~30s
2. 图筛选人工4 项质检标准(见 §3.2)~1min
3. 图生视频Kling O3singleImage2video, duration=10, enableSound=on~5-8min
4. 配音合成VoxCPM2 + FFmpeg仅在不需要原生音画同步时~2min

§3 分步拆解

3.1 出图:GPT Image 2 参考图生成

做什么:用英文精炼 prompt 生成 9:16 竖屏古装人像参考图,作为 Kling 图生视频的输入。

为什么这样做:

参考图 Prompt 模板
Cinematic portrait of a Chinese beauty in traditional hanfu,
soft diffused window light from the [LEFT/RIGHT],
visible skin texture with subtle pores,
no plastic skin, photorealistic,
[EMOTION] expression, [FACIAL_DETAIL],
moist eyes reflecting light,
9:16 aspect ratio, shallow depth of field,
warm golden-hour tone, 4K film grain
变量取值范围效果差异
LEFT/RIGHTleft / right / top-leftleft=面部阴影在右,更有层次;right=平光,适合明快情绪
EMOTIONrestrained melancholy / serene calm / subtle smilemelancholy=眉头张力,serene=肌肉放松
FACIAL_DETAILslight eyebrow tension / relaxed featurestension=微表情表达,relaxed=自然态

翻车记录

❌ 眼眶过暗,像"熊猫眼"
prompt 加了 "dramatic eye shadow" 导致。去掉眼部化妆描述,用 "natural makeup, barely visible"
❌ 丝绸材质反光像塑料
"silky smooth" 被解释为塑料光滑感。改为 "raw silk texture, visible weave, matte finish"
❌ 眼泪像水滴不真实
直接 prompt "tears streaming down" 生成的是水滴特效。改为 "moist eyes, subtle tear film reflecting light, not streaming"
❌ 皮肤过白像瓷娃娃
GPT Image 2 对东方女性默认渲染偏白。加 "natural Asian skin tone, slight warmth, visible capillaries"

3.2 图筛选:人工质检标准

做什么:生成 4-6 张图后,按 4 项标准筛选,选最优 1 张进入视频生成。

为什么这样做:图生视频的质量上限取决于参考图。Kling 继承参考图的所有瑕疵——手指异常、服装纹理错误、光影不合理——都会被放大成视频中的明显缺陷。

4 项质检标准

  1. 手部完整性:手指数量正确,无融合,无异常弯曲。这是 AI 出图最高频的翻车点。
  2. 服装纹理:丝绸/汉服纹理清晰可辨,无模糊块状区域。模糊的纹理在视频中会闪烁。
  3. 面部光影:光源方向一致,无多光源打架。不一致的光影在视频中表现为面部 "跳动"。
  4. 情绪准确度:微表情(眉头、眼角、嘴角)与目标情绪匹配。

3.3 图生视频:Kling O3

做什么:将精选参考图通过 LibTV CLI 提交给 Kling O3,生成带原生音画的视频。

为什么这样做:

Kling O3 参数
{
  "model": "kling-v3-omni",
  "modeType": "singleImage2video",
  "duration": 10,
  "ratio": "9:16",
  "quality": "high",
  "enableSound": "on"
}

翻车记录

❌ 审核卡在 11%→40% 超过 10 分钟
纯自然现象。最长等过 8 分钟,未出现永久卡死。不要取消重试——取消后重建任务审核重新排队。
❌ 音画同步偏移
enableSound 默认 on,但偶尔出现 0.3s 左右的口型延迟。目前无设置级修复方案,后期可用 DaVinci Resolve 微调。
❌ 眼泪在视频中消失
参考图中的 tear film 被 Kling 解释为"光影效果"而非"液体"。泪水场景需在 prompt 中显式强调 "tears visibly rolling down cheek, wet trail"。

3.4 配音合成(后处理,可选)

做什么:当 Kling 原生音频不满足需求时(如需要特定方言、特定情绪语气),用 VoxCPM2 生成音频 + FFmpeg 合成替换。

为什么这样做:Kling 原生音频目前只有普通话,方言(如四川话)需要外部 TTS。VoxCPM2 是当前质量最高的本地 TTS 方案。

FFmpeg 合成参数
ffmpeg -y -i video.mp4 -i audio.wav \
  -c:v libx264 -preset fast -crf 23 \
  -c:a aac -b:a 192k \
  -af "volume=6dB" \
  -movflags +faststart output.mp4

§4 参数卡片

以下参数卡可独立引用、截图分享。每条管线的方法论价值浓缩于此。

GPT Image 2 · 古装人像
Cinematic portrait of a Chinese beauty in traditional hanfu,
soft diffused window light from the left,
visible skin texture with subtle pores,
no plastic skin, photorealistic,
restrained melancholy expression, slight eyebrow tension,
moist eyes reflecting light,
9:16 aspect ratio, shallow depth of field,
warm golden-hour tone, 4K film grain
Kling O3 · 图生视频
libtv node create "视频名称" \
  -t video \
  -s model="kling-v3-omni" \
  -s modeType="singleImage2video" \
  -s duration=10 \
  -s ratio="9:16" \
  -s quality="high" \
  --left "<image_nodeKey>" \
  --prompt "时间轴叙事的动作描述..." \
  --run

效果对照

参数值 A值 B效果差异
duration5s10s10s 动作展开充分,微表情自然;5s 偏急促
qualitystandardhighhigh 面部追踪明显更好,口型同步精度提升
enableSoundoffonon=原生音画同步,off=需后期配音
灯光方向from the leftfrom the rightleft=面部阴影在右,层次感强;right=平光

§5 验证记录

日期版本产出质量备注
2026-06-03v1.0.0古装美女四川话版9.5/10首次 Kling O3 音画同步验证
2026-06-03v1.0.0古装美女流泪版9.5/10出图 3 次迭代,Kling 2 次调参

§6 版本演进