好的，这是为您生成的与原文格式对应的 Markdown 文档。

Sora 2 提示词指南

打造成功的视频提示词

在开始之前

构思提示词就像是向一位从未见过您故事板的电影摄影师做简报。如果您遗漏了细节，他们会即兴发挥——而您可能得不到您所设想的画面。通过具体说明“镜头”应达成的效果，您可以给予模型更多的控制权和一致性。

但有时，留出一些细节也同样重要。给予模型更多的创作自由度可能会带来意想不到的变化和美丽独特的诠释。两种方法都有效：详细的提示词给予您控制和一致性，而简练的提示词则为创意成果开辟了空间。

如何取得适当的平衡取决于您的目标和您所期望的结果。将您的提示词视为一份创意的愿望清单，而不是一份合同。就像使用ChatGPT一样，多次使用相同的提示词会产生不同的结果——这是一个特性，而不是一个bug。

每一次生成都是一次全新的尝试，有时第二个或第三个选项会更好。最重要的是，要准备好进行迭代。对相机、灯光或动作进行微小的调整都可能极大地改变结果。

与模型合作：您提供方向，模型提供创意的变体。这不是一门精确的科学——请将以下的指导视为我们与模型合作中学到的有益建议。

API 参数

提示词控制视频的内容，但某些属性仅由API参数决定。您不能在文本中请求它们，必须在您的API调用中明确设置：

model: sora-2 或 sora-2-pro。
size: 格式为 {width}x{height} 的字符串。支持的分辨率取决于模型的选择：
- sora-2: 1280x720, 720x1280
- sora-2-pro: 1280x720, 720x1280, 1024x1792, 1792x1024
seconds: 剪辑长度，支持的值：“4”、“8”、“12”。默认值为“4”。

这些参数是视频的“容器”——分辨率、时长和质量不会因为“让它更长”这样的文本描述而改变。请在API调用中明确设置它们；您的提示词控制其他所有内容（主题、运动、灯光、风格）。

视频分辨率

视频分辨率直接影响Sora的视觉保真度和运动一致性。更高的分辨率能更准确地生成细节、纹理和光影过渡，而较低的分辨率会压缩视觉信息，通常会带来柔化或伪影。

视频长度

模型通常在较短的剪辑中更可靠地遵循指令。为获得最佳效果，请力求镜头简洁。如果您的项目允许，将两个4秒的剪辑拼接在一起，可能比生成一个8秒的剪辑效果更好。

有效的提示词结构

一个清晰的提示词应该像您在故事板上绘制草图一样来描述一个镜头。说明相机的取景，注意景深，按节拍描述动作，并设置灯光和调色板。用几个独特的细节来锚定您的主体，使其易于识别，而一个单一、合理的动作则使镜头更容易跟拍。

在单个提示词中描述多个镜头也是有效的，如果您需要覆盖一个序列。当您这样做时，请保持每个镜头块的独特性：一次一个相机设置，一次一个主体动作，一次一个灯光方案。这让您可以根据项目需要，灵活地生成独立的短片或更长的连续时刻。

将每个镜头视为一个创意单元，您可以将它们拼接在一起，或者让它们作为一个序列一次性播放。

较短的提示词给予模型更多的创作自由。期待令人惊喜的结果。

较长、更详细的提示词会限制模型的创造力。它会尝试遵循您的指导，但可能不总是可靠地做到。

以下是一个简短提示词的示例：

在一个90年代纪录片风格的采访中，一位瑞典老人坐在书房里说：“我仍然记得我年轻的时候。”

这个提示词可能会效果很好：

90年代纪录片 设置了视频的风格。模型会相应地选择相机镜头、灯光和色调。
一位瑞典老人坐在书房里 描述了主体和场景，但细节不多，让模型在人物和场景的外观上有创作的自由。
说：“我仍然记得我年轻的时候。” 描述了对话。Sora很可能能够准确地遵循这一点。

这个提示词会可靠地生成符合这些要求的视频。然而，它可能不会完全符合您的设想，因为许多细节是开放的。例如，提示词没有描述一天中的时间、天气、服装、色调、角色的外貌和年龄、摄像机角度、剪辑、布景设计以及许多其他因素。除非您描述这些细节，否则Sora会自己创造它们。

走向超详细

对于复杂的电影级镜头，您可以超越标准的提示词结构，用专业的制作术语指定外观、相机设置、调色、音景，甚至是镜头的设计理念。这类似于导演向摄影团队或视觉特效团队做简报的方式。

关于镜头、滤镜、灯光、调色和运动的详细提示有助于模型锁定一个非常具体的美学。例如，您可以描述观众首先注意到的东西、相机平台和镜头、光线方向、调色板、纹理质量、现场声和镜头时机。当您想匹配真实的电影摄影风格（例如，IMAX航拍、35毫米手持、复古16毫米纪录片）或在镜头之间保持严格的连续性时，这种方法效果很好。

引导视觉风格的提示

在编写提示词时，风格是引导模型达到您期望结果最强大的杠杆之一。描述整体美学——例如，“1970年代电影”、“史诗般的IMAX级场景”或“16毫米黑白电影”——设定了一个视觉基调，框定了所有其他选择。尽早确立这种风格，以便模型能够始终如一地贯彻。

同样的细节，根据您要求的是一部精良的好莱坞戏剧、一段手持智能手机拍摄的短片，还是一则颗粒感的复古广告，其解读会截然不同。一旦基调确定，再用镜头、动作和光线来增加具体细节。

清晰至上。与其使用模糊的提示，不如使用具体的描述。指向可见结果的动词和名词总能给您带来更清晰、更一致的输出。

弱提示词	强提示词
“夜晚美丽的街道”	“湿漉漉的柏油路，斑马线，霓虹灯在水坑中的倒影”
“人物快速移动”	“骑自行车的人踩了三下脚踏板，刹车，在人行横道前停下”
“电影感”	“2.0x变形镜头，浅景深，体积光”

相机方向和取景塑造了镜头的感觉。高角度的广角镜头会强调空间和背景，而平视的特写镜头则会聚焦于情感。景深增加了另一层：浅景深可以使主体在模糊的背景中脱颖而出，而深景深则使前景和背景都保持清晰。

灯光同样强烈地设定了基调。柔和、温暖的主光营造出温馨的氛围，而单一的硬光与冷色边缘则推向戏剧化。

在引入角色时，预计会有一些不可预测性——措辞的微小变化可能会改变身份、姿势或场景的焦点。在不同镜头中保持描述的一致性，重用措辞以保证连续性，并避免混合可能相互冲突的特征。

弱	强
相机镜头：电影感	相机镜头：广角镜头，低角度
	景深：浅景深（主体清晰，背景模糊）
	灯光 + 调色板：温暖的背光与柔和的轮廓光

一些好的取景指令示例：

广角定场镜头，平视
广角镜头，从左到右跟随冲锋
航拍广角镜头，轻微俯角
中景特写镜头，从背后轻微角度拍摄

一些好的相机运动指令示例：

缓慢倾斜的相机
手持ENG摄像机

控制运动和时机

运动通常是最难把握的部分，所以要保持简单。每个镜头都应该有一个清晰的相机移动和一个清晰的主体动作。动作最好按节拍或计数来描述——小步、手势或停顿——这样它们才感觉有时间上的依据。“演员走过房间”并没有提供太多可操作的信息。而像“演员向窗户走了四步，停顿了一下，在最后一秒拉上窗帘”这样的描述，使得时机精确且可实现。

弱	强
演员走过房间。	演员向窗户走了四步，停顿了一下，在最后一秒拉上窗帘。

灯光和色彩的一致性

光线和动作或场景一样，决定了情绪。遍布画面的漫射光感觉平静和中性，而单一的强光源则产生鲜明的对比和紧张感。当您想将多个剪辑拼接在一起时，保持灯光逻辑的一致性是使剪辑无缝衔接的关键。

既要描述光的质量，也要描述加强它的色彩锚点。与其使用“明亮的房间”这样宽泛的说明，不如具体说明光源和色调的混合。命名三到五个颜色有助于在不同镜头中保持调色板的稳定。

弱	强
灯光 + 调色板：明亮的房间	灯光 + 调色板：柔和的窗光，温暖的台灯补光，来自走廊的冷色边缘光。调色板锚点：琥珀色、奶油色、胡桃棕色

使用图像输入进行更多控制

为了对镜头的构图和风格进行更精细的控制，您可以使用图像输入作为视觉参考。您可以使用照片、数字艺术作品或AI生成的视觉效果。这可以锁定角色设计、服装、布景或整体美学等元素。模型将图像作为第一帧的锚点，而您的文本提示则定义接下来发生的事情。

如何使用它

在您的 POST /videos 请求中，将图像文件作为 input_reference 参数包含进去。图像必须与目标视频的分辨率（size）相匹配。支持的文件格式有：image/jpeg、image/png 和 image/webp。

实验技巧

如果您还没有视觉参考，OpenAI的图像生成模型是创建它们的强大方式。您可以快速生成环境和场景设计，然后将它们作为参考传递给Sora。这是测试美学和为您的视频生成美丽起点的绝佳方式。

对话和音频

对话必须在您的提示词中直接描述。将其放在您的文本描述下方的一个区块中，以便模型清楚地区分视觉描述和口语台词。保持台词简洁自然，并尽量将交流限制在几句话之内，以便时机能与您的剪辑长度相匹配。

对于多角色场景，要一致地标记说话者，并使用轮流的方式；这有助于模型将每句台词与正确角色的手势和表情联系起来。您还应该考虑节奏和时机：一个4秒的镜头通常可以容纳一到两次简短的交流，而一个8秒的剪辑可以支持更多。长而复杂的演讲不太可能同步得很好，并可能打破节奏。

如果您的镜头是无声的，您仍然可以用一个小的声音来暗示节奏，例如“远处交通的嘶嘶声”或“清脆的啪嗒声”。把它看作是一个节奏提示，而不是一个完整的音轨。

带对话的示例提示词：

一个狭窄、没有窗户的房间，墙壁像旧灰烬的颜色。一个光秃秃的灯泡从天花板上垂下来，它的光聚集在中央那张伤痕累累的金属桌子上。两把椅子隔着桌子相对。

一边坐着侦探，风衣搭在椅背上，眼神锐利而不眨眼。对面，嫌疑人懒散地靠着，烟雾懒洋洋地向天花板卷去。沉默压抑着，只有头顶灯的微弱嗡嗡声打破了寂静。

对话：

侦探：“你在说谎。我能从你的沉默中听出来。”

嫌疑人：“或者也许我只是厌倦了说话。”

侦探：“不管怎样，今晚结束前你会开口的。”

背景声音描述示例：

浓缩咖啡机的嗡嗡声和人们的低语声构成了背景音。

使用混音功能进行迭代

混音是用来微调的，不是用来赌博的。用它来进行可控的改变——一次一个——并说明您正在改变什么：“同样的镜头，切换到85毫米镜头”，或者“同样的灯光，新的调色板：青色、沙色、铁锈色”。

当一个结果很接近时，将它固定为参考，并只描述微调的部分。这样，所有已经有效的部分都会被锁定。如果一个镜头总是出错，就把它简化：固定相机，简化动作，清理背景。一旦它有效了，再一步一步地增加复杂性。

提示词模板和示例

提示词结构

一种有效的编写提示词的方法是，将您希望模型使用的不同类型的信息分开。这不是一个万能的成功秘诀，但它为您提供了一个清晰的框架，并使保持一致性变得更容易。

不是每个细节都需要包含——如果某件事对镜头不重要，您可以省略它。实际上，让某些元素保持开放，会鼓励模型更具创造性。您对每个视觉选择的规定越不严格，模型就有越多的空间来解释和给您带来意想不到但往往美丽的变体。

描述性强的提示词会产生更一致、可控的结果，而较轻的提示词可以解锁感觉新鲜和富有想象力的多样化结果。

描述性提示词模板：

[用平实的语言描述场景。描述角色、服装、风景、天气和其他细节。尽可能详细地描述，以生成符合您设想的视频。]

摄影： 相机镜头： [取景和角度，例如，广角定场镜头，平视] 情绪： [整体基调，例如，电影感的紧张，有趣的悬疑，奢华的期待]

动作：

[动作1：一个清晰、具体的节拍或手势]

[动作2：剪辑中的另一个独特的节拍]

[动作3：另一个动作或对话台词]

对话： [如果镜头有对话，在这里或作为动作列表的一部分添加简短自然的台词。保持简短，以便与剪辑长度相匹配。]

提示词示例

示例 1

风格：手绘2D/3D混合动画，具有柔和的笔刷纹理、温暖的钨丝灯光和一种有触感的定格动画感觉。美学唤起了2000年代中期的故事书动画感——舒适、不完美，充满机械魅力。微妙的水彩渲染和绘画般的纹理；色调中的冷暖平衡；电影感的运动模糊以实现动画的真实感。

在一个杂乱的工作室里，架子上堆满了齿轮、螺栓和泛黄的蓝图。中央，一个小小的圆形机器人坐在一张木凳上，它凹陷的身体上贴着不匹配的金属板和旧漆层。它大而发光的眼睛闪烁着淡蓝色的光，紧张地摆弄着一个嗡嗡作响的灯泡。空气中弥漫着安静的机械嗡嗡声，雨水敲打着窗户，背景中的时钟稳定地滴答作响。

摄影： 相机：中景特写，缓慢推进，悬挂的工具带来轻微的视差效果镜头：35毫米虚拟镜头；浅景深以柔化背景杂物灯光：来自头顶实用灯具的暖色主光；来自窗户的冷色溢光以形成对比情绪：温柔，奇幻，带有一丝悬念

动作：

机器人敲了敲灯泡；火花噼啪作响。
它畏缩了一下，灯泡掉了下来，眼睛睁得大大的。
灯泡在慢动作中翻滚；它及时接住了它。
一股蒸汽从它的胸口冒出——既是解脱又是自豪。
机器人轻声说：“差点就丢了……但我接住了！”

背景声音： 雨声，时钟滴答声，柔和的机械嗡嗡声，微弱的灯泡嘶嘶声。

示例 2

风格：1970年代的浪漫戏剧，使用35毫米胶片拍摄，具有自然的眩光、柔焦和温暖的光晕。轻微的门抖动和手持微抖动唤起了复古的亲密感。温暖的柯达风格色调；灯泡上的轻微光晕；胶片颗粒感和柔和的暗角以营造时代真实感。

在黄金时刻，一个砖砌公寓的屋顶变成了一个小舞台。挂着白床单的晾衣绳在风中摇曳，捕捉着最后一缕阳光。一串串不匹配的仙女灯在头顶微弱地嗡嗡作响。一个穿着飘逸红色丝绸连衣裙的年轻女子赤脚跳舞，卷发在渐逝的光线中闪闪发光。她的舞伴——袖子卷起，吊带松散——拍着手，笑容灿烂而坦诚。下面，城市充满了汽车喇叭声、地铁的震动和远处的笑声。

摄影： 相机：中景广角镜头，从平视角度缓慢推入镜头：40毫米球面镜头；浅景深以将情侣与天际线分离开灯光：金色的自然主光与钨丝灯反弹光；仙女灯提供的边缘光情绪：怀旧，温柔，电影感