做 AI 图片和视频时，AI 真的懂空间和透视吗？

最近我连续做了很多 AI 写真和 AI 视频素材。

从双人婚纱照、水下婚纱照，到 Gatsby 复古婚纱、霍格沃茨魔法学院婚礼、水下足球宝贝，我感觉：

AI 不是完全不懂空间。
但它也不是像 3D 软件那样，真的在脑子里搭了一个稳定的物理空间。
它更多是在根据大量图像经验“猜”。

所以，AI 可以生成一张第一眼很像大片的图，但不代表它真的理解：

这两个人怎么站？
手到底搭在哪里？
衣服为什么会这样飘？
镜头是从哪里拍过去的？
水下、风中、室内烛光场景的物理逻辑是否一致？

这也是很多 AI 图第一眼很好看，第二眼有点怪的根本原因。

01｜AI 不是不懂画面，而是不稳定

AI 对画面是有一定理解的。

比如你写：
“新娘在前景，新郎站在她身后半步。”
“低角度仰拍，人物有电影感。”
“前景虚化烛台，中景新人，远景古堡大厅。”
“夕阳从左后方打来，人物边缘有轮廓光。”
这些它大概率能理解。

但它的理解不是严格物理计算，而是图像经验。
它知道“这种画面大概长什么样”，但不一定知道“这个身体结构和空间关系是否真的成立”。

所以问题经常出在细节上：

手臂穿插；
身体接触点不真实；
两个人比例不一致；
远处人物反而更大；
地面、楼梯、海平线透视对不上；
水下裙摆飘得像在空气里。

这些不是简单的“手崩”。
本质是：AI 没有真正稳定理解物理空间。

02｜双人写真为什么特别容易崩？

我之前做单人 AI 写真时，发现只要人物辨识度、妆造、光影和场景到位，画面基本能成立。
但双人图难度会突然上升。

因为双人图不是简单多一个人，而是多了一整套关系：
谁在前？
谁在后？
谁看谁？
两个人距离多近？
手放在哪里？
有没有身体接触？
接触点是腰、肩、手臂，还是手掌？
婚纱拖尾会不会和新郎的腿冲突？
脸有没有被对方遮住？

如果这些不写清楚，AI 就会自己猜。
它一旦猜错，画面就会有一种“姿势看起来很亲密，但身体关系很假”的感觉。

做 Gatsby 复古婚纱照的时候，这个问题很明显。
一开始我只强调：
纸醉金迷、复古、奢华、电影感、午夜派对。
出来的图确实有氛围，但容易变成影楼风，人物互动也很表面。

后来我改成更具体的调度：
新娘是视觉中心，新郎从身后环抱她。
新郎双手自然落在新娘腰间。
新娘双手轻轻覆在新郎手上。
新郎低头看向新娘，新娘看向镜头。
两个人有真实身体接触，但不要互相穿插。

这时候画面会稳定很多。
因为我是告诉它：这两个人在空间里到底怎么摆。

03｜不要只写审美词，要写空间结构

很多人写 AI 图片提示词，最容易堆这些词：
高级感、电影感、真实感、氛围感、杂志大片、高预算实拍、质感很好

这些词解决的是风格问题，不解决空间问题。
真正影响画面稳定性的，是这些：
人物站位、前后关系、镜头角度、焦段感、地平线位置、前景 / 中景 / 远景、光线方向、身体接触点、动作幅度、衣服和头发的受力方向

比如我做霍格沃茨魔法学院婚纱照时，如果只写：
“霍格沃茨风格婚纱照，高预算电影感。”
很容易变成 cosplay、棚拍，或者普通影楼写真加一点魔法元素。

但如果写成：
古老大礼堂，人物站在长桌前方。
前景是虚化烛台，中景是新人，远景是高耸拱顶和漂浮蜡烛。
镜头平视略低角度，空间有纵深。
光从左后方彩窗和桌面烛光共同打来。
新娘白色婚纱和复古学院礼袍结合，新郎黑色礼服带少量魔法学院元素。
整体像高预算电影实拍婚礼剧照，不像 cosplay 棚拍。

画面会立刻更接近“电影实拍”。
因为给了 AI 一个清楚的空间，而不是只给了一个风格词

04｜AI 视频会把空间问题放大

图片只需要一帧看起来合理，但视频需要连续几秒都合理。

人物不能突然变脸；
手不能突然消失；
身体不能突然错位；
背景不能漂移；
裙摆不能一会儿像风吹，一会儿像水流；
镜头不能莫名其妙穿帮

所以 AI 视频比 AI 图片更考验空间逻辑。

我做水下足球宝贝和水下婚纱短片时，感受特别明显：
AI 视频最适合做微动作，不适合一上来就做复杂大动作。

比较稳的动作是：
眼神变化、轻微转头、头发漂浮、裙摆缓慢摆动、水波流动、光束变化、镜头轻推近、镜头轻微横移

比较容易崩的是：
旋转拥抱、水下踢球、托举转身、奔跑跳跃、复杂牵手、多人互动、大幅度转场
这些都需要拆解

比如“水下踢球”不要直接写：“她在水中完成一个炫酷倒钩射门。”

更稳的写法是：
人物在水中呈对角线漂浮，右腿向前缓慢伸展，脚尖接近足球但不剧烈踢出。
足球只做轻微位移。
头发和衣服随水流向同一方向漂浮。
镜头保持中景，动作幅度克制。
画面有水下光束、气泡和轻微慢动作感。

这样更容易出稳定片段。因为把动作路径、运动幅度、物理方向都限制住了。

05｜我现在怎么写 AI 图片提示词？

我现在写 AI 图片，会先把自己当成一个小型摄影导演，先问这几个问题：

这张图的主体是谁？
人物在画面哪个位置？
谁在前，谁在后？
镜头从哪里拍？
人物和背景距离多远？
光从哪边来？
衣服为什么会这样动？
如果是两个人，他们有没有身体接触？
如果有，接触点在哪里？
这些想清楚以后，再写风格词。

我现在常用的空间约束是：
请严格保持真实物理空间关系：人物有明确前后层次，身体不互相穿插，手臂和手掌有合理接触点，遮挡关系自然，人物比例符合镜头透视。画面需要有清晰的前景、中景、远景结构，地面 / 水面 / 墙面透视线合理，光影方向统一。避免错误肢体、错误手指、漂浮身体、人物大小不一致、拥抱关系混乱、视线方向错误。

这段话不一定让每张都完美，但能明显降低翻车率。
尤其是双人婚纱、情侣写真、复杂场景大片，建议长期固定加。

06｜我现在怎么写 AI 视频提示词？

AI 视频里，我会额外加一段稳定性约束：

动作幅度要小，人物空间位置保持稳定，不要突然跳变，不要改变人物身份、服装、发型和脸部结构。镜头运动缓慢，人物动作连续，身体接触点稳定，衣服和头发运动符合风或水流方向。

视频提示词最重要的不是“写得很炫”。

而是把几个东西写清楚：

镜头怎么动；
人物怎么动；
动作从哪里开始；
动作到哪里结束；
动作幅度大还是小；
衣服、头发、道具往哪个方向运动；
人物和背景的空间关系是否保持稳定。

比如婚纱视频里，我会尽量让动作克制：

新娘低头整理裙摆；
新郎站在右后方半步；
镜头缓慢推近；
烛光轻微摇晃；
婚纱拖尾轻轻摆动；
两人位置不发生大幅变化。

这种比“新人旋转拥抱、镜头 360 度环绕、婚纱飞舞、城堡变换”稳定得多。

AI 视频不是不能做大场面。
但最好先从稳定的小动作做起，再通过剪辑、节奏、转场把它变炫。

07｜最后总结

AI 能理解画面，但它理解的是“图像经验”，不是“物理建模”。
所以做 AI 图片和 AI 视频，不能只让 AI 帮你想象。
你要替它把空间搭好。

尤其是双人写真、婚纱照、水下大片、故事感短片这类内容，越需要你像导演一样写提示词。

风格决定第一眼好不好看。
空间关系决定这张图能不能经得起看。

我现在觉得，AI 视觉创作真正的门槛是，你能不能把一个画面拆成：
人物、空间、镜头、动作、光线和物理关系。

当你开始这样写提示词，AI 出来的图和视频，才会从“像 AI 生成的漂亮图”，慢慢接近“像真的拍出来的画面”。

做 AI 图片和视频时，AI 真的懂空间和透视吗？

01｜AI 不是不懂画面，而是不稳定

02｜双人写真为什么特别容易崩？

03｜不要只写审美词，要写空间结构

04｜AI 视频会把空间问题放大

05｜我现在怎么写 AI 图片提示词？

06｜我现在怎么写 AI 视频提示词？

07｜最后总结

You May Also Like

CATALOG

01｜AI 不是不懂画面，而是不稳定

02｜双人写真为什么特别容易崩？

03｜不要只写审美词，要写空间结构

04｜AI 视频会把空间问题放大

05｜我现在怎么写 AI 图片提示词？

06｜我现在怎么写 AI 视频提示词？

07｜最后总结

You May Also Like

CATALOG

Related Posts