loading image

做 AI 图片和视频时,AI 真的懂空间和透视吗?

Posted by Enovace on June 13, 2026

最近我连续做了很多 AI 写真和 AI 视频素材。

从双人婚纱照、水下婚纱照,到 Gatsby 复古婚纱、霍格沃茨魔法学院婚礼、水下足球宝贝,我感觉:

AI 不是完全不懂空间。
但它也不是像 3D 软件那样,真的在脑子里搭了一个稳定的物理空间。
它更多是在根据大量图像经验“猜”。

所以,AI 可以生成一张第一眼很像大片的图,但不代表它真的理解:

  • 这两个人怎么站?
  • 手到底搭在哪里?
  • 衣服为什么会这样飘?
  • 镜头是从哪里拍过去的?
  • 水下、风中、室内烛光场景的物理逻辑是否一致?

这也是很多 AI 图第一眼很好看,第二眼有点怪的根本原因。


01|AI 不是不懂画面,而是不稳定

AI 对画面是有一定理解的。

比如你写:
“新娘在前景,新郎站在她身后半步。”
“低角度仰拍,人物有电影感。”
“前景虚化烛台,中景新人,远景古堡大厅。”
“夕阳从左后方打来,人物边缘有轮廓光。”
这些它大概率能理解。

但它的理解不是严格物理计算,而是图像经验。
它知道“这种画面大概长什么样”,但不一定知道“这个身体结构和空间关系是否真的成立”。

所以问题经常出在细节上:

  • 手臂穿插;
  • 身体接触点不真实;
  • 两个人比例不一致;
  • 远处人物反而更大;
  • 地面、楼梯、海平线透视对不上;
  • 水下裙摆飘得像在空气里。

这些不是简单的“手崩”。
本质是:AI 没有真正稳定理解物理空间。

Image


02|双人写真为什么特别容易崩?

我之前做单人 AI 写真时,发现只要人物辨识度、妆造、光影和场景到位,画面基本能成立。
但双人图难度会突然上升。

因为双人图不是简单多一个人,而是多了一整套关系:
谁在前?
谁在后?
谁看谁?
两个人距离多近?
手放在哪里?
有没有身体接触?
接触点是腰、肩、手臂,还是手掌?
婚纱拖尾会不会和新郎的腿冲突?
脸有没有被对方遮住?

如果这些不写清楚,AI 就会自己猜。
它一旦猜错,画面就会有一种“姿势看起来很亲密,但身体关系很假”的感觉。

做 Gatsby 复古婚纱照的时候,这个问题很明显。
一开始我只强调:
纸醉金迷、复古、奢华、电影感、午夜派对。
出来的图确实有氛围,但容易变成影楼风,人物互动也很表面。

后来我改成更具体的调度:
新娘是视觉中心,新郎从身后环抱她。
新郎双手自然落在新娘腰间。
新娘双手轻轻覆在新郎手上。
新郎低头看向新娘,新娘看向镜头。
两个人有真实身体接触,但不要互相穿插。

这时候画面会稳定很多。
因为我是告诉它:这两个人在空间里到底怎么摆。

Image


03|不要只写审美词,要写空间结构

很多人写 AI 图片提示词,最容易堆这些词:
高级感、电影感、真实感、氛围感、杂志大片、高预算实拍、质感很好

这些词解决的是风格问题,不解决空间问题。
真正影响画面稳定性的,是这些:
人物站位、前后关系、镜头角度、焦段感、地平线位置、前景 / 中景 / 远景、光线方向、身体接触点、动作幅度、衣服和头发的受力方向

比如我做霍格沃茨魔法学院婚纱照时,如果只写:
“霍格沃茨风格婚纱照,高预算电影感。”
很容易变成 cosplay、棚拍,或者普通影楼写真加一点魔法元素。

但如果写成:
古老大礼堂,人物站在长桌前方。
前景是虚化烛台,中景是新人,远景是高耸拱顶和漂浮蜡烛。
镜头平视略低角度,空间有纵深。
光从左后方彩窗和桌面烛光共同打来。
新娘白色婚纱和复古学院礼袍结合,新郎黑色礼服带少量魔法学院元素。
整体像高预算电影实拍婚礼剧照,不像 cosplay 棚拍。

画面会立刻更接近“电影实拍”。
因为给了 AI 一个清楚的空间,而不是只给了一个风格词

Image


04|AI 视频会把空间问题放大

图片只需要一帧看起来合理,但视频需要连续几秒都合理。

  • 人物不能突然变脸;
  • 手不能突然消失;
  • 身体不能突然错位;
  • 背景不能漂移;
  • 裙摆不能一会儿像风吹,一会儿像水流;
  • 镜头不能莫名其妙穿帮

所以 AI 视频比 AI 图片更考验空间逻辑。

我做水下足球宝贝和水下婚纱短片时,感受特别明显:
AI 视频最适合做微动作,不适合一上来就做复杂大动作。

比较稳的动作是:
眼神变化、轻微转头、头发漂浮、裙摆缓慢摆动、水波流动、光束变化、镜头轻推近、镜头轻微横移

比较容易崩的是:
旋转拥抱、水下踢球、托举转身、奔跑跳跃、复杂牵手、多人互动、大幅度转场
这些都需要拆解

比如“水下踢球”不要直接写:“她在水中完成一个炫酷倒钩射门。”

更稳的写法是:
人物在水中呈对角线漂浮,右腿向前缓慢伸展,脚尖接近足球但不剧烈踢出。
足球只做轻微位移。
头发和衣服随水流向同一方向漂浮。
镜头保持中景,动作幅度克制。
画面有水下光束、气泡和轻微慢动作感。

这样更容易出稳定片段。因为把动作路径、运动幅度、物理方向都限制住了。

Image


05|我现在怎么写 AI 图片提示词?

我现在写 AI 图片,会先把自己当成一个小型摄影导演,先问这几个问题:

  • 这张图的主体是谁?
  • 人物在画面哪个位置?
  • 谁在前,谁在后?
  • 镜头从哪里拍?
  • 人物和背景距离多远?
  • 光从哪边来?
  • 衣服为什么会这样动?
  • 如果是两个人,他们有没有身体接触?
  • 如果有,接触点在哪里?
    这些想清楚以后,再写风格词。

我现在常用的空间约束是:
请严格保持真实物理空间关系:人物有明确前后层次,身体不互相穿插,手臂和手掌有合理接触点,遮挡关系自然,人物比例符合镜头透视。画面需要有清晰的前景、中景、远景结构,地面 / 水面 / 墙面透视线合理,光影方向统一。避免错误肢体、错误手指、漂浮身体、人物大小不一致、拥抱关系混乱、视线方向错误。

这段话不一定让每张都完美,但能明显降低翻车率。
尤其是双人婚纱、情侣写真、复杂场景大片,建议长期固定加。

Image


06|我现在怎么写 AI 视频提示词?

AI 视频里,我会额外加一段稳定性约束:

动作幅度要小,人物空间位置保持稳定,不要突然跳变,不要改变人物身份、服装、发型和脸部结构。镜头运动缓慢,人物动作连续,身体接触点稳定,衣服和头发运动符合风或水流方向。

视频提示词最重要的不是“写得很炫”。

而是把几个东西写清楚:

镜头怎么动;
人物怎么动;
动作从哪里开始;
动作到哪里结束;
动作幅度大还是小;
衣服、头发、道具往哪个方向运动;
人物和背景的空间关系是否保持稳定。

比如婚纱视频里,我会尽量让动作克制:

新娘低头整理裙摆;
新郎站在右后方半步;
镜头缓慢推近;
烛光轻微摇晃;
婚纱拖尾轻轻摆动;
两人位置不发生大幅变化。

这种比“新人旋转拥抱、镜头 360 度环绕、婚纱飞舞、城堡变换”稳定得多。

AI 视频不是不能做大场面。
但最好先从稳定的小动作做起,再通过剪辑、节奏、转场把它变炫。


07|最后总结

AI 能理解画面,但它理解的是“图像经验”,不是“物理建模”。
所以做 AI 图片和 AI 视频,不能只让 AI 帮你想象。
你要替它把空间搭好。

尤其是双人写真、婚纱照、水下大片、故事感短片这类内容,越需要你像导演一样写提示词。

风格决定第一眼好不好看。
空间关系决定这张图能不能经得起看。

我现在觉得,AI 视觉创作真正的门槛是,你能不能把一个画面拆成:
人物、空间、镜头、动作、光线和物理关系。

当你开始这样写提示词,AI 出来的图和视频,才会从“像 AI 生成的漂亮图”,慢慢接近“像真的拍出来的画面”。