最近我连续做了很多 AI 写真和 AI 视频素材。
从双人婚纱照、水下婚纱照,到 Gatsby 复古婚纱、霍格沃茨魔法学院婚礼、水下足球宝贝,我感觉:
AI 不是完全不懂空间。
但它也不是像 3D 软件那样,真的在脑子里搭了一个稳定的物理空间。
它更多是在根据大量图像经验“猜”。
所以,AI 可以生成一张第一眼很像大片的图,但不代表它真的理解:
- 这两个人怎么站?
- 手到底搭在哪里?
- 衣服为什么会这样飘?
- 镜头是从哪里拍过去的?
- 水下、风中、室内烛光场景的物理逻辑是否一致?
这也是很多 AI 图第一眼很好看,第二眼有点怪的根本原因。
01|AI 不是不懂画面,而是不稳定
AI 对画面是有一定理解的。
比如你写:
“新娘在前景,新郎站在她身后半步。”
“低角度仰拍,人物有电影感。”
“前景虚化烛台,中景新人,远景古堡大厅。”
“夕阳从左后方打来,人物边缘有轮廓光。”
这些它大概率能理解。
但它的理解不是严格物理计算,而是图像经验。
它知道“这种画面大概长什么样”,但不一定知道“这个身体结构和空间关系是否真的成立”。
所以问题经常出在细节上:
- 手臂穿插;
- 身体接触点不真实;
- 两个人比例不一致;
- 远处人物反而更大;
- 地面、楼梯、海平线透视对不上;
- 水下裙摆飘得像在空气里。
这些不是简单的“手崩”。
本质是:AI 没有真正稳定理解物理空间。

02|双人写真为什么特别容易崩?
我之前做单人 AI 写真时,发现只要人物辨识度、妆造、光影和场景到位,画面基本能成立。
但双人图难度会突然上升。
因为双人图不是简单多一个人,而是多了一整套关系:
谁在前?
谁在后?
谁看谁?
两个人距离多近?
手放在哪里?
有没有身体接触?
接触点是腰、肩、手臂,还是手掌?
婚纱拖尾会不会和新郎的腿冲突?
脸有没有被对方遮住?
如果这些不写清楚,AI 就会自己猜。
它一旦猜错,画面就会有一种“姿势看起来很亲密,但身体关系很假”的感觉。
做 Gatsby 复古婚纱照的时候,这个问题很明显。
一开始我只强调:
纸醉金迷、复古、奢华、电影感、午夜派对。
出来的图确实有氛围,但容易变成影楼风,人物互动也很表面。
后来我改成更具体的调度:
新娘是视觉中心,新郎从身后环抱她。
新郎双手自然落在新娘腰间。
新娘双手轻轻覆在新郎手上。
新郎低头看向新娘,新娘看向镜头。
两个人有真实身体接触,但不要互相穿插。
这时候画面会稳定很多。
因为我是告诉它:这两个人在空间里到底怎么摆。

03|不要只写审美词,要写空间结构
很多人写 AI 图片提示词,最容易堆这些词:
高级感、电影感、真实感、氛围感、杂志大片、高预算实拍、质感很好
这些词解决的是风格问题,不解决空间问题。
真正影响画面稳定性的,是这些:
人物站位、前后关系、镜头角度、焦段感、地平线位置、前景 / 中景 / 远景、光线方向、身体接触点、动作幅度、衣服和头发的受力方向
比如我做霍格沃茨魔法学院婚纱照时,如果只写:
“霍格沃茨风格婚纱照,高预算电影感。”
很容易变成 cosplay、棚拍,或者普通影楼写真加一点魔法元素。
但如果写成:
古老大礼堂,人物站在长桌前方。
前景是虚化烛台,中景是新人,远景是高耸拱顶和漂浮蜡烛。
镜头平视略低角度,空间有纵深。
光从左后方彩窗和桌面烛光共同打来。
新娘白色婚纱和复古学院礼袍结合,新郎黑色礼服带少量魔法学院元素。
整体像高预算电影实拍婚礼剧照,不像 cosplay 棚拍。
画面会立刻更接近“电影实拍”。
因为给了 AI 一个清楚的空间,而不是只给了一个风格词

04|AI 视频会把空间问题放大
图片只需要一帧看起来合理,但视频需要连续几秒都合理。
- 人物不能突然变脸;
- 手不能突然消失;
- 身体不能突然错位;
- 背景不能漂移;
- 裙摆不能一会儿像风吹,一会儿像水流;
- 镜头不能莫名其妙穿帮
所以 AI 视频比 AI 图片更考验空间逻辑。
我做水下足球宝贝和水下婚纱短片时,感受特别明显:
AI 视频最适合做微动作,不适合一上来就做复杂大动作。
比较稳的动作是:
眼神变化、轻微转头、头发漂浮、裙摆缓慢摆动、水波流动、光束变化、镜头轻推近、镜头轻微横移
比较容易崩的是:
旋转拥抱、水下踢球、托举转身、奔跑跳跃、复杂牵手、多人互动、大幅度转场
这些都需要拆解
比如“水下踢球”不要直接写:“她在水中完成一个炫酷倒钩射门。”
更稳的写法是:
人物在水中呈对角线漂浮,右腿向前缓慢伸展,脚尖接近足球但不剧烈踢出。
足球只做轻微位移。
头发和衣服随水流向同一方向漂浮。
镜头保持中景,动作幅度克制。
画面有水下光束、气泡和轻微慢动作感。
这样更容易出稳定片段。因为把动作路径、运动幅度、物理方向都限制住了。

05|我现在怎么写 AI 图片提示词?
我现在写 AI 图片,会先把自己当成一个小型摄影导演,先问这几个问题:
- 这张图的主体是谁?
- 人物在画面哪个位置?
- 谁在前,谁在后?
- 镜头从哪里拍?
- 人物和背景距离多远?
- 光从哪边来?
- 衣服为什么会这样动?
- 如果是两个人,他们有没有身体接触?
- 如果有,接触点在哪里?
这些想清楚以后,再写风格词。
我现在常用的空间约束是:
请严格保持真实物理空间关系:人物有明确前后层次,身体不互相穿插,手臂和手掌有合理接触点,遮挡关系自然,人物比例符合镜头透视。画面需要有清晰的前景、中景、远景结构,地面 / 水面 / 墙面透视线合理,光影方向统一。避免错误肢体、错误手指、漂浮身体、人物大小不一致、拥抱关系混乱、视线方向错误。
这段话不一定让每张都完美,但能明显降低翻车率。
尤其是双人婚纱、情侣写真、复杂场景大片,建议长期固定加。

06|我现在怎么写 AI 视频提示词?
AI 视频里,我会额外加一段稳定性约束:
动作幅度要小,人物空间位置保持稳定,不要突然跳变,不要改变人物身份、服装、发型和脸部结构。镜头运动缓慢,人物动作连续,身体接触点稳定,衣服和头发运动符合风或水流方向。
视频提示词最重要的不是“写得很炫”。
而是把几个东西写清楚:
镜头怎么动;
人物怎么动;
动作从哪里开始;
动作到哪里结束;
动作幅度大还是小;
衣服、头发、道具往哪个方向运动;
人物和背景的空间关系是否保持稳定。
比如婚纱视频里,我会尽量让动作克制:
新娘低头整理裙摆;
新郎站在右后方半步;
镜头缓慢推近;
烛光轻微摇晃;
婚纱拖尾轻轻摆动;
两人位置不发生大幅变化。
这种比“新人旋转拥抱、镜头 360 度环绕、婚纱飞舞、城堡变换”稳定得多。
AI 视频不是不能做大场面。
但最好先从稳定的小动作做起,再通过剪辑、节奏、转场把它变炫。
07|最后总结
AI 能理解画面,但它理解的是“图像经验”,不是“物理建模”。
所以做 AI 图片和 AI 视频,不能只让 AI 帮你想象。
你要替它把空间搭好。
尤其是双人写真、婚纱照、水下大片、故事感短片这类内容,越需要你像导演一样写提示词。
风格决定第一眼好不好看。
空间关系决定这张图能不能经得起看。
我现在觉得,AI 视觉创作真正的门槛是,你能不能把一个画面拆成:
人物、空间、镜头、动作、光线和物理关系。
当你开始这样写提示词,AI 出来的图和视频,才会从“像 AI 生成的漂亮图”,慢慢接近“像真的拍出来的画面”。

