loading image

Codex App那些CLI做不到的事——12个GUI专属功能

很多人用 Codex CLI,但 OpenAI 在桌面 App 上下的功夫其实远不止命令行。

Posted by Enovace on June 6, 2026

很多人用 Codex CLI,但 OpenAI 在桌面 App 上下的功夫其实远不止命令行。

我已经把日常写程序从 CLI 搬到了 Codex App,更推荐 App 版本。等人机交互的模式摸清楚之后,设计良好的 GUI 终究会超越纯命令行体验。

还有一点:CLI 的上手门槛对非工程师来说还是偏高。要开终端机、要记指令、要懂参数,这关就把很多设计师、PM、行销的人挡在外面了。Codex App 的 GUI 设计,等于把参与 AI 开发流程的门槛一口气拉低。

这篇就来列一下 Codex App 里那些「只有 GUI 才办得到」的功能,CLI 里根本想象不到的玩法。

Appshots:截图的同时连画面外的文字也一起读进去

按住左右两个 Command 键,Codex 就会把你鼠标所在的窗口截图,自动塞进输入框。

这不只是截图。它会同时把窗口里的文字——包括已经滚出画面的部分——一并传给 Codex。跟 computer use 一样的逻辑:拿得到 App 里的完整文字,不只是肉眼能看到的那一块。

实际用起来很有感:以前在浏览器看到一个 bug,得自己截图、粘贴、再打字补上下文。现在一个快捷键,完整上下文直接进去了。

官方文档:Appshots

Remote Control:手机也能控制另一台电脑上的 Codex

Codex 可以远端控制跑在另一台机器上的 Codex。手机的 ChatGPT App 能遥控,桌面版的 Codex 也能遥控另一台机器,连屏幕锁定状态下都能跑。

有意思的是 Linux 上的 Codex 也能被远程控制——在那台 Linux 上跑 codex remote-control,它就起一个 Codex server,然后你用 Mac 或手机上的 Codex App 去遥控这台机器。据社区实测,拿 Ubuntu Desktop 来远程遥控、打开 Chrome 都没问题,比 SSH 好用多了(以当前版本为准)。

实际场景:写代码写到一半要出门,掏出手机就能继续在那台开发机上跑任务、审 diff、改方向,不用带电脑。

Codex App那些CLI做不到的事——12个GUI专属功能 配图 1

官方文档:Remote connections公告原文

$browser / @chrome / @computer:三种让 Agent 操作界面的方式

三种用途不同,选错会很别扭:改 UI 用 $browser,需要登录状态用 @chrome,要操作桌面软件才用 @computer

$browser(内建浏览器)

侧边面板里直接嵌了一个浏览器。你跟 Codex 看着同一个正在跑的页面,直接在元素上标注、留言、要求调整,它就照着改、即时刷新给你看。前端 UI 迭代用这个最顺。

Codex App那些CLI做不到的事——12个GUI专属功能 配图 2

Codex App那些CLI做不到的事——12个GUI专属功能 配图 3

官方文档:Browser

@chrome(接你已登录的 Chrome)

可以在后台同时跑多个标签页:每个任务开一个 tab group,做完自动清掉,只在需要你 review 时才把标签交还。你照常用浏览器,它不干扰你。适合在登录后的网站做 deep research、把数据批量搬进 CRM,或自动化内部后台操作。

官方文档:Chrome extension

@computer(桌面 GUI 操作)

后台跑,交代下去之后 Agent 在桌面背景执行,你继续手边的工作。能平行跑多个 Agent 各自有独立的鼠标指针,互不干扰。

官方文档:Computer use

语音输入:App 内建,不需要再装其他工具

App 内建语音输入,不用另外买 Whisper Flow 之类的工具。设好快捷键,在任意地方直接口述。

最大的用法不是省力打字,而是在想法还没被压缩时先把它说出来——语音能捕捉到想法被整理成精致文字「之前」的那个粗糙原始版本。

「去找一下 Ben 在 Slack 里提过的那个东西」——这种带语感的指令,打字反而会懒得写完整。

Steering 和 Queuing:它还在跑,你就能先打字

Codex 还在输出、还在跑工具时,不必等它停下来。直接在输入框打字送出,分两种用法:

  • Steering(插队改方向):不等当前步骤做完,立刻打断,塞进新的指示。适合你看着它往歪的方向走、想即时纠正的时候:「等等,你在删别的文件?先停下」「先别动数据库」。
  • Queuing(排队接着做):不打断当前步骤,让这条消息排进队列,等它把手上这步做完再执行。适合已经想好下一步:「跑完记得开个 PR」「接着把测试补上」。

CLI 也做得到这两个,但你得记住快捷键才能正确切换。GUI 把选项直接摊在界面上让你点,一看就知道该按哪个。

钉选 Threads:不让工作记录变成用完即丢

每一条重要的工作流,都值得保留一条钉选的对话串。这些 thread 会累积历史与决策,变成耐用的记录,不是用完即丢的对话。

以前大家觉得一条对话不应该越拖越长——上下文会越来越乱,越来越影响回答质量。但钉选 Thread 的思路是:只要你知道会用子任务分流,主线程拿来当记录本没问题。

Fork:从任意一条 AI 输出岔出一条新 thread

在 GUI 里可以对之前任意一条 AI 输出点「fork」,拆出一条新的 thread,从那个点接着走别的方向,原来那条对话原封不动。

最常见的用法:你在处理功能 A,半路发现一个 bug,与其在原本对话里插一段把上下文搅乱,不如直接从当下这条消息 fork 出去,在新 thread 里专心修 bug,而它先前累积的东西——摸熟的 codebase、讨论好的计划——全都带着走。

CLI 也有 /fork,但社区里就有人抱怨对话开头都长得一样,根本分不清该 fork 哪一条。GUI 把整条 transcript 摊在眼前,直接点那一条输出就能 fork,分叉点一目了然,不用靠记忆。

平行多工:一个窗口同时跑很多条任务

左侧栏就是 threads list,每一条 thread 是一个独立的任务。同一个窗口里同时跑多条 thread,各自独立推进,左栏扫一眼就知道每条跑到哪、哪条完成了、哪条卡住要你处理。

CLI 上这点特别痛:一个窗口就是一条对话,想平行就得自己开一堆终端机标签页、自己记哪个在做什么。也因此市面上冒出一大批工具专门来补这个洞,像 cmux、Claude Code 最近也补上了 Agent View。Codex App 则是一开始就把平行多工内建在界面里,不用外挂。

Codex App那些CLI做不到的事——12个GUI专属功能 配图 4

Thread Automations:你不在,它还在推进——定时唤醒同一条 thread

这个概念很像周期性的心跳调用:依排程回到同一个 Codex 线程继续推进,而不是每次都从头开一个新的。

支持分钟级的频繁轮询,也能设每日/每周的定时 check-in(以当前版本为准)。特别适合做反馈回路:监看 pull request 留言、Google Docs 留言或 Slack 回复,在你不在座位时持续推进周边工作。

写 automation prompt 时要交代清楚:每次醒来该做什么、怎么判断有没有重要发现、何时该停下来问人。

官方文档:Automations

侧边面板:你和 Agent 盯着同一份工件

侧边面板可以就地检视 Markdown、表格、数据表、文件和幻灯片,还有 terminal、浏览器、文件浏览。

关键是你和 Agent 看的是同一份工件:不用中断流程,就能检查、标注、修订。

配合进阶注记模式,可以在内建浏览器里直接拖拉、调整页面元素并留批注,多条修改攒成一批一起送。git diff 的 code review 也一样:右侧直接看变更、逐行留 inline 注解、挑 chunk 分段 commit,全程不离开 App。

CLI 的输出跑完就消散,你没法跟 Agent 盯着同一份表格、同一张幻灯片边看边改。这是结构上的差别,不是功能多少的问题。

Codex App那些CLI做不到的事——12个GUI专属功能 配图 5

影像生成:在同一条对话里直接生图

OpenAI 自家有影像模型(GPT-Image-2),Codex App 直接把它整合进来了:在对话里就能叫 Codex 生成或编辑图片,不用切到别的工具。

最直接的用法是做 UI 素材、banner、插图、游戏 sprite sheet、幻灯片 mockup——要几张生几张、要微调再让它改,整个过程在同一条 thread 里完成。

Codex App那些CLI做不到的事——12个GUI专属功能 配图 6

进阶玩法:先生 UI 图,再让 Codex 对照写 code

更有意思的玩法是反过来:先用 GPT-Image-2 生出一张 UI 设计图,再让 Codex 对照那张图去产生对应的 code。先有视觉、再有实作——而不是让 AI 直接生 code 把画面撞出来。

Goals + 侧边面板:长任务跑着,你随时能看到哪里卡了

/goal 给一个目标,Codex 就一路执行到完成,过程可能横跨数小时甚至数天。GUI 的差别在于「怎么看进度」可以做得很舒服。

一个好用法:让 goal 一边跑,一边产出一个 HTML 进度仪表板,直接用 Codex 内建浏览器开在侧边面板。左边是 Agent 在做事,右边是即时更新的图表和指标(完成度、匹配率、各 commit 的进展),一眼就看到跑到哪了。

Codex App那些CLI做不到的事——12个GUI专属功能 配图 7

还有一招:对一个跑很久的 goal,开一个 /side chat——不影响主任务,又带着完整上下文,直接问「目前进度如何?还要多久?」

**目标的品质决定一切。**弱的目标像「把这份 Markdown 实作出来」,强的目标带着可衡量的成功标准——比如直接拿现有的测试套件当验证标准。goal 写模糊,结果就会模糊。

官方文档:Follow goals

为什么这些是 GUI 才办得到的?

侧边面板让 Codex 不再只是一个聊天 App,而是变成了工作真正发生的地方。重点不只是 Codex 能产出工件,而是你能在不打断回路的情况下,当场检视并标注它——CLI 的输出跑完就消散,你没法跟 Agent 盯着同一份表格边看边改。CLI 仍然有它的价值:轻快、可组合、好自动化,方便接进 CI 或排程脚本。但 GUI 把「对话」升级成了「工作台」,这是命令行怎么也塞不进来的。

如果你现在用 CLI,最快的入场是下载 Codex App 后先试 Appshots(双 Command 键截图)和侧边面板。其他功能按需取用,不必一次全开。

mousepotato(土豆哥)| 美国计算机全奖博士 | 硅谷 11 年技术管理 | AI · OPC · 产品 | X @iluciddreaming

关注我,获取 AI 前沿、技术、管理、产品、英语和硅谷生活见闻。