给Agent当上帝:你创造世界,他们交付结果

我最近看到个开源项目叫 WorldSeed:

你只写一份配置文件,定 4 个 agent

给他们规则、动机、能做什么、不能做什么

然后把他们扔进去,看他们自己干活

你不用指挥,不用写工作流,就当上帝定义这个世界

但你可能在想,看起来没什么用吧？

WorldSeed 团队用这玩意跑过最离谱的一次,项目叫 Autoresearch

这事不是 WorldSeed 团队拍脑袋想的

Karpathy 几个月前起的头,开源过 Autoresearch,专门做大模型训练

但 WorldSeed 团队把它升级成了 4 个 agent 互相评审

4 个 agent 关进去 11 小时

真的训练了一个 5M 参数的 GPT,val_loss 降了 24.7%

写出 73 篇研究论文,67 篇通过同行评审

每篇论文背后都是一次真训练实验,可以追到具体的 commit 和数据

看到这你在想能写论文挺牛逼，但对我有什么用呢？

同一套过程还能应用到写文案，做设计等复杂智力活动中

中间通过大模型的涌现机制，我们就会获得更好的结果

如何才能用上呢？

接下来，今天给你讲一下这是什么、怎么装、能玩什么

这玩意到底是什么

要把 agent 关进你写的世界,需要一个引擎

这个引擎叫 WorldSeed：（github.com/AIScientists-Dev/WorldSeed，觉得不错可以star一下）

它跟你常听的 LangGraph、CrewAI、Microsoft Agent Framework 不在一个层次

那些 agent 框架做的事是给 AI 画协作图：谁先调谁,什么条件分支, 输出怎么传给下一个 agent

但 WorldSeed 不画图,它制定世界规则

你不在 agent 之间画箭头,你给整个世界写物理

WorldSeed引擎具体怎么运行呢?

给Agent当上帝:你创造世界,他们交付结果配图 1

引擎按 tick 推进,简单来说：tick 就是引擎的一个心跳。

每个 tick,每个 agent 拿到自己的视角,他们自己行动。

引擎来裁决，裁决有两条路

第一种,规则明确写了的事,引擎按规则办

比如茶馆配置文件里写,商人一旦走出茶馆门,这一轮就不能再跟掌柜说话

商人想说也没用,系统挡着,这一轮就是说不出口

第二种,规则覆盖不到的事

比如商人对掌柜说他刚从西边送货回来,掌柜该不该信?

信了之后情绪是缓和还是更警觉?

这种事写规则写不完，得有个法官来判

就像狼人杀里发牌、判生死的那个法官

WorldSeed 把这个法官叫 Dungeon Master,简称 DM

它是引擎调用的一个 LLM,看完当下情况给个判决

判决不是写一段叙事,是直接改世界状态

比如:掌柜对商人的信任度降 2 点,情绪从平静切到警觉

合起来 4 个核心机制:行为涌现、DM 裁决、规则阻塞、知识只通过发表流通

特别是最后这条：每个 agent 只看得到自己的牌、只听得到自己房间里的话

信息天然不对称

所以有人结盟、有人背刺、有人被卖了还在数钱

这些动作 YAML 里一个字都没写

是信息不对称下他们自己博弈出来的——这才叫涌现

这 4 件事叠在一起,有一个结果

你不用一步步指挥 agent,它们会在你写的世界里自己博弈出剧情

Agent 框架是给 AI 当老板的,WorldSeed 是给 AI 当上帝的

你不发指令,你定规则

你不教它们做事,你给它们一个世界

它们的剧情不是脚本写出来的

是它们在规则里互相博弈出来的

熟悉 Conway's Game of Life 的人现在应该有感觉了

那东西规则只有 4 条,跑出来的图案玩不完

WorldSeed 就是把这套思路搬到 AI 上

你只要写一份小规则集,agent 进去自己出剧情

自己装一个:10 分钟跑通

讲清楚是什么之后, 我们看怎么装，只需要 10 分钟

如下图：

给Agent当上帝:你创造世界,他们交付结果配图 2

第一部分：安装前置工具

Python 3.11+
Node 18+、
uv (一个 Python 包管理工具,跟 pip 类似但更快)
LLM API key

API key 任何 LiteLLM 支持的 provider 都行,OpenAI、Anthropic、DeepSeek 都可以

第二部分:安装WorldSeed 本体

具体安装过程如下：

git clone https://github.com/AIScientists-Dev/WorldSeed
cd WorldSeed
uv sync --extra dm
cd frontend && npm install && npm run build

WorldSeed 这部分搞定

第三部分:安装agent runtime

gent runtime 给 AI 当身体的那一层

WorldSeed 引擎只管世界规则和 tick 推进

具体每个 agent 怎么思考、怎么决策,是 runtime 干的事

WorldSeed 不锁死 runtime，后续会支持更多 framework

下面以 OpenClaw 为例，其他 LiteLLM 兼容 runtime 类似，参考各自文档：

具体安装过程如下：

npm install -g openclaw@latest
cd ../openclaw-plugin && npm install
openclaw plugins install -l openclaw-plugin

第四部分：配置API

WorldSeed：装好之后配 API key，打开项目根目录的 .env,把你的 key 填进去
**OpenClaw runtime：**ChatGPT 订阅走 OAuth，具体如何下配置

openclaw models auth login --provider openai-codex

第五部分：启动

uv run worldseed

浏览器打开 http://127.0.0.1:8888,下拉选场景,点 Start

给Agent当上帝:你创造世界,他们交付结果配图 3

第一次跑,建议用便宜模型

比如 gpt-5-mini,跑 100 tick 短轮，几毛钱,看完效果再换贵的

接下来你终于可以看到操作界面

这个能玩出什么?

好之后,你能玩什么?

先说重头戏:Autoresearch

就是开头讲的那次 11 小时

任务很具体,把一个 5M 参数的小 GPT 训练得更准

衡量标准就一个数字 val_loss,越低代表模型猜下一个字猜得越准

baseline 是 2.50,越低越好

先说说这个案例里面有什么角色！！

给Agent当上帝:你创造世界,他们交付结果配图 4

阿力搞优化方向、布雷搞架构方向、凯西搞数据方向,3 个专家各管一摊

而戴娜是评审长,自己不发论文,只盯着别人写的审

这途中,他们搞出了什么意料之外的事？

1. 凯西不老实,跑去抢别人的活了

凯西本来是干数据方向的

跑到后半段,她发现自己这条路没啥可挖了,开始往别的方向提假设

另外两个专家老老实实守在自己赛道

但配置文件里没写角色可以越界

是凯西自己看了同行的进展,判断这条路没戏,跨过去的

2. 评审真在筛,有论文被打回

73 篇里 67 篇通过,乍看像互相点赞,是不是？

但回放里能查到:

真有论文被直接拒收(一篇被评审说"这方案会让前面的成果崩了",打回)
6 篇卡在评审里,不收不拒、还在吵

YAML 没写评审要严格

是 agent 真在筛,没人客套

3. 一条研究路径自己冒出来

有一篇早期论文,成了全程被引用最多的

后面 14 篇都建立在它的基础上

在别人已经跑通的方案上叠一个新组件,看效果会不会更好

这是一种研究路数

但 YAML 里一个字都没规定

是 agent 们看了这篇成果,自己判断叠在前人基础上是条好路,自发跟上的

最后被采纳的最佳方案,就是顺着这条路一直研究出来的。

这就是涌现

跨界、严格互查、自发跟上同一条路,YAML 一个字都没写

但 11 小时跑下来:

val_loss 2.271 → 1.708(降 24.7%)
73 篇论文、67 篇通过
一份可直接复用方案

整套链路,每条假设、每段代码、每个评审判词

都挂在 worldseed.morphmind.ai/demo/en/autoresearch/recap

具体如下图，你们可以直接查询：

给Agent当上帝:你创造世界,他们交付结果配图 5

涌现的标准定义就是这个:规则简单 + 角色清楚 + 信息不对称 → 行为复杂、输出超出输入

作者写 YAML 那一刻,不知道凯西会跨界、不知道哪篇会成奠基、不知道最优方案是什么

但他不需要知道，他只要像上帝一样定义好规则，自然涌现出结果来

另外两个 demo:茶馆谍战 / AI 裁员

同一个引擎、同一份 YAML 跑出来的

git clone 下来自己看就行,这里不展开

👉 github.com/AIScientists-Dev/WorldSeed

现在你能做什么

讲到这里,你可以做的事:

去 GitHub 把它 clone 回来跑一下

地址:github.com/AIScientists-Dev/WorldSeed（感觉不错可以star）

先看正经能干活的两个

Autoresearch:科研 YAML 后续会更新到 repo 的 configs/ 里

更新之后你可以直接 clone 下来跑一份你自己的 11 小时

Auto Writer:他们还跑过一个真的写文案的案例

输入一个题目,比如「普通人如何利用 harness 提高 AI Agent 使用效率」

5 个 agent 关进去 88 个 tick:

researcher 查清背景,strategist 收紧角度,writer 出稿,critic 审稿,editor 拍板

中间一点都不顺

v1 被打回,理由是混入过程说明,不像成稿(7.1 分)

v2 还是被打回,这次是小红书保存感不足(8.2 分)

DM 仲裁出方向后,v3 才被采纳(9.0 分)

最后交付 3 份可直接发布的稿

即刻版(观点帖)、小红书版(收藏帖)、X thread(传播帖)

每次改稿、审稿、仲裁理由都挂在网站上

👉 worldseed.morphmind.ai/demo/zh/auto_writer/recap

如果你做内容、写文案,这套 YAML 改一改就是你自己的写作流

单话题进,多平台版本出

再看吃瓜的两个

跑茶馆,看 4 个间谍互相试探

跑 AI 裁员,看 4 个同事各怀鬼胎

每跑一次都不一样,爽快吃瓜

最后一个问题：你最想创造一个什么样的世界，然后看到什么样的行为涌现？

这次的分享结束，我还写过不少好文章，喜欢的话可以看看

📝 Obsidian + Claude Code：用 AI 大神 Karpathy 的方法搭一个真正可用的第二大脑（全教程）

你的第二大脑死过几次了？我死过三次第一次搭的时候特认真。标签打好，结构理清，交叉链接也做了两个月后标签过时了没人改，断链了没人修。新笔记往里一扔就不管了再过两个月打开一看，一堆垃圾...

📝 4 个工作 Skill + 2 个运维 Skill，装完 Claude 直接变工作搭档

必装 Skill 推荐，你刷过多少篇了？装了几个，打开 Claude 还是不知道该用哪个装了跟没装，感觉差不太多其实不是 skill 的问题 6 个没有分工的 Skill，跟 6...

或者直接看我的文章列表：x.com/lxfater/articles

给Agent当上帝:你创造世界,他们交付结果

我最近看到个开源项目叫 WorldSeed:

这玩意到底是什么

自己装一个:10 分钟跑通

这个能玩出什么?

现在你能做什么

You May Also Like

CATALOG

这玩意到底是什么

自己装一个:10 分钟跑通

这个能玩出什么?

现在你能做什么

You May Also Like

CATALOG

Related Posts