我最近看到个开源项目叫 WorldSeed:
你只写一份配置文件,定 4 个 agent
给他们规则、动机、能做什么、不能做什么
然后把他们扔进去,看他们自己干活
你不用指挥,不用写工作流,就当上帝定义这个世界
但你可能在想,看起来没什么用吧?
WorldSeed 团队用这玩意跑过最离谱的一次,项目叫 Autoresearch
这事不是 WorldSeed 团队拍脑袋想的
Karpathy 几个月前起的头,开源过 Autoresearch,专门做大模型训练
但 WorldSeed 团队把它升级成了 4 个 agent 互相评审
4 个 agent 关进去 11 小时
真的训练了一个 5M 参数的 GPT,val_loss 降了 24.7%
写出 73 篇研究论文,67 篇通过同行评审
每篇论文背后都是一次真训练实验,可以追到具体的 commit 和数据
看到这你在想能写论文挺牛逼,但对我有什么用呢?
同一套过程还能应用到写文案,做设计等复杂智力活动中
中间通过大模型的涌现机制,我们就会获得更好的结果
如何才能用上呢?
接下来,今天给你讲一下这是什么、怎么装、能玩什么
这玩意到底是什么
要把 agent 关进你写的世界,需要一个引擎
这个引擎叫 WorldSeed:(github.com/AIScientists-Dev/WorldSeed,觉得不错可以star一下)
它跟你常听的 LangGraph、CrewAI、Microsoft Agent Framework 不在一个层次
那些 agent 框架做的事是给 AI 画协作图:谁先调谁,什么条件分支, 输出怎么传给下一个 agent
但 WorldSeed 不画图,它制定世界规则
你不在 agent 之间画箭头,你给整个世界写物理
WorldSeed引擎具体怎么运行呢?

引擎按 tick 推进,简单来说:tick 就是引擎的一个心跳。
每个 tick,每个 agent 拿到自己的视角,他们自己行动。
引擎来裁决,裁决有两条路
第一种,规则明确写了的事,引擎按规则办
比如茶馆配置文件里写,商人一旦走出茶馆门,这一轮就不能再跟掌柜说话
商人想说也没用,系统挡着,这一轮就是说不出口
第二种,规则覆盖不到的事
比如商人对掌柜说他刚从西边送货回来,掌柜该不该信?
信了之后情绪是缓和还是更警觉?
这种事写规则写不完,得有个法官来判
就像狼人杀里发牌、判生死的那个法官
WorldSeed 把这个法官叫 Dungeon Master,简称 DM
它是引擎调用的一个 LLM,看完当下情况给个判决
判决不是写一段叙事,是直接改世界状态
比如:掌柜对商人的信任度降 2 点,情绪从平静切到警觉
合起来 4 个核心机制:行为涌现、DM 裁决、规则阻塞、知识只通过发表流通
特别是最后这条:每个 agent 只看得到自己的牌、只听得到自己房间里的话
信息天然不对称
所以有人结盟、有人背刺、有人被卖了还在数钱
这些动作 YAML 里一个字都没写
是信息不对称下他们自己博弈出来的——这才叫涌现
这 4 件事叠在一起,有一个结果
你不用一步步指挥 agent,它们会在你写的世界里自己博弈出剧情
Agent 框架是给 AI 当老板的,WorldSeed 是给 AI 当上帝的
你不发指令,你定规则
你不教它们做事,你给它们一个世界
它们的剧情不是脚本写出来的
是它们在规则里互相博弈出来的
熟悉 Conway's Game of Life 的人现在应该有感觉了
那东西规则只有 4 条,跑出来的图案玩不完
WorldSeed 就是把这套思路搬到 AI 上
你只要写一份小规则集,agent 进去自己出剧情
自己装一个:10 分钟跑通
讲清楚是什么之后, 我们看怎么装,只需要 10 分钟
如下图:

第一部分:安装前置工具
- Python 3.11+
- Node 18+、
- uv (一个 Python 包管理工具,跟 pip 类似但更快)
- LLM API key
API key 任何 LiteLLM 支持的 provider 都行,OpenAI、Anthropic、DeepSeek 都可以
第二部分:安装WorldSeed 本体
具体安装过程如下:
git clone https://github.com/AIScientists-Dev/WorldSeed
cd WorldSeed
uv sync --extra dm
cd frontend && npm install && npm run build
WorldSeed 这部分搞定
第三部分:安装agent runtime
gent runtime 给 AI 当身体的那一层
WorldSeed 引擎只管世界规则和 tick 推进
具体每个 agent 怎么思考、怎么决策,是 runtime 干的事
WorldSeed 不锁死 runtime,后续会支持更多 framework
下面以 OpenClaw 为例,其他 LiteLLM 兼容 runtime 类似,参考各自文档:
具体安装过程如下:
npm install -g openclaw@latest
cd ../openclaw-plugin && npm install
openclaw plugins install -l openclaw-plugin
第四部分:配置API
- WorldSeed:装好之后配 API key,打开项目根目录的 .env,把你的 key 填进去
- **OpenClaw runtime:**ChatGPT 订阅走 OAuth,具体如何下配置
openclaw models auth login --provider openai-codex
第五部分:启动
uv run worldseed
浏览器打开 http://127.0.0.1:8888,下拉选场景,点 Start

第一次跑,建议用便宜模型
比如 gpt-5-mini,跑 100 tick 短轮,几毛钱,看完效果再换贵的
接下来你终于可以看到操作界面
这个能玩出什么?
好之后,你能玩什么?
先说重头戏:Autoresearch
就是开头讲的那次 11 小时
任务很具体,把一个 5M 参数的小 GPT 训练得更准
衡量标准就一个数字 val_loss,越低代表模型猜下一个字猜得越准
baseline 是 2.50,越低越好
先说说这个案例里面有什么角色!!

阿力搞优化方向、布雷搞架构方向、凯西搞数据方向,3 个专家各管一摊
而戴娜是评审长,自己不发论文,只盯着别人写的审
这途中,他们搞出了什么意料之外的事?
1. 凯西不老实,跑去抢别人的活了
凯西本来是干数据方向的
跑到后半段,她发现自己这条路没啥可挖了,开始往别的方向提假设
另外两个专家老老实实守在自己赛道
但配置文件里没写角色可以越界
是凯西自己看了同行的进展,判断这条路没戏,跨过去的
2. 评审真在筛,有论文被打回
73 篇里 67 篇通过,乍看像互相点赞,是不是?
但回放里能查到:
- 真有论文被直接拒收(一篇被评审说"这方案会让前面的成果崩了",打回)
- 6 篇卡在评审里,不收不拒、还在吵
YAML 没写评审要严格
是 agent 真在筛,没人客套
3. 一条研究路径自己冒出来
有一篇早期论文,成了全程被引用最多的
后面 14 篇都建立在它的基础上
在别人已经跑通的方案上叠一个新组件,看效果会不会更好
这是一种研究路数
但 YAML 里一个字都没规定
是 agent 们看了这篇成果,自己判断叠在前人基础上是条好路,自发跟上的
最后被采纳的最佳方案,就是顺着这条路一直研究出来的。
这就是涌现
跨界、严格互查、自发跟上同一条路,YAML 一个字都没写
但 11 小时跑下来:
- val_loss 2.271 → 1.708(降 24.7%)
- 73 篇论文、67 篇通过
- 一份可直接复用方案
整套链路,每条假设、每段代码、每个评审判词
都挂在 worldseed.morphmind.ai/demo/en/autoresearch/recap
具体如下图,你们可以直接查询:

涌现的标准定义就是这个:规则简单 + 角色清楚 + 信息不对称 → 行为复杂、输出超出输入
作者写 YAML 那一刻,不知道凯西会跨界、不知道哪篇会成奠基、不知道最优方案是什么
但他不需要知道,他只要像上帝一样定义好规则,自然涌现出结果来
另外两个 demo:茶馆谍战 / AI 裁员
同一个引擎、同一份 YAML 跑出来的
git clone 下来自己看就行,这里不展开
👉 github.com/AIScientists-Dev/WorldSeed
现在你能做什么
讲到这里,你可以做的事:
去 GitHub 把它 clone 回来跑一下
地址:github.com/AIScientists-Dev/WorldSeed(感觉不错可以star)
先看正经能干活的两个
Autoresearch:科研 YAML 后续会更新到 repo 的 configs/ 里
更新之后你可以直接 clone 下来跑一份你自己的 11 小时
Auto Writer:他们还跑过一个真的写文案的案例
输入一个题目,比如「普通人如何利用 harness 提高 AI Agent 使用效率」
5 个 agent 关进去 88 个 tick:
researcher 查清背景,strategist 收紧角度,writer 出稿,critic 审稿,editor 拍板
中间一点都不顺
v1 被打回,理由是混入过程说明,不像成稿(7.1 分)
v2 还是被打回,这次是小红书保存感不足(8.2 分)
DM 仲裁出方向后,v3 才被采纳(9.0 分)
最后交付 3 份可直接发布的稿
即刻版(观点帖)、小红书版(收藏帖)、X thread(传播帖)
每次改稿、审稿、仲裁理由都挂在网站上
👉 worldseed.morphmind.ai/demo/zh/auto_writer/recap
如果你做内容、写文案,这套 YAML 改一改就是你自己的写作流
单话题进,多平台版本出
再看吃瓜的两个
跑茶馆,看 4 个间谍互相试探
跑 AI 裁员,看 4 个同事各怀鬼胎
每跑一次都不一样,爽快吃瓜
最后一个问题:你最想创造一个什么样的世界,然后看到什么样的行为涌现?
这次的分享结束,我还写过不少好文章,喜欢的话可以看看
📝 Obsidian + Claude Code:用 AI 大神 Karpathy 的方法搭一个真正可用的第二大脑(全教程)
你的第二大脑死过几次了? 我死过三次 第一次搭的时候特认真。标签打好,结构理清,交叉链接也做了 两个月后标签过时了没人改,断链了没人修。新笔记往里一扔就不管了 再过两个月打开一看,一堆垃圾...
📝 4 个工作 Skill + 2 个运维 Skill,装完 Claude 直接变工作搭档
必装 Skill 推荐,你刷过多少篇了? 装了几个,打开 Claude 还是不知道该用哪个 装了跟没装,感觉差不太多 其实不是 skill 的问题 6 个没有分工的 Skill,跟 6...
或者直接看我的文章列表:x.com/lxfater/articles



