loading image

世界杯在波士顿,我问了 AI 一个问题——它让我决定掏钱买票

Posted by Enovace on June 18, 2026

世界杯在波士顿,我问了 AI 一个问题——它让我决定掏钱买票

Banner

2026 年世界杯在美国办,波士顿有球场,四分之一决赛就在家门口。这种事一辈子大概就一次。

问题是票价。四分之一决赛的票,还挺贵。。。我可不想花一大笔钱,结果看到两支自己不关心的队踢一场沉闷的 90 分钟。

所以我做了一件每个理性的球迷都会做的事:先搞清楚可能看到谁。

Match 97 是波士顿那场四分之一决赛的编号。对阵表上写的是 W89 vs W90——两个还没打出来的胜者。这意味着,这场比赛的参赛队伍取决于之前三轮淘汰赛的结果,有几十种可能的组合。

过去,这种问题的标准解法是:打开 Wikipedia,盯着对阵树看半小时,凭感觉说一句“大概法国对荷兰吧”,然后祈祷。但这一次不一样。

我把问题丢给了 Apodex。

它没有给我一个模糊的猜测。它是这么做的:

第一步,搞清楚这场比赛的来龙去脉。 Match 97 的对阵表上写的是 W89 vs W90——两个“Winner”。但它没有停在表面。它查了 FIFA 官方赛制和完整的淘汰赛对阵图,发现:W89 来自 E 组冠军线 + I 组冠军线那一侧,W90 来自 A/B/F/C 那条线。这两个半区在进入四分之一决赛之前完全是两条独立的故事线,互不影响。

第二步,沿着每条路径,做条件概率。 这是最关键的一步,也是它跟普通 AI 最不一样的地方。Match 97 是谁对谁,不取决于一场比赛——它取决于前面好几场淘汰赛的结果。以 W90 为例:W90 本身是一场十六强赛的胜者,而这场十六强赛的对阵双方又分别是 Match 73 和 Match 75 的胜者。所以算“荷兰成为 W90 的概率”不能直接拍一个数字——要先算荷兰从 Match 73 或 Match 75 晋级的概率,再乘上它在十六强赛中的胜率。每一步都是一层条件概率,每一个数字背后都是一条可以反查的逻辑链。

Image

它把所有相关小组的抽签结果和强队分布列出来,然后对每一条可能的路径做了这种分步概率估算。左边(W89)算出法国约 52%、德国约 40%、其余约 8%。右边(W90)算出荷兰约 34%、摩洛哥约 27%、韩国约 12%、加拿大约 5%、其余约 22%。

Image

第三步,组合起来。 因为两个半区独立——W89 那边不管打出谁,都不影响 W90 那边的结果——所以 Match 97 的任意一种对阵概率,就是左边概率乘右边概率:P(法国 vs 荷兰) = 52% × 34% ≈ 18%。其他组合同理。

Image

最终结果很清楚:法国 vs 荷兰,大约 18%。德国 vs 荷兰,大约 14%。法国 vs 摩洛哥,也是 14%。德国 vs 摩洛哥,11%。法国或德国对韩国,各 5-6%。其余冷门组合加起来不到三成。

它读了几十个来源,在数百步推理中交叉验证了每条路径的可能性,然后把结论压缩成了一张我能在十秒钟内看懂的排名表。更关键的是——它告诉了我它是怎么算出来的。每一条推理都有来源,每一条结论都能追溯。

看完结果我做了决定:买票。因为无论最后是法荷还是德荷,都是一场我值得坐在现场看的比赛。如果爆冷出了摩洛哥或者韩国,那也是世界杯的故事。但至少,我不是在盲猜——我是带着一套我能理解的、有证据支撑的概率模型做的决定。

这大概就是 Apodex 想做的事。

市面上大多数 AI 产品在“生成”——根据已有模式,产出一个看起来合理的回答。这在很多场景里够用了,但当你面对一个真正复杂的问题——那种没有人写下来过标准答案的问题——“看起来合理”就不够。你需要的是“被验证过是对的”。

Apodex 管这个叫 Discoverative Intelligence。它的核心不是更大的模型或更长的上下文窗口,而是一种不同的工作方式:当你问它一个问题,它不会让一个模型自己闭门思考然后给你一个答案。它会派出一整支 agent 团队——有的负责检索,有的负责交叉验证,有的专门检查前面的人有没有搞错。单次任务最多可以调动 150 个子 agent,跑超过 15,000 步推理。最关键的是,负责检查的那个人,不是负责推理的那个人——盲点不会传染。

它给自己这套架构起了一个很直白的名字:Heavy-Duty Solver。不是“更长的思考”,而是一支团队在工作。

在深度研究基准测试上,这套架构的表现是目前最强的——BrowseComp 90.3,DeepSearchQA 94.4,HLE-text 60.8,全部是 #1 或并列第一。而且他们开源了一个 35B 参数的 mini 版本,连它的 4B 小模型都在深度研究任务上超过了所有开源 30B 级别的对手。

但对我来说,benchmark 数字不如那场四分之一决赛的预测有说服力。因为它解决的是一个我真正面对的问题:在信息不完整、变量很多、没有标准答案的情况下,帮我做出一个有根据的决定。

世界杯四年一次。波士顿这场四分之一决赛,可能一辈子就这一回。我买了票——不是因为我确定谁会赢,而是因为我终于搞清楚了谁可能站在那片球场上。

这大概就是一个好 AI 应该做的事。

试试看,现在免费!apodex.ai