一个利用好 SEO 的赚钱故事
Piotr Obidowski 是个波兰独立开发者。白天上班,产品只能靠下班后那点时间慢慢做。
他做了一个叫 Visualizee.ai 的工具,给建筑师和室内设计师用 AI 出渲染图。你用大白话描述想要的空间,它生成超写实效果图。
这东西头两年基本没起色。卖一次性付费,月流水停在 100~150 美金。注意,这里说的是总收入,不能按 MRR 看。他自己复盘,拖后腿的是产品复杂度。建筑师不想学怎么写 300 个字的 prompt,他们只想把脑子里的画面说出来,然后拿到图。
六个月前,他把产品推倒重做,做成一个叫“Vizzy”的对话助手。用户跟它说人话,支持 140 多种语言;它在背后把 prompt 工程处理掉,用户根本看不见那一层。接着,他开始认真做 SEO。
他有句原话很直白:
“要我只挑一件最拉动增长的事,那毫无疑问是 SEO。”
具体做法也不玄。上 Ahrefs,学关键词研究,开始写内容。因为域名有点年头,早年攒过一些目录外链,也有一点基础权重,新内容排得特别快,跳过了通常 36 个月的等待期。每天落地页能进 180200 个精准访客。高意图流量碰上一个终于能转化的产品,MRR 才真的动起来。
半年后,$8.6K MRR,其中约 50% 的流量来自 Google SEO。一个人,业余时间。
更值得记的是他后面那段话:
“SEO 没法设好就不管。现在到了六个月这个节点,我反而看到流量在轻微下滑。搜索环境一直在变。我眼下最优先的事,是回到分析后台,调关键词,把文章重新对齐变化的搜索意图,刷新内容。它更像跑步机,不像终点线。”
这句话把 SEO/GEO 的底层状态讲透了。它没法搭完就收工,更像一台需要人盯着的跑步机。agent 有用的地方也在这里:重复、可规模化的活交出去,人留下来管策略、踩刹车、判断什么时候该转向。
今天这篇,就讲这台跑步机上哪些段落能交给 agent,哪些段落必须留在人手里。
故事来源:Piotr Obidowski,《From $150/month to $8.6K MRR》

你为什么一定要看这篇
我把工作流拆成六个方向:

1.1 这套东西解决什么
- 时间杠杆:像 Piotr 那种“一个人 + 9-5”的结构,最稀缺的是时间。agent 把可规模化的活接走,人才能腾出精力做不可规模化的判断。
- 平行战场:搜索入口正在裂成两块,传统 SERP 和 AI 回答。你得同时在两个表面上被看见,纯手工很难长期盯住。
- 可复用积木:主流 SEO 数据源现在都开了 MCP/API。你可以自己搭 harness,把积木接起来,不必整租一个黑箱 SaaS。
1.2 你在赚什么钱
大概三种。
- 时间差的钱:早动手的人,可以趁多数品牌还没反应过来,先把“被 AI 引用”的权重攒下来。现在超过一半的品牌还没有 GEO 策略,这个窗口还开着。
- 信息差的钱:哪些数据源有 MCP,各自给什么,怎么接。知道的人能照着搭,不知道的人还在按月交 SaaS 智商税。
- 转化效率的钱:AI 带来的流量,转化率大概是 Google 自然搜索的五倍。前者约 14.2%,后者约 2.8%。一次 AI 引用,顶得上五次传统自然点击。
1.3 几个该背下来的硬数字
- AI Overview 一出现,传统结果的自然点击率会掉约 61%;但只要你的品牌被引用进那段 AI 回答里,点击率反而比传统自然结果高约 35%。
- 被引用的来源高度集中,头部 20% 的域名吃掉了 80% 的 AI 引用。
- 44.2% 的 LLM 引用来自正文前 30% 的内容,开头那几十个字是黄金引用位。
- 给页面加上规范的 schema 标记,被 AI 引用的概率高 30~40%;给内容堆上引用和专家引述,AI 可见度能再拉高四成以上。
- 大盘上,已经有近六成消费者用生成式 AI 替代传统搜索做产品推荐;Gartner 甚至预测,到 2028 年传统自然搜索流量会跌一半。
1.4 风险先放在这
- 低风险:用 agent 做检索、结构化分析、草稿。错了也好兜。
- 中风险:用 agent 改 schema、批量生成落地页。这里可能触发 Google 的规模化内容判定。
- 高风险:全自动发布,再加上弱 prompt 喂出来的垃圾内容。被算法当成 spam 批量打击,一损损一片。
方向一:把工作流拆成“谁拥有哪一环”

完整链路大致长这样:
选题与意图发现 → SERP/竞品分析 → 大纲 → 初稿 → SEO 优化(标题、内链、schema)→ GEO 结构化(让内容可被 AI 引用)→ 技术审计 → 发布 → 监测 → 回流再优化
只知道每步是什么还不够。你还得判断每一步归谁:agent 能独立干,agent 先打草稿再由人拍板,还是必须人来。

一个真实的小工作流长什么样
有人用 n8n 搭了个特别朴素的流程。你可以把 n8n 理解成“会思考的 Zapier”,它不只在节点间传数据,还会解释、转换、决定下一步。
流程就四步:
抓 RSS → 出摘要 → 转 HTML → 推送到 Teams/Gmail
这里有个细节很真实。一开始,他想让同一个 AI 节点既做摘要又做 HTML 转换。结果 prompt 一变长,性能就开始退化,多半是撞上了 LLM 的上下文限制。后来拆成两个节点,一个只管摘要,一个只管转 HTML,流程反而稳定了。
这个细节比很多大词有用:别让一个 agent 节点同时干两件事。焦点单一的小任务,串起来更容易跑。
agent 在技术审计上会怎么坑你
这类 agent 的边界也得拎清楚,照抄给你拿去避坑:
- 平台还不成熟,核心更新经常把节点或工作流搞崩,未来一两年都得多盯着。
- 它不擅长跨多数据源的彻底技术审计,也不擅长大规模数据分析。
- LLM 会机械套用“通用最佳实践”。比如它会给一个其实是图片的 URL 报“缺 meta description”,可图片根本不支持 meta。
收益通常来自小而实用的工作流。别一上来就做大改造。先画清楚归属,再谈接什么工具。顺序反了,你只会攒一堆工具,攒不出工作流。
方向二:每个环节 agent 实际调用什么
“真实”二字的核心,就在这一章。
现在最大的信息差是:主流 SEO 数据源已经把 MCP 和 API 开出来了。你不必再租一个黑箱 SaaS,可以自己搭 harness,把积木接上完整数据集,再用自然语言驱动。

几个实战细节
光接上还不够,有几条踩坑经验比官方文档实在。
- 必须在 prompt 里点名“用 Ahrefs MCP 服务器”。否则 AI 经常自作主张跑去搜网页,不调你接好的数据源。
- 它按响应时长分三级:简单 prompt 一两分钟,比如“这 10 个站今年 1 月到 9 月自然流量谁涨了”;中等请求几分钟,比如批量拉 20 个站的权重、流量、前三排名做成表;重型请求十分钟以上,比如一次分析 5 个站的外链画像。
- 越深的请求越烧额度,而且你的账户等级决定单次能拉回多少行。要明确指定站点数、关键词数、时间范围,别让它漫无目的地烧。
- 我自己的偏好:调工具这件事,Claude 比 ChatGPT 好用。ChatGPT 那边的 MCP 连接器还在 beta,时不时抽风。
一条可以直接抄的 prompt:
你是 SEO 专家。用合法白帽方式提升 [我的站] 的自然流量。
你手上有这颗星球上最好的 SEO 数据(Ahrefs MCP)。
先研究我的站和所在行业最相关的信息,再给我你认为合适的建议。
三个判断
- 官方 MCP 优先于第三方封装。直接接官方的,别被中间商再扒一层皮。
- MCP 解决的是“接数据”,决策还得你自己做。接上之后 agent 能拿到全量数据,但“这批关键词该不该做”还是上一章那张归属表说了算。
- 自己搭 harness 和租黑箱 SaaS,差别很大。黑箱 SaaS 你看不见它怎么判断,改不了它的 prompt,数据进出也被它攥着。自己用 MCP 拼,积木是你的,prompt 是你的,崩了你知道崩在哪。
方向三:GEO 监测器,自己用 agent 搭一个
先把本质说清楚:GEO 是一个独立的测量层。AI Overviews、ChatGPT、Perplexity 这些界面,在 Search Console、Ahrefs、Semrush 里全都看不到。它是平行表面,得用平行的测量。
传统排名工具在这儿会失灵:
- AI 用的是 RAG 检索,从多个源里抓,再合成一个答案,传统排名那套列表逻辑用不上。
- 用户要的是答案。你排第一,但 AI 不引你,等于零。
- 同一个问题每次回答都在变。监测必须靠持续采样、统计抽样,不能测一次就下结论。
- 平台之间是割裂的。你可能在 ChatGPT 里有,在 Perplexity 里完全消失。
4.1 这套测量动作本身就是标准 agent 任务
自动把一批 prompt 发给各个 AI 引擎 → 解析每条回答 → 看里面有没有你的品牌、被引用了哪些来源 → 落成可追趋势的报告
最小骨架:
1. prompt 库:覆盖核心品类的真实用户问法,商业、信息、对比意图混搭
2. 引擎分发:每条 prompt 发给 ChatGPT / Perplexity / Google AIO / Claude / Gemini
3. 回答解析:品牌出现了吗?被引用了吗?引了谁家来源?语气是褒是贬?
4. 中性地理:从中性地理位置跑,消除个性化偏差;分国家、分语言跑
5. 落库出报告:按周、按月看出现率与引用结构的漂移

4.2 四个该测的指标
- 品牌提及频率:相关问题里,AI 多频繁提到你。
- 引用率:你的站有没有作为来源出现在回答里。它相当于 GEO 版的“外链”。
- AI 话语权(Share of Voice):跟对手比的提及占比。举个扎心的例子:对手在 60% 的相关回答里出现,你只有 15%,这个差距就是丢掉的生意。
- 跨平台表现 + 情感定位 + 地理表现:哪个平台强哪个弱,AI 怎么“描述”你,不同市场差多少。
目标值可以先这么定:核心品类查询里,先争取出现在 30%+ 的 AI 回答中;头部品牌能到 50%+。
4.3 prompt 库要多大
- 手动测试一般 15~20 条起步,每周固定追踪 20 条左右。
- 要做成能看趋势的稳定报告,实践里得往 150~300 条堆。输出每次都在变,样本太小,你看到的全是噪声。
- 引用结构一直在漂。每月有 40~60% 的被引来源会变,监测得当成常态纪律,不能只做季度体检。
4.4 各引擎的脾气不一样
- ChatGPT(八亿多周活):实时检索看结构、完整度、语义相关。九成的引用来自 Google 前 20 名之外,它用的是另一套信号。
- Perplexity:偏爱新内容(近 12 个月)和社区内容。Reddit 占了它 46.5% 的引用。
- Google AI Overview:还是偏爱传统排名好的内容,最爱引 Reddit(21%)和 YouTube(18.8%)。
读结果也有套路。高提及、低引用,通常说明你内容不够结构化,或者权威感不够,需要补统计数据和专家引述。单平台强、其他弱,多半是各平台数据源不同,要调分发。整体下滑,要么对手在产出更值得引用的料,要么你内容老了。
方向四:哪些环节坚决不能交给 agent
5.1 全自动在哪崩
- 发布速度受制于 CMS API:很多链路最后一公里堵在这里。发布做不到干净的全自动,硬上就会带出脏数据。
- 弱 prompt 喂出垃圾:prompt 不行,agent 就是个高速垃圾生产机。量越大,塌方越快。
- agent 会机械套通用规则:上一章那个“给图片 URL 报缺 meta description”就是活例子。
5.2 Google 的红线:规模化内容滥用
这是必须画清的边界。Google 官方对规模化内容滥用的定义,大意是:
只要大量页面的主要目的变成操纵搜索排名,而用户没有得到实际帮助,就会被算进规模化内容滥用。它怎么生成出来,并不重要。
它点名的例子里,有两条跟做 agent、做出海的人直接相关:
- 用生成式 AI 工具批量生产页面,却没给用户增加价值;
- 抓取信息流或搜索结果来生成大量页面,包括同义改写、翻译这类自动化转换的混淆手法,而价值很低。
要看的是最后那层意思:Google 不盯“有没有用 AI”,它盯规模化低价值内容。
反过来看,这也是好消息。用 agent 产出真有价值的内容,不在打击范围;但“机翻一批英文站冲量”“同义改写洗一堆页面”这种,正好踩在它枪口上。
5.3 业内现在的共识
别迷信全自动。现在更靠谱的做法是混合模式:agent 管执行,人管策略。
回头看开头 Piotr 那句“跑步机”。他能用 Ahrefs 把数据活儿规模化,但“该追哪批关键词、什么时候转向”始终是他自己在判断。边界就在这里。

方向五:我自己在跑的一条 GEO 工作流
前面四章拆的是零件:归属表、MCP 积木、监测器骨架、人机边界。
这一章讲我怎么把这些零件拼成一条自己在用的 GEO 工作流。目标很简单:少做漂亮报告,多攒一套能反复调用、经得起追问的内容资产。
6.1 问题:一次性回答会伤人
大多数人用 AI 做 GEO,就是问一句:“帮我看看这个站怎么在 AI 搜索里被引用。”三分钟拿到一份看着挺完整的回答,关键词、内容方向、优化建议、下一步都有,然后就开干。
真要落地了,追问三个数字:这些词的真实搜索量是多少?这个“提及率”哪来的?竞品到底在哪几条回答里占了位?
全没出处。
这跟全自动 SEO 崩在同一个地方:弱 prompt 喂出顺滑但经不起追问的垃圾。一次性回答有三个硬伤:它像脑暴,复用不了;它把不确定写得很确定;它很难直接变成能上线的内容动作。
6.2 解法:结构化、可追溯、可迭代
我做了个 Claude Code Skill。目标不追求漂亮报告,要做的是把“一个站 + 零散材料”转成一套结构化、可追溯、可迭代的 GEO 内容笔记。
说白了,就是把零散信息拆成能反复调用的积木。
输入不求完整,只求诚实。给个域名,再把手头有的东西丢进去:Ahrefs 拉的关键词、几个竞品页面、几张 AI 回答截图、你自己对搜索意图的判断。知道什么写什么,不知道就留空。
输出也不走长报告形式。它会生成五份笔记,放在同一个站的文件夹里:
1. 索引:快速定位 + 核心判断 + 优先抢哪几个查询
2. 关键词与意图档案:真实问法、搜索意图、竞品在哪些回答里占位
3. 内容与意图匹配:把用户的问题和我方内容连起来,标出内容缺口
4. 可引用片段库:能直接放进页面的前置答案、结构化片段 + GEO 指标现状
5. GEO 策略:把分析变成排期动作
写稿前看索引,搭内容看片段库,定下一步看策略。新采样、新竞品进来,只更新相关那份,不重写整篇。这跟第四章 GEO 监测的逻辑一样:不做成季度体检,要做成常态维护。

6.3 跟全文一脉相承的几个设计
- 谁拥有哪一环:Claude 干最耗时、最容易遗漏、最难复用的部分,比如扒竞品、聚类意图、拼内容结构、跑引用采样;我自己负责选赛道、验证事实、定内容方向。第二章那张归属表,到这里才算落地。
- 先澄清,不硬写:先搞清搜索意图再动手。一个查询是商业意图还是信息意图,决定了内容怎么写、该不该抢。判断不出意图就走通用框架,不硬归类;同时把“我判断成了什么意图”告诉我,不能静默跳过。
- 指标只做示意值,不伪装精确:第一章那些硬数字能拿出来用,是因为标了来源、标了口径,不靠拍脑袋。提及率、引用率这种数,必须标“这是基于行业基准的示意值,建议用你自己的真实采样校准”。别写“这页一定能进 AI 回答”,可以写“先按基准估个出现率,看差距大不大、值不值得排进这周;下一步用我们自己的 prompt 库采样校准一遍”。样本太小,看到的全是噪声。
6.4 最关键的一条:反幻觉约束
这套工作流里最重要的设计,其实是反幻觉约束。意图模板和指标估算都重要,但它们排在后面。
不能为了顺滑而牺牲真实。GEO 最怕的也正是这个。AI 引不引你,看的就是可信度;为了好看编一个数据进去,等于自毁被引用的资格。
我给 Claude 定了几条硬规则:搜索量、流量这类具体数字必须有来源,标清是 Ahrefs/Semrush MCP 拉的;竞品在哪条回答里被引用,必须有 AI 回答截图或 URL;提及率、引用率必须标为示意值,或注明采样口径;引擎差异要标注(ChatGPT 和 Perplexity 用的是两套信号);禁止“保证被引用”“100% 上 AI 首答”这种绝对化措辞。查不到来源,就别写成事实,写成一条 todo,告诉我下一步该去哪补。
底层规则很简单:
Claude 可以推理,但不能伪装成知道。
对 GEO 来说,这反而更要命。一份诚实标注不确定性的内容分析,比一份看着完整、一采样就塌的报告可靠得多。
方向六:中文与出海这一维
前面所有工具和测量逻辑,基本都来自英文世界。Ahrefs、Semrush、Frase、那些 GEO 监测器,服务的是 Google、ChatGPT、Perplexity。
我本来想下一个判断:“中文区 GEO 测量没有成熟工具。”但我查了一些资料后,这句话得改一下。
实际情况更微妙:中文区已经冒出一批 GEO 监测工具了。TideFlow 号称全链路监测、三个月提流量两倍多;AthenaHQ 主打品牌情感分析;还有小陌 GEO、媒介匣、欧博东方、秘塔系工具等等。它们宣称覆盖豆包、Kimi、DeepSeek、文心一言、秘塔这些国产大模型,有的喊“九大国产 AI 全覆盖”。预测里,2025 年中国 AI 搜索流量会占到整体搜索的四成多。
信息差在两个地方:
- 工具冒出来了,但鱼龙混杂,几乎没有可信的第三方验证。这类工具的宣传文章,很多本身就是厂商在引流,正文一半就上付费解锁。它给的“提及率提升 56%、转化 3.5 倍”这种数字,基本是自卖自夸,当不得真。
- 测量逻辑能不能照搬英文那套,还是空白。国产模型的检索机制、引用透明度、对结构化内容的偏好,跟 ChatGPT/Perplexity 不一样,没人系统测过。
对做出海、或做中文 AI 内容的人,我会这么判断:
- 现成的国产 GEO 工具可以试试,但把它当粗糙信号,别当结论。拿第四章那套监测器骨架去复核。
- 把分发对象换成中文引擎,比如豆包、Kimi、DeepSeek、文心、秘塔。prompt 库换成中文真实问法,从中性地理跑。能不能稳定解析是另一回事;先搭出来,并且诚实记录哪测得准、哪测不准的人,才会在这个混乱区里拿到可信数据。
这篇的前四章是脚手架:工作流归属、MCP 积木、GEO 监测器骨架、Google 的红线。
而最后两章:我自己跑通、踩过坑的工作流,和一大片还没人插旗的空白。
回到 Piotr 那句话:SEO/GEO 更像跑步机。agent 能帮你把速度调快,但往哪个方向跑,永远是你的事。
先搭起来再说吧。
关于作者
Kyrie— 前国内大厂 R&D 工程师,现居曼谷,做中国科技企业出海 BD。持续分享出海一线真实记录、AI 在业务里的实战用法,偶尔也聊聊美股投资和国外生活。

