5.9 万人围观：我用 AI 克隆了峰哥的实时对话（含技术拆解）

Banner

两天前我发了一条 demo 视频，是一个 AI 用峰哥（峰哥亡命天涯）的声音和性格跟我实时聊天。

不是文字转语音——是像打电话一样，你说一句它接一句，声音是峰哥的，说话风格也是峰哥的。

5.9 万人围观，很多人问怎么做的。

这篇把整个过程拆开。github开源地址放结尾了。

Leaf Yeah! (@leaf_sanren)> ٩(•̤̀ᵕ•̤́๑)ᵒᵏᵎᵎᵎᵎ 我克隆了网红【峰哥亡命天涯】的声音和记忆，让 AI 用他的方式跟我实时对话。

第一次听到"峰哥"的声音从电脑里怼我，愣了几秒。。
像跟直播连麦一样。

这个项目我叫它 Talk to Me，从 V1 到 V3.6 迭代了好几轮。它干的事：你说话，AI

起点：不是想做产品，是寂寞

一开始只是想有个东西能跟我说话。不是客服机器人，是带着我的记忆、用我习惯的语气跟我聊天。

我跟 Codex 说：帮我做一个能跟我实时语音对话的 AI Agent。

它给我搭了一套很"完整"的架构——语音模块、记忆模块、对话模块各自独立，配置面板管理后台全齐。

核心功能，一个都没跑通。说话没声音，界面又矮又丑，bug 叠 bug。

自己动手拼

Codex 做不出来，我开始自己找开源项目拼底层：

解决什么问题用了什么浏览器和 AI 之间实时传音频LiveKit（19K ⭐）把一个人的说话风格蒸馏给 AI女娲 Skill（25K ⭐）让 AI 记住聊过什么OpenViking（26K ⭐）用 15-45 秒语音克隆任何人的声音MOSS-TTS（3.7K ⭐）

四个项目一个一个接进去。每接一个都有新的兼容性问题，每解决一个又冒出下一个。

但终于有一天——

我说话了，AI 回我了。

第一次听到回声的时候是真的激动。之前折腾那么久连声音都没有，这次终于像个能对话的东西了。

走的是 Gemini Live 的原生语音方案，延迟大概 2 秒。它记得我之前说的事，说话语气也对。

但声音不是我的。Gemini Live 的声音是固定的。GPT-4o Voice 也一样。截至目前，还没有出圈的方案能同时做到"实时对话 + 任意音色克隆"。

想克隆声音，只有一条路——把语音链路拆开：

你说话
  → 语音识别 / STT（听懂你说什么）
    → 大语言模型 / LLM（想怎么回你）
      → 语音合成 / TTS（用克隆的声音说出来）

三步分开做，最后一步换成支持克隆的模型。

听起来简单。实际上意味着整个架构推翻重来。

延迟地狱：每句话等 8-20 秒

架构拆开了，链路跑通了。

一测延迟——每说一句话，要等 8 到 20 秒才听到回复。每一句都是。你说"你好"等 15 秒，它回完，你接一句"最近怎么样"，再等 15 秒。这不是对话，这是发语音邮件。

Agent 跟我说：语音链路拆成三步本来就慢，这是行业常见水平。

我不信。把整条链路拆开，一个环节一个环节计时：

🔴语音合成（TTS）——最大瓶颈MOSS-TTS 在本地 CPU 上跑音色克隆，一句话 14-40 秒。光这一步就把整条链路拖死了。

→ 换方案：充了 Cartesia Pro 会员（$5/月）做音色克隆，合成速度从十几秒降到毫秒级。

🟡记忆系统——偷偷拖后腿每轮对话都实时搜索记忆库，搜一次好几秒。

→ 改成启动时一次性加载 800 字快照，塞进 AI 的指令里。28 毫秒加载完，之后每轮零等待。

🟡语音识别（STT）——做无用功把没说话时的环境噪音也送去识别——空调声被听成"中国""是的"，AI 还很认真地回复。

→ 换专用识别模型 Cartesia ink-whisper，只处理真正在说话的部分。

🟢大语言模型（LLM）——三家赛马- MiniMax M2.7-highspeed（国产，不需要翻墙）——首字 361ms ✅ 胜出

DeepSeek chat——备选
Gemini 3.5 Flash——备选

一个通宵。端到端从 8-20 秒压到了工程链路 1 秒以内。

实际体感受网络和 API 响应影响，约 2-3 秒——但已经从"语音邮件"变成了"打电话"。

克隆峰哥：质量又翻车

延迟解决了。自己的声音克隆也跑通了——用 Cartesia 做的，效果还行。

但我想做更有传播力的 demo。克隆自己的声音别人没对比感，于是选了峰哥——B 站百万粉博主，声音辨识度极高。

用 Cartesia 克隆了三个版本的峰哥声音，反复调参。

中文克隆效果就是不行。Cartesia 是英语优先的商用模型，中文克隆是附带功能，达不到"一听就知道是峰哥"的程度。

最后换了 VoxCPM（31K ⭐ 开源中文音色克隆），效果终于对了。代价是需要 GPU——租了云 GPU 服务器通过网络隧道接回 Mac。

云 GPU 又是一堆坑：关机重开环境被重置、装好的东西全丢、SSH 隧道断连。写了自动恢复脚本才稳住。

声音克隆只是一半。让 AI 不只声音像，说话方式也像，才是让人觉得"这真的是他"的关键——辩证反转、口头禅、黑话、荒诞类比。这部分用女娲 Skill 的蒸馏方法论，从峰哥的直播转文字和开源人格数据里提取，素材越丰富效果越好。

做完了，不好意思发

做到能用峰哥的声音和性格实时聊天，我反而犹豫了。

开发差不多两周，就做出这么个东西。前端是个星空粒子页面，没有数字人，没有精美 UI。

觉得太简陋了，不好意思发。

推友催我：发啊，怕什么。

我发了。

5.9 万人围观。---

所以

一开始是一个人寂寞，想跟 AI 聊天。

中间是跟延迟搏斗、跟克隆质量搏斗、跟云服务器搏斗。

最后是做完了觉得太简陋不好意思发——发出去发现大家真的感兴趣。

代码全部开源了。如果你也想做一个能用任何人声音聊天的 AI：

⭐github.com/YeJe-cpu/talk-to-fengge

clone 下来，扔给任何 AI 编程助手（Claude Code、Cursor 都行），告诉它"帮我配置并启动这个项目"。

峰哥是内置的完整示例。想换成其他人？准备 15-45 秒声音素材，让 AI 助手参考峰哥的配置生成新人格就行。

有问题来 Issues 聊 · 想交流来找我 @leaf_sanren · uncleleaf.cc

5.9 万人围观：我用 AI 克隆了峰哥的实时对话（含技术拆解）

5.9 万人围观：我用 AI 克隆了峰哥的实时对话（含技术拆解）

起点：不是想做产品，是寂寞

自己动手拼

延迟地狱：每句话等 8-20 秒

克隆峰哥：质量又翻车

做完了，不好意思发

所以

You May Also Like

CATALOG

5.9 万人围观：我用 AI 克隆了峰哥的实时对话（含技术拆解）

起点：不是想做产品，是寂寞

自己动手拼

延迟地狱：每句话等 8-20 秒

克隆峰哥：质量又翻车

做完了，不好意思发

所以

You May Also Like

CATALOG

Related Posts