语音 AI 的瓶颈从来不是 LLM，是 ASR

你花了多少时间选 LLM？

GPT-4o、Claude、Gemini，文档翻了一遍，benchmark 比较过，价格算清楚了。

然后你的语音产品上线，第一个用户反馈是：说话慢一点，它才跟得上。

问题不在 LLM。从来不在。

NVIDIA 悄悄放出了一个模型：Nemotron-3.5-ASR。

600M 参数，40 种语言，纯 CPU 能跑，速度是官方 runtime 的 2.5 倍。

如果你做过实时语音产品，这几个数字会让你重新看一遍。

这不像一个工具发布。更像是有人把语音识别这件事，悄悄变成了基础设施。

它是什么

先说 ASR 是什么：Automatic Speech Recognition，就是"把人说的话转成文字"这件事。你对 Siri 说话、用讯飞语音打字、开会用飞书自动转录——背后都是 ASR 在工作。

Nemotron-3.5-ASR 是 NVIDIA 发布的多语言流式语音识别模型。

核心参数：

600M 参数
支持 40 个语言区域（包括英语、中文、日语、西班牙语、法语、德语等主流语言）
原生流式识别，边说边转
自带标点和大小写，不需要后处理
支持自动语言检测，不用手动指定
延迟可以在 80ms 到 1.12s 之间调
开源权重，可自部署，可 fine-tune，可商用

它不是 Whisper 的替代品。定位完全不同。

以前做语音 AI，一般是这条链路：

人说话 → ASR 转文字 → LLM 理解 → TTS 说出来

这里最容易被忽略的一环，就是 ASR。

因为大家会觉得："语音转文字嘛，Whisper 不就行了？"

但真做实时产品会发现，问题不在于"最后能不能转出来"，而在于：

能不能边说边转？
能不能低延迟？
能不能多语言？
能不能本地跑？
能不能不用每分钟给 API 付钱？
能不能在很多并发用户下还稳定？

Nemotron-3.5-ASR 解决的就是这几个问题。

它为什么牛

第一：它是真流式，不是假流式

很多 ASR 的"流式"，本质上是把音频切成一段一段，然后反复处理重叠窗口。

比如前 1 秒处理一次，后面再加 1 秒，又把前面的音频重新处理一遍。

这会浪费大量计算。人少的时候还行。一旦做成语音客服、会议助手、实时字幕、AI 电话助手，就会明显吃不消。

底层用了一个叫 Cache-Aware FastConformer-RNNT 的架构——名字复杂，原理不难理解：它会记住前面已经听过的音频状态，新音频进来时只处理新的部分，不反复计算旧的部分。

这对语音 Agent 非常关键。

因为语音 Agent 最怕的不是"最终转录结果不够准"，而是：用户说完一句话，系统还在等。

实时交互里，200ms、500ms、1s 的差距，体感完全不一样。

第二：延迟可以自己调

它暴露了一个参数：att_context_size（注意上下文大小）

用它控制延迟和准确率的平衡：

配置延迟适合场景 [56,0] 80ms 实时语音 Agent [56,1] 160ms 语音助手 [56,3] 320ms 直播字幕、客服 [56,6] 560ms 会议纪要 [56,13] 1.12s 批量转录

第二个数字越大，延迟越高，但识别准确率通常更好。

重点是：不用重新训练模型。同一个 checkpoint，部署时根据场景调参数。

做 AI 电话客服，优先低延迟，选 160ms
做播客转录，优先准确率，选 1.12s
做会议纪要，选中间的 560ms

第三：一个模型支持多语言

一个 checkpoint 支持 40 个语言区域，可以指定语言，也可以直接设 target_lang=auto，让模型自动判断。

官方把语言分三档：

transcription-ready（开箱即用，准确率最高）

英语、西班牙语、法语、意大利语、葡萄牙语、德语、土耳其语、俄语、阿拉伯语、印地语、日语、韩语、越南语、乌克兰语等。

broad-coverage（能用，建议实测）

普通话 zh-CN、波兰语、瑞典语、捷克语、芬兰语、丹麦语、匈牙利语、罗马尼亚语等。

adaptation-ready（建议 fine-tune 后再用）

希腊语、希伯来语、泰语、立陶宛语、拉脱维亚语、马耳他语、斯洛文尼亚语等。

target_lang=auto 时，输出会在句子后加语言标签，比如 This is a test. 。

这对多语言客服、跨境会议、海外播客转录很有用——一边转录，一边知道这句话是什么语言，不需要再单独接一个语言检测模型。

第四：不只能在 H100 上跑

这是最容易被低估的地方。

Nemotron-3.5-ASR 只有 600M 参数，不是那种"论文很强，但普通开发者碰不到"的模型。

可以在云 GPU 上跑
可以在本地工作站跑
可以在 Mac（Apple Silicon）上跑
社区已经做了 4-bit / 8-bit 量化版本

未来很多语音 AI 产品，可能不需要把音频都发到云端 API。本地就能完成转录。对隐私、成本、延迟都很重要。

实际测试效果

先说结论：它最强的不是离线转录准确率碾压所有模型。

它最强的是：低延迟 + 流式 + 多语言 + 本地部署 + 可扩展。

测试一：并发流数 vs 延迟对比

官方数据对比 Nemotron-3.5-ASR 和 Parakeet RNNT 1.1B（同为 NVIDIA 出品）在同等硬件下的并发能力：

Nemotron 在 80ms 最低延迟设置下，并发流数是 Parakeet 的 17 倍（240 vs 14）。在 1.12s 设置下是 6 倍（2400 vs 400）。

参数只有对方 54%（0.6B vs 1.1B），并发却碾压——原因就是 cache-aware 架构消除了重复计算。

测试二：NVIDIA L4 上的 benchmark

有团队在 NVIDIA L4（23GB 显卡）上对比了 Whisper、Parakeet、Nemotron Speech。

Nemotron 在 batch=8、frame=0.5s 的配置下，达到 258.9× real-time。

1 小时的音频，不是处理 1 小时，而是十几秒量级处理完。

同时显存占用只有约 2.8GB。这意味着在一张不算顶级的 L4 上，就可以跑相当高吞吐的转录任务。

daily.co 做了一个开源语音 agent benchmark，对比了主流 ASR 模型的延迟和准确率：

多语言版本是所有测试模型中延迟最低的，英文专用版本在延迟极低的同时准确率接近当前最强模型。

测试二：CPU 量化测试

有研究把 Nemotron Speech Streaming 做成 ONNX Runtime 版本并量化（ONNX 是一种通用模型格式，可以在没有 GPU 的环境里跑）：

int4 量化版本只有 0.67GB
平均 streaming 词错率约 8.20%
CPU 上能超过 6× real-time（即 1 分钟音频不到 10 秒处理完）
算法延迟约 0.56s

这说明它有潜力成为真正的 on-device ASR：电脑本地跑、边缘设备跑、企业内网跑、不依赖云 API 跑。

测试三：Apple Silicon 社区测试

社区已有人把 Nemotron-3.5-ASR 移植到 Apple Silicon，使用 FLEURS 多语言样本测试。

结果：

CoreML INT8 和 MLX bf16 在多个语言上接近 fp32 参考精度
MLX 4-bit 版本体积更小，但准确率会明显下降

4-bit 不是免费午餐。它适合本地助手、提示型转录、边缘部署。但如果要做生产级会议转录，8-bit 或 bf16 更稳。

几个高频问题，集中说清楚

Q：有没有和 Whisper 的 benchmark 对比？

这个问题问歪了。它们解决的不是同一个问题。

Whisper 是离线转录：给它一段完整音频，它输出高精度文字。Nemotron-3.5-ASR 是原生流式，用于实时交互场景。

在同等延迟约束下比较，Nemotron 更有优势。在"给我最准的离线转录"这个任务上，拿它跟 Whisper large 比不公平。

选哪个，看你的场景：实时交互选 Nemotron，离线精度优先选 Whisper。

Q：和 Parakeet v2 比怎么样？

Parakeet 是 NVIDIA 的英文专用 ASR，单语言精度更高。

NVIDIA 自己也建议：如果只做英文，用 English-only 版本或 Parakeet。

Nemotron-3.5-ASR 的价值是多语言 + 流式，不要为了多语言功能去跟英文专用模型比英文精度。

Q：中文效果怎么样？

坦白说：目前不建议直接用于生产。

官方把普通话 zh-CN 列在"broad-coverage"档，不是最高的"transcription-ready"档，官方 benchmark 里也没有中文这一栏。已有用户实测，中文识别词错率偏高。

如果产品主要面向中文用户，建议先拿 30-100 段真实业务音频测词错率，再决定要不要 fine-tune，或者等后续版本。

Q：支持时间戳吗？

流式输出有 chunk 级别的时间对齐，但高精度 word-level 时间戳不是这个模型的设计重点。

需要精准时间戳（字幕校对、剪辑定位），Whisper 系列更合适。

Q：非英文语言质量有保障吗？

看语言。土耳其语有用户测了，说"以这个 size 来说还可以，但不算 production ready"。日语有用户在播客场景下测试，说效果出乎意料地好。

先测再决定，不要只看"40 种语言"就直接上。

Q：新语言能不能直接加进去？

有开发者发现，有些语言虽然有 prompt slot，但模型底层的字符表（tokenizer）不一定能很好覆盖对应文字。

"支持语言"和"生产可用"是两件事。希腊语和保加利亚语的案例里，fine-tune 后词错率有大幅下降。

这说明 Nemotron-3.5-ASR 真正的价值不只是开箱即用，而是：你可以拿它做自己的语音底座。

接进你的日常工具：飞书、Obsidian、Apple Notes

语音识别不是独立的工具，它最大的价值是接进你每天用的工作流里。

这里有几个真实可用的方案，不是概念，是有人已经跑通的。

场景一：飞书会议 → 自动会议纪要

飞书本身有"妙记"功能，但它是闭源 ASR，语言支持有限，而且音频上传到飞书服务器。

如果你想用 Nemotron-3.5-ASR 替换掉这个环节，思路是：

飞书会议录音 → 本地 Nemotron-3.5-ASR 转录 → LLM 提取决议和待办 → 写回飞书文档或通知

GitHub 上有个项目 feishu-lark-meeting-transcript，实现了：扫描飞书妙记 → 拉 transcript → Claude 整理成 HTML 笔记 → 飞书 IM 推送结果。把里面的 ASR 换成 Nemotron-3.5-ASR，就能实现完全本地化。

场景二：Apple Watch / 手机录音 → Obsidian + Apple Notes

有一个项目叫 watch-transcriber，实现了一条完整的语音笔记流水线：

Apple Watch 录音 → iCloud 同步到 Mac → 自动转录 → 结构化笔记 → 推送到 Obsidian / Apple Notes / 飞书

它的转录层目前用的是 Gemini Flash，但作者专门说明了这一层是可替换的：

"Transcription layer: Whisper, Qwen3-ASR, Nemotron, DouBao, AssemblyAI — just replace transcribe_and_summarize()"

也就是说把转录函数换成 Nemotron-3.5-ASR，剩下的飞书 / Obsidian / Apple Notes 投递层都是现成的。

输出端支持：

目标说明 Apple Notes AppleScript 写入，免配置 Obsidian 提交到 GitHub 同步 Vault 飞书通过 lark-cli 创建文档或发 IM 本地文件 Markdown 格式保存

场景三：全局语音输入，打字的地方都能说话

如果你不想搭流水线，只是想"说话代替打字"，有个工具叫 Yaps，底层用本地 ASR，支持：

按快捷键，说话，文字出现在光标位置
支持 Mac 上所有 App，包括 Obsidian、Apple Notes、Notion
Android 版也有，可以直接在手机 Obsidian 里语音输入

它现在用的是 Parakeet 引擎，但思路和 Nemotron-3.5-ASR 完全一致：本地跑，不联网，低延迟。

一句话总结： 飞书、Obsidian、Apple Notes 都有成熟的接入路径，Nemotron-3.5-ASR 适合放在流水线的转录环节，替换掉需要联网的 ASR API。

手机上能不能跑？

能。而且比你想的简单。

Android：下载 APK 就能用

sherpa-onnx 项目已经打包好了现成的 Android APK，直接装就能跑实时语音识别。

去这里下载：k2-fsa.github.io/sherpa/onnx/android/apk.html

搜索 nemotron-speech-streaming，选对应 ABI 版本（绝大部分 Android 手机选 arm64-v8a）。

比如：sherpa-onnx-1.12.40-arm64-v8a-asr-en-nemotron-speech-streaming-en-0.6b-560ms-int8-2026-04-25.apk

装上之后，直接对着麦克风说话，实时转录，离线运行，不联网。

如果你要把它集成进自己的 Android App，soniqo 已经做了专门的 Android SDK（speech-android），基于 ONNX Runtime，支持 INT8 量化版本，约 720MB。

iOS：社区已经跑通，但需要自己编译

社区有开发者做了一个 iOS PoC 项目，把 Nemotron-3.5-ASR 通过 CoreML 跑在真机上。

地址：github.com/lbj96347/nemotron-3.5-asr-ios

要求：

iOS 17+
iPhone 15 Pro 或更新（有 ANE 神经网络引擎，速度更快）
Xcode 16+，需要自己 build

CoreML 模型文件用的是社区移植版本（FluidInference），支持 latin 和 multilingual 两套，iOS 17 目标已验证。

目前没有上架 App Store 的现成应用，还是开发者自测阶段。

一句话总结： Android 现在就能玩，装 APK 即可。iOS 需要自己跑代码，普通用户暂时还没有 App 可用。

什么人适合现在开始试

适合用：

在做实时语音 Agent 或语音助手
需要多语言支持，不想为每种语言维护一套 ASR
想把 ASR 放到本地或私有环境，不依赖闭源 API
预算有限，不想每个月付云 API 费
在做 edge device 或离线应用

不适合用：

只做英文，优先用 English-only Nemotron ASR 或 Parakeet
需要精准 word-level 时间戳，用 Whisper
中文为主，先等等或先 fine-tune
不想自己部署，直接用 OpenAI Whisper API 更省事

最小上手路径

别一上来就做复杂语音 Agent。

第一步：先用少量音频跑 streaming 模式，验证基本效果
第二步：试 att_context_size="[56,3]"，这是最均衡的起点
第三步：比较 target_lang=auto 和指定语言的差异
第四步：拿真实业务音频测错误类型
第五步：如果错误集中在术语、口音、场景噪音，再考虑 fine-tune

环境：

git clone https://github.com/NVIDIA-NeMo/NeMo.git

manifest 是标准 NeMo JSONL 格式（每行一条音频）：

{"audio_filepath": "/path/to/audio.wav", "duration": 4.27, "text": ""}

已知语言：

python ${NEMO_ROOT}/examples/asr/asr_cache_aware_streaming/speech_to_text_cache_aware_streaming_infer.py \
  model_path=${MODEL_PATH} \
  dataset_manifest=${MANIFEST_PATH} \
  output_path=${OUTPUT_FOLDER} \
  target_lang=zh-CN \
  att_context_size="[56,3]" \
  strip_lang_tags=true

不知道语言（自动检测）：

python ${NEMO_ROOT}/examples/asr/asr_cache_aware_streaming/speech_to_text_cache_aware_streaming_infer.py \
  model_path=${MODEL_PATH} \
  dataset_manifest=${MANIFEST_PATH} \
  output_path=${OUTPUT_FOLDER} \
  target_lang=auto \
  att_context_size="[56,3]" \
  strip_lang_tags=false

判断值不值得用，看三个指标：转录准确率、用户感知延迟、单卡并发成本。

我的判断

语音 AI 接下来有一段时间，最值得押注的不是 LLM 变强，而是 ASR 变便宜、变快、变可控。

Nemotron-3.5-ASR 让我觉得这个时间点到了：600M、本地跑、80ms 延迟、40 语言，参数一调场景全换。两年前这个组合要么买不到，要么付不起。

我打算把它接进会议转录流水线，替换掉现在用的云端 API。中文先跑个 benchmark，效果差再 fine-tune。

你现在的 ASR 方案，最让你头疼的是哪一点？延迟、准确率、价格、语言支持、还是隐私？

模型地址：nvidia/nemotron-3.5-asr-streaming-0.6b · Hugging Face

Fine-tuning 指南：Fine-tuning Nemotron-3.5-ASR · NVIDIA Blog

语音 AI 的瓶颈从来不是 LLM，是 ASR

它是什么

它为什么牛

实际测试效果

几个高频问题，集中说清楚

接进你的日常工具：飞书、Obsidian、Apple Notes

手机上能不能跑？

什么人适合现在开始试

最小上手路径

我的判断

You May Also Like

CATALOG

它是什么

它为什么牛

实际测试效果

几个高频问题，集中说清楚

接进你的日常工具：飞书、Obsidian、Apple Notes

手机上能不能跑？

什么人适合现在开始试

最小上手路径

我的判断

You May Also Like

CATALOG

Related Posts