NVIDIA 有个免费推理 API,能调 147 个大模型,国内直连,不绑信用卡。
为什么免费?它在下一盘棋。
微软当年靠 Windows API 锁住开发者,统治企业软件二十年。NVIDIA 现在做同一件事,战场换成了 AI——用免费算力换开发者心智,等你熟悉了它的接口和生态,以后云服务、模型市场都是后话。
所以它舍得把 H100 的推理能力白送给你,因为要的不是这笔算力的钱,而是你这个人。
既然它在下这盘棋,我们不妨顺手申几个 Key,先占着位置。
格式和 OpenAI 完全兼容,原来调 ChatGPT 的代码,把 base_url 和 api_key 换掉就能跑。没用过 API 也不麻烦,下面代码直接复制。
唯一的坑是中国手机号验证,绕过这一关就顺了。
能用来做什么
**不写代码:**把 Key 填进 Cherry Studio 或 ChatWise,当免费的 ChatGPT 替代品用,200+ 模型随便换。
**会写点代码:**跑 prompt 测试、比较不同模型输出、做批量文本处理,格式和 OpenAI 一样,原有脚本基本不用改。
**做 Agent / 自动化:**接进自己写的工具,本地 bot、自动回复、流程自动化,免费额度够日常跑。
怎么申请
第一步:注册账号打开 build.nvidia.com/settings/api-keys,用邮箱注册一个账号。注意两个容易踩的坑:
- 账号名不能填中文,填了会报错
- 手机号验证填国内号时,前缀改成 +86
第二步:处理手机号验证这是中国用户最容易卡住的地方。+86 号码有时能直接通过,有时报"exceeded limits"。遇到后者,换个虚拟号码平台接一次验证码就行——sms-activate 或 hero-sms 都行,完成后不再需要。
第三步:生成 API Key验证完成后,进入 API Keys 页面,右上角点 Generate API Key。

随意起个名字 → 过期时间选"Never Expire(永不过期)" → 点 Generate Key。

立刻把 Key 复制保存好。页面关掉之后就再也看不到了,格式是 nvapi-xxxxxxxx。
30 秒验证能不能用
拿到 Key 之后先跑一次,确认没问题再折腾别的。
模型名必须用带斜杠的完整格式,比如 meta/llama-3.1-8b-instruct,不能只写 llama-3.1-8b-instruct。
Python(推荐):```text from openai import OpenAI
client = OpenAI( base_url="https://integrate.api.nvidia.com/v1", api_key="nvapi-你的key" ) response = client.chat.completions.create( model="meta/llama-3.1-8b-instruct", messages=[{"role": "user", "content": "你好"}] ) print(response.choices[0].message.content)
没装 Python 也可以用 curl:
返回正常文本就说明 Key 有效,可以用了。
## 选哪个模型
200+ 模型不是优势是负担,先从这几个开始(模型名以 [build.nvidia.com](https://build.nvidia.com) 实际列表为准):
用途 模型名(填入代码的格式) 速度参考 通用入门 meta/llama-3.1-8b-instruct 快 日常对话 / 编程 z-ai/glm-5.1 中等 追求速度 minimaxai/minimax-m2.1 快(社区实测约 150 tok/s) 高质量推理 deepseek-ai/deepseek-v4-pro 中等 中国用户熟悉 moonshotai/kimi-k2.6 中等
## 国内访问速度怎么样
能用,但不稳定。
[integrate.api.nvidia.com](https://integrate.api.nvidia.com) 没有被墙,不需要 VPN 也能直连。但跨境链路长,从中国到美国数据中心,RTT 本身就高,再加上 GPU 排队,非高峰期首 token 大概 2-5 秒,高峰时(美国白天)可以拖到 10 秒以上。V2EX 上有人直接说"响应按分钟计"。
**解决办法:**最有效的方法是挂一个新加坡或日本的节点,不要用美国节点,反而更慢。但注意 Cherry Studio、ChatWise 这类客户端经常不走系统代理,需要在应用里单独配置代理地址。
如果你在用代码调 API,可以在环境变量里设:
这样 Python 的 openai 库会自动走代理。
个人折腾和开发测试够用,不要拿它跑需要低延迟的生产流量。
## 免费额度够用,但有这三个上限
- 每分钟最多调用 40 次
- 用的人多的时候响应会慢
- 不适合生产环境高并发场景
适合自己折腾和开发测试,不适合跑业务流量。
## 不会写代码?直接接 Cherry Studio 或 ChatWise
不想写代码的话,用 Cherry Studio 或 ChatWise 这类支持自定义 API 的客户端就行,操作和填表一样简单。
**Cherry Studio:**设置 → 模型服务 → 添加 → 搜索"nv"→ 选 Nvidia(已内置,不用手动填地址)→ 粘贴 API Key → 点 Fetch model list 拉取模型列表。
配置完直接开聊,用的哪个模型会显示在对话框上方。
**ChatWise:**设置 → 供应商 → 新建供应商配置,填入同样的 API 密钥和地址即可。
MPH_MARKER_16
Key 拿到了,往 Cherry Studio 一填,200+ 模型随便换,比 ChatGPT Plus 省 $20/月。
去模型列表挑一个试试,换模型只改一行代码。
## 土豆哥 | 一人公司手册系列
- [001 — 20 分钟注册域名](https://x.com/iluciddreaming/status/2054095003966963832)
- [002 — GitHub Pages 建站](https://x.com/iluciddreaming/status/2054462411537547646)
- [003 — 人在国内开美国银行卡](https://x.com/iluciddreaming/status/2056909016614531244)
- [004 — 终身免费 Oracle VPS:4 核 24G,从申请到跑起来](https://x.com/iluciddreaming/status/2057652221777699211)
**mousepotato(土豆哥)| 美国计算机全奖博士 | 硅谷 11 年技术管理 | AI · OPC · 产品 | X **[@iluciddreaming](https://x.com/@iluciddreaming)
**关注我,获取 AI 前沿、技术、管理、产品、英语和硅谷生活见闻。**

