loading image

我花 30 分钟 vibe coding,删掉一个逗号,省了1000块

这是我平时打字的习惯。中间不加逗号,用一个空格断一下。它没有那么规范,但像我自己发出来的。

Posted by Enovace on May 10, 2026

我花 30 分钟 vibe coding,删掉一个逗号,省了1000块 配图 1

前天和客户聊天,约一个晚饭。

我本来想发的是:

明天晚上您有时间吗 我们可以约个晚饭

这是我平时打字的习惯。中间不加逗号,用一个空格断一下。它没有那么规范,但像我自己发出来的。

结果语音输入出来,经常变成:

明天晚上您有时间吗,我们可以约个晚饭

就多了一个逗号。

这个逗号很小,小到正常人可能都不会在意。但我自己看着会有点别扭。因为它太标准了,标准到不像我。尤其是在和客户聊天的时候,很多时候不是越正式越好。太正式,反而像隔了一层东西。

我不是想假装自己没有用语音输入。只是客户聊天这件事,本来就有一点微妙。你发出去的不是一段文字,是一种距离。语气轻一点,对面会觉得舒服一点。语气太规整,有时候就像从输入法里刚刚烫出来的。

我花 30 分钟 vibe coding,删掉一个逗号,省了1000块 配图 2

销售和客户沟通里,有很多这种很小的东西。

比如一句“您看明天下午方便吗”,和“明天下午您有时间吗 我们可以简单聊一下”,意思差不多,但质感完全不一样。

前一句很安全,像一个预约动作。后一句更像一个人真的在跟另一个人说话。它没那么精致,也没那么完整,但它有一点现场感。

我以前没有认真想过这个问题。因为打字的时候,手会自然处理这些细节。哪里停一下,哪里空一格,哪里不用标点,基本不用经过脑子。

语音输入一进来,这些小习惯就突然被看见了。

工具会帮你把话变正确。它会补逗号,补句号,把句子切开,让文字看起来更像一段正式中文。

但客户聊天不是文档。

客户聊天有时候要保留一点不完整。你不能每句话都像在递交申请表。尤其是刚开始接触客户的时候,对方还没有完全信任你,你的语言如果太顺、太满、太像模板,反而会让人退半步。

它能把话识别出来,但它不太懂我的语言习惯。它默认我要一段正确的中文,可我有时候要的不是正确,是像我。

所以后来我发现,我真正想做的不是一个语音输入工具,而是一个不把我改成别人的工具。

我花 30 分钟 vibe coding,删掉一个逗号,省了1000块 配图 3

另一个场景是客户资料收集。

最近和客户聊得多,很多信息都要随手记下来。客户现在遇到什么问题,预算大概在哪个范围,谁是决策人,下一步要补什么材料,哪些话只是客套,哪些话可能是真需求。

这些东西如果靠打字记,速度有点跟不上。尤其是刚聊完的时候,脑子里还留着对话的热度,最适合马上录下来。但普通语音输入又会变成一大段。我说了三分钟,它就给我一坨三分钟的文字。看起来都在,实际下一次打开的时候,还是要重新拆。

到这里问题才变清楚:我其实不是在找一个“更智能”的语音输入。

我在聊天框里用它的时候,希望它别动我太多。错字可以修,语气不要替我换。

但录客户记录的时候又不一样。我说一大段,它最好能帮我拆开,把背景、需求、顾虑、下一步动作拎出来。

这两个需求放在一起,就很尴尬。市面上的工具通常会选一个方向。要么它只是输入法,负责把语音变文字。要么它很智能,会帮你润色、总结、改写、分点。

但我不总是需要智能。有些话被改得太好,反而不像我说的。

Typeless 之前让我心动过。它确实能解决一部分问题,尤其是语音转文字和整理这块,比普通输入法聪明很多。对于很多人来说,可能已经足够好用了。

但我看了一圈,还是卡住了。

一个是价格。一年差不多 1000 块。另一个是它没法刚好解决我最在意的那个点:不要在我不想加逗号的地方加逗号。

我不是觉得它不好。只是我的需求太窄了,窄到有点私人。商业工具当然要照顾更多人,它不可能为了我这种“客户聊天不要显得太像语音输入”的小毛病,专门做一个开关。

以前遇到这种需求,我大概率会忍一下。用现成工具,然后每次手动删逗号。客户记录录完以后,再手动分点。久了也能用,只是每天多一点点摩擦。

但现在有了 vibe coding,这件事的性质变了。

还没开始做的时候,我脑子里全是问题。

macOS 上怎么全局监听快捷键,怎么录音,怎么调用系统语音识别,怎么把文字插回当前输入框,怎么处理权限,怎么让它不要乱加逗号,怎么让客户记录自动分点。

这些问题只要停在脑子里,就会越想越大。打开 Codex,把需求一句一句说出来,它就从“我要做一个语音输入工具”,变成了几个很具体的小动作。

先跑通一个最小闭环。

GIF

按一个快捷键,开始录音。再按一下或者按空格,结束录音。拿到系统语音识别的结果。做一点文本处理。插回当前光标的位置。

这几步跑通以后,事情就没有那么吓人了。后面的权限、浮窗、设置项、大模型接口,还是会有坑,但都变成了具体的坑。具体的坑就好办一点,至少你知道自己掉在哪里。

所以我最后做了两个模式。

普通模式,用来聊天。

它的目标不是把话变漂亮,而是尽量保留我的表达。该口语就口语,该松一点就松一点,不要把一句很自然的话改成公文。尤其是不要乱加逗号。

分点模式,用来记客户资料。

它的目标刚好相反。录完以后,不要把所有内容堆成一段,而是整理成编号。客户背景、需求、顾虑、下一步动作,最好一眼能看出来。

这两个模式之间的差别,其实就是我日常工作里最常切换的两个状态。

我在和客户说话的时候,需要像一个人。

我在整理客户信息的时候,需要像一个稍微清醒一点的人。

我还给它留了大模型开关。

普通模式下,大模型可以帮我修一点语音识别错误,但默认不应该大幅改写。你明明只是想说“明天晚上您有时间吗”,它给你变成“请问您明晚是否方便安排一次会面”,那就完了。

分点模式下,大模型可以更主动一点。因为这时候我不是在发消息,而是在整理资料。它可以把一段口述拆成几个点,也可以把废话少留一点。

同一个语音输入,到了不同场景里,应该有不同性格。

这可能是我这次最想要的东西。

30 分钟当然不是做出一个完美产品。

更准确地说,是 30 分钟先把那个最关键的动作做出来:我可以在聊天框里说话,然后得到一段更像我自己会发出去的文字;也可以在记客户资料时,说一段话,然后得到一组能看的分点。

后面还有很多细节要补。但这些都不是这篇文章最想说的部分。

让我觉得有意思的是,以前这种需求根本不会被做。它太小了,小到你不好意思写成需求文档。你跟别人说“我想要一个语音输入工具,主要是不要乱加逗号”,听起来有点矫情。

很多私人工具的价值,就藏在这一点里。

它不一定功能多,也不一定比商业软件更强。它只是刚好贴着你自己的动作长出来。你不用为了适应工具改变习惯,工具反过来迁就你一点。

表面看,我省的是 Typeless 那 1000 块。

但真实省下来的,可能是很多很小的停顿。

每次语音输入完,我不用再看一遍:这里是不是太正式了?这个逗号是不是多余了?这句话像不像我?这段客户记录是不是还要重新整理?

顺手的意思不是功能多。顺手是它不会在你的动作里一直冒出来提醒你:你还要改一下。

我现在越来越觉得,vibe coding 最适合做的,不一定是很大的产品。反而是这种小到有点不好意思提的东西:一个自己用着别扭的标点,一个每天都要重复的小整理,一个商业工具不会专门为你改的习惯。

我花 30 分钟 vibe coding,删掉一个逗号,省了1000块 配图 4

以前我会觉得,做工具是为了增加功能。现在发现,有时候做工具只是为了删掉一个不属于自己的逗号。

这个钱省得挺小气的。