我花 2800 上完保哥的語音輸入課,最後決定自己 fork 一個
過去半年我陸續試了幾個語音輸入工具,想理解「語音輸入到底能不能勝任我的日常工作流程」。一開始試了當時很紅的 Typeless,後來爆出隱私問題卸載了;換成 GPL 開源的 VoiceInk,用一陣子覺得有些使用體驗的卡點沒解掉、沒買;再來花 2800 上了保哥的 ZeroType 課程,想看看業界對這件事的最新答案。
結果上完課之後,我反而做了一個跟課堂上多數人都相反的決定 — fork VoiceInk 自己改。
這篇文章想分享我為什麼最後選擇這條路,以及為什麼我認為,如果你是工程師、在 AI 時代,能 fork 就應該 fork。
一、Typeless:好用,但不夠安心
我接觸的第一個語音輸入工具是 Typeless。它的辨識精度跟反應速度確實很優秀,當時我用得蠻開心。月費 12 美金、號稱「on-device」處理、免費試用每週 8000 字。對於一個第一次嘗試語音輸入的人來說,門檻很低。
但用一陣子之後我注意到 Typeless 自己的 privacy policy 寫了:「Your voice data and contextual information are processed in real time on our cloud servers」 — 也就是音檔會送雲端處理,跟 marketing 給人的「on-device」印象不一致。所謂的 on-device 只是指轉錄歷史存本機,不是音檔不離開機器。
社群上也有人做了更深的調查(例如 X 上 @medmuspg 的逆向工程分析、提到 AWS us-east-2 routing 跟 Accessibility 過度蒐集;以及「背後是中國團隊」之類的傳聞),但這些細節我沒能完整獨立 verify、也不是我關心的重點。對我來說,光是「轉錄歷史本機 ≠ 音檔本機」這個 framing 落差就足夠把信任收回。
對於閉源工具,「我相信開發者」這句話本質上是無法驗證的 — Typeless 的開發者可能完全誠實,但他可以隨時透過下一次 update 改變行為,而你沒有任何方法事先知道。
二、VoiceInk:開源,但有些粗糙
我接著找了一些開源的替代品,最後選了 VoiceInk。
吸引我的點:
- GPL v3 授權,所有 source code 都可以看,所有改動都會繼續保持開源。
- 買斷制 25 美金,沒有訂閱。我不想為了 dictation 每個月付固定費用。
- 內建用 whisper.cpp 在本機跑 Whisper 模型,audio 不需要上雲端。
- 原生 macOS SwiftUI,跟系統整合得很好。
但用了一陣子,我發現兩個讓人不舒服的問題:
第一,AI Enhancement 一次只能套用一個模式。VoiceInk 用 Cmd+N 在不同 Custom Prompt 之間切換 — 你可以建很多模式(email 風格、chat 風格、繁中強制等等),但每次錄音只能套其中一個。換句話說,你沒辦法設 一條「任何模式都要遵守的底線規則」(例如「永遠輸出繁體中文」),每個 prompt 都得自己重寫一遍這個底線。對於想要「baseline + 不同 style」這種正交組合的使用者來說,這個架構直接卡死你。
第二,AI Enhancement 啟用時有個我看不見的隱私洞。當你啟用 Enhancement 而且給了 macOS Accessibility 權限,VoiceInk 會把你當下選取的文字、剪貼簿內容、Screen OCR 結果一起夾帶送到雲端 LLM — 沒有任何 preview,沒有任何 toggle,沒有任何 per-utterance 確認。我必須讀 source code 才能知道這件事在發生。
我試用到期之後,最終沒有付那 25 美金。倒不是錢的問題 — 是這兩個痛點讓我覺得,付完錢還是沒解掉我真正在意的事。
三、保哥 2800 元的 ZeroType 課:學到的不是工具本身
接著我注意到台灣 .NET 圈的 保哥(Will Huang) 開了一門新課程:「軟體語音化輸入實戰」,搭配他自己開發的工具 ZeroType。保哥是 Microsoft MVP 連續 18 度、台灣技術社群知名講師,他開課我蠻好奇他怎麼設計這套東西,就花了 2800 報名。
課程現場觀察
報名前我預期會有幾百人,課堂當天的 Zoom 房大約 300 多人在線;但對照當下的報名序號推估,最終總報名人數估計破千是合理的。粗估營收:
2800 元 × ~1000 人 ≈ 280 萬+ 台幣
純粹從變現的角度,這門課真的非常成功。但更值得觀察的是課群結構 — 大概一半以上的人不是工程師背景。有些人甚至不太會自己設定 API key 貼到軟體裡。
換句話說,這門課的本質是一場「AI 資訊差科普」,把工程師圈已經熟悉的工具流程 — Whisper 轉錄 + LLM enhancement + 不同 prompt 切換 — 包裝給對效率工具還陌生的受眾。
不過保哥的教學功力與個人品牌是這套商品化能成功的關鍵,我在課堂上看到幾件事讓我印象深刻:
- 對學員問題很有耐心,遇到沒辦法簡單 1-on-1 處理的問題,他會邀請學員開公開直播、由他遠端操作學員的電腦、過程錄影 — 同一個問題只需要解決一次,後來人看影片回放就好。這是個我覺得很聰明的教學技巧。
- 對模型費用做了深入研究,例如他提到 Groq 線上 Whisper 一小時 audio 成本只要台幣一兩塊,建議學員別省這種錢直接走雲端。
- 課程內容甚至教你怎麼整合聯發科的 Breeze 台語模型做台語輸入 — 這對台灣使用者是個實用 plus。
這些都是 2800 元之外的額外收穫。能把一套技能這樣商品化、累積課程跟個人品牌、並且賣得出去,是真本事。同時也讓我感受到 — AI 工具的資訊差在大眾市場真的非常嚴重,這是為什麼會有上千個人願意付 2800 元來補這個差距。