把 YOUTUBE 語音辨識轉文字再丟去 GPT 統整重點,看看效果如何
基於影音的內容太多、而大腦的注意力太少,平常聽 podcast、youtube 最快也就是1.5~2倍速、當然可以用一些外掛調到更快,但是太快其實也吸收不了什麼。相較於影音,如果改用文字輸入到大腦,資訊量的傳遞會比聆聽觀賞影音快得多。因此興起了把影片轉成逐字稿、再把逐字稿丟去 GPT 做摘要,看看效果如何。
實驗影片:【Joeman】外觀超美!亞洲第一萬間7-11開箱!台南亞萬門市
挑選理由:時間長度短(4:59秒)方便驗證概念、中文且應該沒有太難的特定領域用字
本來預計嘗試三間不同的語音辨識服務,Google Cloud Speech-to-Text API、本土團隊開發的雅婷逐字稿、中國的訊飛,但訊飛需要中國大陸的手機才能使用,而申請中國手機門號需要台胞證+實名制,手邊的台胞證效期已過只好暫時作罷。