把 YOUTUBE 語音辨識轉文字再丟去 GPT 統整重點，看看效果如何

January 24, 2023

A life well lived

基於影音的內容太多、而大腦的注意力太少，平常聽 podcast、youtube 最快也就是1.5~2倍速、當然可以用一些外掛調到更快，但是太快其實也吸收不了什麼。相較於影音，如果改用文字輸入到大腦，資訊量的傳遞會比聆聽觀賞影音快得多。因此興起了把影片轉成逐字稿、再把逐字稿丟去 GPT 做摘要，看看效果如何。

實驗影片：【Joeman】外觀超美！亞洲第一萬間7-11開箱！台南亞萬門市

挑選理由：時間長度短(4:59秒)方便驗證概念、中文且應該沒有太難的特定領域用字

本來預計嘗試三間不同的語音辨識服務，Google Cloud Speech-to-Text API、本土團隊開發的雅婷逐字稿、中國的訊飛，但訊飛需要中國大陸的手機才能使用，而申請中國手機門號需要台胞證+實名制，手邊的台胞證效期已過只好暫時作罷。

雅婷逐字稿 + ChatGPT

雅婷很方便的是可以直接貼上 youtube 連結就好，抓取音檔識別會完全在雲端完成，另一個很棒的地方是，他有補上標點符號。

識別結果(可以點自動折行按鈕展開細看)：

亞洲，第10000， seven他整個店面是調高是一，間逛起來很寬寬敞的seven全台唯一的巧克力區竟然，seven裡面有cost他們叫做多功能包廂，不過，這邊不能做一些壞壞的事情，
大家覺得有話收看今天的全面開箱趣。今天這支影片非常的，特別要來開箱在我背後的這全新的seven那來開箱他的，單純是因為，我自己也在台南出外出外景，然後這間就開在我的故鄉台南，然後非外觀長，非常漂亮，我看到新聞，想說一定要過來看一下，這間店開在永華路二段然後呢？他的門市名稱叫做門市，為什麼叫做呢？因為是是亞洲第一間seven所以可能這個seven他們覺得很重要在外觀做得很炫炮，外觀做了很多，是幾何的直線切腳？他們說，號稱的鑽石的感覺他遠遠看，就是你從斜上方看的話，是蠻漂亮的，這樣的一個造型，那我原本以為他是全臺灣最大間的，不過剛剛他們的人跟一下講一下，說，你面積來說不算最大的錢，不過算蠻有特色的，算是一間非常好、非常好逛的，所以我們就繼續看看吧。
歡迎我是
各位。我們。現在又來到了，這個y門市裡面比較，特別的是今天，這間店的open講我有，看到它上面的這個造型是比較偏成人風格的因為，其實其他的他如果出現open講大家，仔細看都是比較可愛的然後，今天他號稱是比較比較就是成人，然後比較時尚一點點，而且他整個店面是挑高，這個店面高度應該至少有4米左右，所以其實是一間逛起來很寬敞的seven然後他有些比較特別的貴有，帶大家去看這邊這個這個其實其他也有，但不多，他可能只有10幾間，有，他們叫做多功能，功能包廂，他是半開放式的，然後這邊除了，你可以在那邊辦公啊。然後有插頭、有筆電之外，重點是可以在這邊開會，你可能人在外面突然被要求開個會，就可以過來這邊開會，不過，這邊不能做一些壞壞的事情，因為是半開放空間，他不是整個封起來的，所以不要想太多，就是只能做，做正常工作、能做的事情了，然後這一區我覺得蠻好逛的，他們說這邊都是連一些聯名商品，在這邊有看到一些ruby然後有一些玩偶然後，有些是你還有漫威，所以這間就是剛剛前面講的，是我認為非常好逛的聲音，但今天他們剛開幕人很多，所以冷氣沒有很涼，不然平常冷氣很涼，感覺得會好的好，這邊是他們叫做premium good就是很很多國外進口的商品，那最吸引我的，當然就是零食，但其實很多臨時、一般的、一般的seven也有的但有一些是在其他皆很少看到沒有出現過的品項在韓國的、泰國的，這個是日本的，seven才有的有沒有瞬間到到日本seven的感覺然後，呢這個？是我從來沒有在其他時候就看過了有護手霜，但這個就是直男、沒有興趣的地方。反正有畫面看一下所以說正常，我就應該不需要我多說，但是要講一下，是我覺得我覺得他的一些小東西很齊，因為像例如這個文具品他是很齊的，很多的文具用品沒有到這麼強，很多可能只有這邊的、8分之一的大小是賣文具用品，這邊光是文具，用品，都蠻齊的，對這一區後他們說，號稱是全台唯一的巧克力區，正常的巧克力區應該也就只有可能就有一排它是一整櫃，全部都是巧克力，上面這個是主流的，上面這個我蠻常看到的，但是有一些是我從來沒有看過的，品牌像我在巧克力比較不熟，就是下面的牌子是沒有看過的，進口，巧克力、在愛、吃巧克力的來，這間店應該會蠻爽的，不只這一櫃，這一的東西，都是巧克力，但是呢？除了巧克力之外，還會去，是因為我在後面竟然seven裡面有cost這邊直接有一個非常迷你可愛的costco呢其實是一個冰櫃啦。然後裡面有一些他們的經典口味，他可以直接在現場這邊點，除了甜點之外，還有21世紀的，它，這邊有整櫃的一次，4季，不過這邊的21世紀比較類似，他們先處理好，放過來，他不是不是，現場再有一個油鍋在那邊炸，然後這一天還有不可思議咖啡，這地方，第一次知道他們說是比較旗艦的，seven才有的除了，一般的咖啡口味、口味有之外，他還有拉花，然後還有一些比較特別的特選丼，好像全台灣，只有10幾間不可思議，咖啡做，第一次知道，因為我對咖啡就沒有那麼鑽研，那麼多，好，以上，就是這一次這很特別的seven的快速導覽但只是因為在在附近都過來湊一下，熱鬧就能超多的，所以可能沒有辦法拍得很細，但我很很好逛的seven以上這次，的開箱都希望影片的話這分享發一

丟到 GPT 抓重點，不用 ChatGPT是因為輸入+輸出有大約4096個token的限制，GPT 會比 chatGPT 更適合。更長的文章恐怕就得分段了。

亞洲第一間seven，全台灣唯一的巧克力區 -> 錯誤，不是第一間，而是第一萬間。
門市有4米高度，有多功能包廂可以開會使用，上面有成人風格的物品。-敘述有點微妙的正確，實際去看影片後發現，裡面所講的成人風格是指Open將的畫風比較是成人風格
有各式各樣的文具、零食、護手霜、漫威玩偶、聯名商品等。-> 正確
巧克力區擁有主流品牌以及來自日本、韓國、泰國的進口品牌。-> GPT 腦補，影片裡提到的韓國、泰國是指零食來自不同的國家，而不是巧克力
巧克力區有不可思議咖啡，口味有一般咖啡、拉花、特選丼等。-> 看不懂在寫什麼，影片提到的是有「不可思議咖啡」和「拉花」

自己看影片後遺漏的重點

亞洲第一萬間711，被稱為亞萬門市
文具相較於其他711齊全
有coldstone
有21世紀

Google Speech-to-Text API

Google Speech-to-Text API 最主要的問題是，並沒有自動斷句添加標點符號的功能(還不支援中文)。但仔細閱讀，其實句子還算通順。。

轉譯內容：

亞洲的10000間seven店面是調高亮起來很寬敞的seven全台唯一的巧克力曲竟然seven裡面有COLD STONE多功能包廂不能說些壞壞的事情就是影片喔特別開箱在我背後的時間全新的seven那後來開箱他當成是因為我自己去台南出外景然後時間seven就開在我的故鄉台南然後飛外觀非常漂亮我看到新聞說一定要過來看一下這邊的太在永華路二段上然後呢他的門市名字跟亞萬能是為什麼跟亞萬能他是亞洲的10000間seven所以呢可能這個seven他們覺得很重要的外觀做得很炫炮他做了很多日期和的直線切角他們說好就暫時的感覺也有但就是你從斜上方是蠻漂亮的一個造型那我原本以為他是全台灣最大間的那個seven的面積來說不算最大千不過什麼有特色的算時間非常好逛的seven有沒有進去看看嗎啊對我們現在來到啊這個雅聞門市裡面那個特別是他們先講到我看到他上面的這一個造型是比較偏成人風格其他間如果出現粉講他直接看可愛的然後車子比較比較就是成人比較時尚一點點而且他整個店面是調高這個店面高度應該至少有4米左右是一肩扛起來很寬敞的seven然後他會比較特別的貴有帶他去看這邊這個這個其實其他間seven也有但不多他可能就是幾間有多功能包廂他是半開放式的然後這邊說你可以在那邊辦公啊然後有插頭有筆電之外著你是跟那邊開會你可能人在外面突然被要求要開一個會就可以過來沒開會不會只能不能做一些壞壞的事情因為半開放空間他不是整個封起來了不要想太多只能做正常工作能做事然後這一次我就蠻好逛啊他們說這邊都是連一些聯名商品所以這邊有看到一些食物比呀然後有一些玩偶迪士尼號漫威之間seven這個剛剛前面講的是我認為非常好逛的seven今天剛開幕了很多所以冷氣沒有很涼冷氣很涼感覺會蠻好逛的這邊是他們叫做Premium國外就是很多國外進口的商品哪最新聞但是零時差很多人只是一般的seven也有的但有一些是在其他間seven很少看到沒有出現過品相你要韓國的啊泰國的這個是日本的seven才有的有沒有瞬間回到日本seven的感覺然後呢這個是我從來沒有在其他是看過了有護手霜但這個就是你沒有興趣的地方反正有後面看一下都正常我就應該不需要我都說但是要講一下是我覺得他的一些小東西很期因為這樣例如例如這個文具用品它是很多seven的文具用品沒有到這麼起很多種可能只有這邊的8分之1的大小是賣文具用品這邊公司文具用品就蠻奇樂這一次他們說車是前台灣唯一的巧克力漆正常應該也就只有可能就一台它是一整櫃全國的巧克力上面這個是主流的上面這個我們常看到的但是有一些素材沒有看過品牌相比較不熟啊就是下面的牌子是沒有看過的進口巧克力在吃巧克力的來這邊店應該會蠻爽不直直立櫃可以吃巧克力但是呢除了巧克力之外還有一句很吸引我在後面竟然seven有沒有COLD STONE這邊直接有一個非常迷你可愛的pose空的櫃子一個冰櫃裡面有一些他們的經典口味可以直接在現場這邊點甜點之外呢他有21世紀他這邊有整櫃的21世紀不過這邊21世紀比較類似他們先處理好放過來他不是不是現場在有一個油鍋這邊啊然後這邊還有不可思議咖啡地址知道他們說是比較期間的seven才有的一般seven的咖啡口味有之外他還有啦嘩然後還有一些比較特別的特選豆好像全台90幾間不可思議的是知道因為我在咖啡就沒有那麼專業那麼多我跟你上次這一次這邊很特別的seven的快速導覽但是因為人在附近很多過來抽一下這個鬧就能超多的所以可能沒有辦法拍得很細的讓我覺得很好逛的seven開箱修理電話家常的意思

請 GPT 統整重點

亞洲的10000間seven店面：

巧克力曲竟然seven：有COLD STONE多功能包廂 -> 正確，但coldstone多功能包廂聽起來是某種可以邊吃冰淇淋邊開會的餐廳
店面寬敞：至少有4米高度 -> 正確
販售特別商品：聯名商品、玩偶、國外進口商品 ->正確
唯一的巧克力漆：可以在店內直接吃 ->識別錯誤，是巧克力區。可以在店內直接吃？？
附設不可思議咖啡：有特選豆正確

一樣沒有提到21世紀和齊全的文具。

總結

資訊量隨著轉換的過程逐漸遺失，影片轉成逐字稿必然會出現錯字、漏字、錯誤用詞，而請GPT做總結時，大概可以掌握三～四成左右的重點，其他資訊會掉光光
GPT 有其輸入和輸出限制，沒辦法一次倒進大量的資料，勢必得分段處理。
Google Speech to Text API 因為無斷句會影響直接閱讀逐字稿，不確定會不會對 GPT 造成影響（我猜影響應該不大）
請 GPT 做總結，效果不算差，但也不一定是個好主義，只看結論可能會遺漏掉重要的資訊而不自知，帶著問題去問你想知道的事情可能會比較好，GPT 擅長的應該是接龍、產生文字類型的任務。

雅婷逐字稿 + ChatGPT​

Google Speech-to-Text API​

總結

雅婷逐字稿 + ChatGPT

Google Speech-to-Text API