# 我用 Gemini API 破解了 YouTube 影片秒找關鍵畫面的問題——花了一年才想通的事

andy

21 Oct 2025 — 4 min read

在我開始用 Gemini 的 API 之前，我其實在這個問題上卡了很久。你知道那種感覺嗎？就是你明確知道自己想要什麼，但市面上的工具就是不給你。

▋ 那些沒辦法的時代

最一開始，我想做的事很簡單——從 YouTube 影片裡自動找出特定的畫面。聽起來沒什麼，但當你開始想要把它實際執行出來的時候，馬上就撞牆了。OpenAI 的模型？它們根本不讓你直接處理影片內容。Anthropic 的 Claude？同樣的問題，他們也會限制你對影片的存取權限。就像被隔著一層玻璃，明明看得到東西卻摸不著。

我試過各種繞路。有段時間我想用影片截圖搭配 OCR 去識別，但那效率慘到不行。也想過自己寫爬蟲去抓影片的文字敘述檔，但 YouTube 上大多影片根本沒有，或者敘述檔品質爛到不能用。那段時間我真的很挫折，感覺就像在黑暗裡摸索，不知道哪條路才是出口。

大概花了快要一年的時間，我一直在想同一個問題，嘗試不同的方法，然後一次又一次地失敗。有時候是技術層面的問題，有時候是成本太高根本行不通。那種反覆的無力感，現在回想起來還是有點難受。

▋ Gemini API 改變了什麼

直到某個時刻，我發現了 Gemini 的 API 做的事情完全不同。它沒有在玩那套「我要保護版權所以限制你」的遊戲，反而是直接給你權限去處理影片——把影片的每一個影格都抓下來，然後讓你用模型去分析。

這聽起來簡單，但裡面的價值其實很大。我可以上傳一部 YouTube 影片，然後用 Gemini 2.5 Flash 模型去問它：「幫我找出出現特定畫面的時間點」。模型會一幀一幀地掃過去，然後告訴我確切的秒數。就這麼簡單。

更狂的是，成本低到不行。一部 20 分鐘的影片，用 Flash 模型跑下去，大概只要台幣 10 塊左右。如果你用 Pro 模型會貴一點，但 Flash 已經夠用了。而且，我試過的其他廠商模型——無論是 OpenAI 還是 Anthropic 的 Sonnet——根本做不到這一點。他們就是卡在那個「不讓你碰影片」的決策上。

▋ 但這只是開始

有了能找到關鍵畫面的能力，我才開始想到下一個問題：如果我要幫影片製作介紹或摘要，那我需要做的不只是找到畫面，還要把它們對應到台詞。這又是另一個難度。

你不能只是說「這段影片在 3 分 20 秒有一個重要的東西」，你還得知道那時候在講什麼。所以你需要同時處理視覺資訊和聲音資訊，然後把兩個東西精確地對上。這個難度跳升了好幾個檔次。

也正是因為這個，我才花了那麼久的時間在思考。不只是技術上的思考，更多是在想「怎麼設計這個工作流程才能夠實際可行」。中間跌過很多坑，做過不少看起來聰明其實很蠢的嘗試。有時候是方向錯了，有時候是方向對了但執行面沒想清楚。慢慢地，透過這些失敗，我才漸漸摸出一套比較有機會的解答。

▋ 現在的狀態

現在我正在把這些想法逐漸落實成實際的東西。還不到可以大張旗鼓地宣傳的程度，但我有信心這是一個真正有價值的方向。

最期待的是，未來大家會陸續看到這樣的應用成果。不管是自動生成影片介紹、快速找到特定內容，或是其他我還沒想到的用法，我覺得 Gemini API 這個能力確實打開了一扇新的門。而且說實話，當初那一年的挫折和摸索，現在看來反而像是必要的過程——不經過那些失敗，我也不會對這個問題想得那麼深。

所以如果你最近也在琢磨什麼 AI 工具能幫你什麼忙，我建議你去看看 Gemini API。至少在影片分析這個領域，它確實做到了別人還沒做到的事。

我正在做一個瘋狂的實驗：讓AI掌控我80%的線上形象，看看會發生什麼

老實跟你說，你現在看到的我—聲音、影像、文字—大部分都不是我本人。這聽起來很詭異，我知道。但這正是重點。我不是隨便玩玩，也不是為了作秀。我是在親身經歷一個別人都在談論、但很少有人真正去試驗的東西：如果AI能掌控你超過80%的線上生產力，會發生什麼事？ ▋ 大多數人的想法都停在20% 現在很多人用AI的方式是這樣的：拿它來寫個開場、潤色個段落、幫忙生成幾張圖。AI扮演的是助手角色，人類才是主導者，還是靠人力來賺錢、維持信譽。這樣當然安全，也很聰明。但我想知道的是另一個問題。如果我不是偷偷用AI，而是讓它在前台直接面對你，掌控我80%以上的聲音、文字、影像表現，會怎樣？會崩潰嗎？會被識破嗎？人們會察覺不出來嗎？還是說，這樣的模式本身就會帶來一些我根本預料不到的怪事？我沒看過有人真的這樣做過，所以我決定自己試試。 ▋ 為什麼我要這樣折騰自己你可能會問：「為什麼？這不是自找麻煩嗎？」確實是。但這就像任何真實的實驗一樣，你不下水，你根本不知道水溫。

別再追風口了——我如何從「快速出產品」的狂歡中走出來，轉向解決自己真正的問題

▋ 那段沉迷「快速出貨」的日子說實話，當 Vibe Coding 火起來的時候，我也被那種感覺迷住了。能用 AI 這麼快速地把腦子裡的想法變成產品，那種成就感真的滿到爆炸。我記得有一陣子，我幾乎每週都在做新東西——今天做個 X 功能，明天改個 Y 工具，後天又琢磨起 Z 的變體。身邊的人都在說「哇，你動作好快」，我自己也覺得特別充實，彷彿在衝浪一樣踩著科技浪潮的尖端。但你知道嗎？那種快不是充實，只是上癮。我現在還記得最清楚的一個例子——我看到有人用生成式 AI 做出超厲害的產品推介功能，能把一堆圖片一鍵轉成專業級的電商影片。那時候我眼睛都亮了，馬上想「這個我也能做，而且我能做得更好」。花了一個禮拜把 MVP 整出來，還挺自豪的。然後呢？Google 用 Nano Banana

當八十萬粉絲的代價是失去自己：我如何拒絕YouTube的魔鬼交易

我最近想了很久一個問題。如果有人告訴你，只要你改變自己，你就可以擁有幾十萬的粉絲和穩定的收入，但代價是把接下來的每一天都用來製作你不想做的內容——你會簽這個合約嗎？我聽說有個頻道主，經營了一個擁有八十幾萬粉絲的頻道。老實說，很多人聽到這個數字會先羨慕。但他卻在某一天毅然決然地決定放棄它。不是因為沒有觀眾，而是因為觀眾要他做的事，和他真正想做的事完全相反。演算法喜歡他拍的某些題材，但那些是他最討厭拍的。他想拍的內容呢？流量一般般。在這樣的煎熬裡，他的身心靈一點一點崩潰，直到他決定停止更新。 ▋ 我也在同樣的十字路口站過我之前有段時間，每週都按時發影片。那時候我慢慢發現了一個模式——流量喜歡我拍的 Cloud Code 相關主題。但這就是問題啊。我本來每週的工作不是只有做這個東西。我在做很多不同的東西，但觀眾似乎只想看那一種。一開始我試著迎合。每週硬擠出時間來拍這類內容，一邊做著我真正在做的工作，一邊為了維持這個頻道的「人設」而活著。慢慢地，拍影片變成了一種義務，而不是分享。我開始在上傳前就感到疲憊，甚至在發布後才是最累的。不是因為工作量大，而是因為一種莫名的虛無感。

如何在18分鐘內用AI把想法變成可測試產品：Vibe Coding 實戰全流程（含關鍵數據與風險）

導言 Grace Leung 在這支影片中示範如何以「產品思維」結合 AI 工具，將一個語言學習平台的想法在短時間內轉為可上線的 MVP。她提醒：「The biggest challenge most founders, product manager face is no longer building. Building is cheap. Nowadays with AI, it is building something people actually want.」（「最大挑戰不再是建置本身，而是用 AI 建出真實被需要的產品。」）本篇深度分析將系統化整理她示範的三階段流程、關鍵時間與數據、實務操作要點、風險與檢核清單，並補充背景說明與可直接執行的建議。 Grace 提出的流程分為三大階段，強調「以使用者為先」： 1.

Read more

我正在做一個瘋狂的實驗：讓AI掌控我80%的線上形象，看看會發生什麼

別再追風口了——我如何從「快速出產品」的狂歡中走出來，轉向解決自己真正的問題

當八十萬粉絲的代價是失去自己：我如何拒絕YouTube的魔鬼交易

如何在18分鐘內用AI把想法變成可測試產品：Vibe Coding 實戰全流程（含關鍵數據與風險）