# 我用 Gemini API 破解了 YouTube 影片秒找關鍵畫面的問題——花了一年才想通的事
在我開始用 Gemini 的 API 之前,我其實在這個問題上卡了很久。你知道那種感覺嗎?就是你明確知道自己想要什麼,但市面上的工具就是不給你。
▋ 那些沒辦法的時代
最一開始,我想做的事很簡單——從 YouTube 影片裡自動找出特定的畫面。聽起來沒什麼,但當你開始想要把它實際執行出來的時候,馬上就撞牆了。OpenAI 的模型?它們根本不讓你直接處理影片內容。Anthropic 的 Claude?同樣的問題,他們也會限制你對影片的存取權限。就像被隔著一層玻璃,明明看得到東西卻摸不著。
我試過各種繞路。有段時間我想用影片截圖搭配 OCR 去識別,但那效率慘到不行。也想過自己寫爬蟲去抓影片的文字敘述檔,但 YouTube 上大多影片根本沒有,或者敘述檔品質爛到不能用。那段時間我真的很挫折,感覺就像在黑暗裡摸索,不知道哪條路才是出口。
大概花了快要一年的時間,我一直在想同一個問題,嘗試不同的方法,然後一次又一次地失敗。有時候是技術層面的問題,有時候是成本太高根本行不通。那種反覆的無力感,現在回想起來還是有點難受。
▋ Gemini API 改變了什麼
直到某個時刻,我發現了 Gemini 的 API 做的事情完全不同。它沒有在玩那套「我要保護版權所以限制你」的遊戲,反而是直接給你權限去處理影片——把影片的每一個影格都抓下來,然後讓你用模型去分析。
這聽起來簡單,但裡面的價值其實很大。我可以上傳一部 YouTube 影片,然後用 Gemini 2.5 Flash 模型去問它:「幫我找出出現特定畫面的時間點」。模型會一幀一幀地掃過去,然後告訴我確切的秒數。就這麼簡單。
更狂的是,成本低到不行。一部 20 分鐘的影片,用 Flash 模型跑下去,大概只要台幣 10 塊左右。如果你用 Pro 模型會貴一點,但 Flash 已經夠用了。而且,我試過的其他廠商模型——無論是 OpenAI 還是 Anthropic 的 Sonnet——根本做不到這一點。他們就是卡在那個「不讓你碰影片」的決策上。
▋ 但這只是開始
有了能找到關鍵畫面的能力,我才開始想到下一個問題:如果我要幫影片製作介紹或摘要,那我需要做的不只是找到畫面,還要把它們對應到台詞。這又是另一個難度。
你不能只是說「這段影片在 3 分 20 秒有一個重要的東西」,你還得知道那時候在講什麼。所以你需要同時處理視覺資訊和聲音資訊,然後把兩個東西精確地對上。這個難度跳升了好幾個檔次。
也正是因為這個,我才花了那麼久的時間在思考。不只是技術上的思考,更多是在想「怎麼設計這個工作流程才能夠實際可行」。中間跌過很多坑,做過不少看起來聰明其實很蠢的嘗試。有時候是方向錯了,有時候是方向對了但執行面沒想清楚。慢慢地,透過這些失敗,我才漸漸摸出一套比較有機會的解答。
▋ 現在的狀態
現在我正在把這些想法逐漸落實成實際的東西。還不到可以大張旗鼓地宣傳的程度,但我有信心這是一個真正有價值的方向。
最期待的是,未來大家會陸續看到這樣的應用成果。不管是自動生成影片介紹、快速找到特定內容,或是其他我還沒想到的用法,我覺得 Gemini API 這個能力確實打開了一扇新的門。而且說實話,當初那一年的挫折和摸索,現在看來反而像是必要的過程——不經過那些失敗,我也不會對這個問題想得那麼深。
所以如果你最近也在琢磨什麼 AI 工具能幫你什麼忙,我建議你去看看 Gemini API。至少在影片分析這個領域,它確實做到了別人還沒做到的事。