# 我用 Gemini API 破解了 YouTube 影片秒找關鍵畫面的問題——花了一年才想通的事
在我開始用 Gemini 的 API 之前,我其實在這個問題上卡了很久。你知道那種感覺嗎?就是你明確知道自己想要什麼,但市面上的工具就是不給你。 ▋ 那些沒辦法的時代 最一開始,我想做的事很簡單——從 YouTube 影片裡自動找出特定的畫面。聽起來沒什麼,但當你開始想要把它實際執行出來的時候,馬上就撞牆了。OpenAI 的模型?它們根本不讓你直接處理影片內容。Anthropic 的 Claude?同樣的問題,他們也會限制你對影片的存取權限。就像被隔著一層玻璃,明明看得到東西卻摸不著。 我試過各種繞路。有段時間我想用影片截圖搭配 OCR 去識別,但那效率慘到不行。也想過自己寫爬蟲去抓影片的文字敘述檔,但 YouTube 上大多影片根本沒有,或者敘述檔品質爛到不能用。那段時間我真的很挫折,感覺就像在黑暗裡摸索,不知道哪條路才是出口。 大概花了快要一年的時間,我一直在想同一個問題,嘗試不同的方法,然後一次又一次地失敗。有時候是技術層面的問題,有時候是成本太高根本行不通。那種反覆的無力感,現在回想起來還是有點難受。 ▋ Gemini