2025年AI影片真實挑戰：4步驟克服連貫性難題，遠非頭條所說的取代好萊塢

andy

16 Oct 2025 — 7 min read

YouTube頻道主Jeff Su在最新影片中直擊AI影片生成的現實面，粉碎了媒體頭條中「AI即將取代好萊塢」的迷思。作為一位專注AI工具實戰的內容創作者，Su透過生動示範和簡單類比，揭示AI影片雖強大卻受限於「連貫性」瓶頸。他強調，目前AI能輕鬆產生逼真片段，但要串聯成完整故事，仍需特定工作流程。這不僅適用於YouTuber或電影製作者，更為2025年AI應用提供實用洞見。

Jeff Su一開頭就駁斥媒體炒作，他表示：「如果你相信頭條，好萊塢電影產業將在幾分鐘內被AI取代。但事實上，我們還遠遠不夠。」

Su使用ChatGPT類比說明AI的強項與弱點：當要求ChatGPT撰寫電視劇開場場景時，它能在數秒內產生包含設定、角色和劇情的腳本；續寫下一場景時，AI能「記住」前情，維持角色、設定和故事的一致性。這突顯AI在文字生成上的連貫優勢。

然而，轉移到影片領域，情況大不同。Su指出，連貫性是AI影片生成的最大障礙。即使使用先進工具如Google的Veo app（Su稱之為Flow），AI也難以維持跨場景的角色外貌、聲音和背景穩定。

示範AI影片的強大與局限

Su親自示範使用Veo app重現達斯維德（Darth Vader）場景：一個僅8秒的片段，維德走向鏡頭，伴隨火花音效和逼真聲音，說出「我是你的母親」。他透露：「只要付費使用Veo app，並輸入特定提示詞，任何人能在5分鐘內生成此片段。」

這證明AI影片模型「極其強大」，能產生高細節、高寫實的內容。但當Su試圖延續場景——讓維德舉起紅色光劍說「準備好挨打吧」——結果慘不忍睹：光劍出現在錯誤手上，維德外貌變樣，聲音不一致，背景完全更換。

Su總結：「影片模型不記得先前生成的細節。即使重複相同提示描述維德，AI仍會產生略有差異的角色，破壞跨場景連貫性。」這是典型「角色不一致」問題，凸顯AI從單場景到多場景的轉型挑戰。

OpenAI Sora 2的進展與侷限

影片錄製後，OpenAI推出Sora 2，針對連貫性問題新增功能。Su補充說明：Sora 2包含「Cameo」功能，使用真實人物或寵物的臉部和聲音錄製，維持跨場景一致；以及「Recut」功能，將前幾秒片段載入下一個提示，確保連續性。

然而，Su強調：「這些功能不取代我即將分享的工作流程。」Cameo僅限真人與寵物，無法廣泛應用於虛構角色；Recut雖有助連續，但仍需生成角色、撰寫提示、修復音頻等步驟。Su預測，Sora 2是進步，但僅為工作流程的一環。

4步驟工作流程：實現角色視覺與聲音連貫

Su分享從零創作兩個小品（skit）的實戰流程，主角為Google Gemini吉祥物，維持跨場景一致。整個過程強調工具次要、工作流程為主。他使用免費或付費工具，證明門檻不高。

步驟1：生成角色靜態影像

首先，使用Google的免費影像生成工具Whisk（基於Imagen 3模型）產生角色。Su輸入提示詞生成Gemini吉祥物影像，設定中關閉「精準參考」以給AI創作自由。結果顯示，首批生成即高品質，若不滿可重跑。

專業提示：若需微調，如「將毛色改為白色漸層橙」，啟用精準參考，Whisk能僅變更指定部分，維持角色一致。Su表示：「這得益於Google的Imagen 3模型，在靜態影像中維持角色連貫極為出色。」所有方法免費，無需贊助。

步驟2：建立起始畫面

在Whisk中，將步驟1的角色影像上傳為「主體」，啟用精準參考，輸入場景提示（如吉祥物與女職員辦公對話）。這確保角色外貌固定。Su生成多批，選取最佳者作為第一個影片的起始畫面。

為證明設定重要性，Su關閉精準參考重試相同提示：結果角色外貌混亂，甚至同一批次不一致。重複流程為第二場景（與男職員互動）生成起始畫面，維持吉祥物一致。

步驟3：生成影片片段

轉至Google Veo app（Su使用付費V3品質模型，免費用戶的V3 Fast同樣適用）。選擇「畫面轉影片」模式，上傳起始畫面，輸入詳細提示（如對話與動作）。設定為橫向、每提示產生4個輸出，提高可用率。

Su示範第一場景：吉祥物回應「找昨天郵件」時顯示廣告。首批中一輸出失敗（動作不符），但其他三個可用，他選最佳者下載。第二場景類似，吉祥物回應播放影片時插入廣告。兩個片段串聯後，視覺連貫，但聲音仍不一致。

提示撰寫訣竿：Su使用自製Gemini Gem（自訂AI助手），上傳起始畫面與Veo介面截圖，輸入劇本，Gemini輸出優化提示。Su提供連結讓觀眾免費試用。

步驟4：統一聲音與後製

使用11 Labs工具處理音頻一致。Su上傳第一片段影片，選擇「怪物聲」（Malvorax）替換吉祥物聲音，生成新音檔。重複第二片段，使用相同聲音。

最後，在Final Cut Pro等編輯軟體中：分離原片不一致音頻，僅替換吉祥物台詞為新聲音，保留真人聲線；添加辦公環境音效。成品兩個小品串聯，吉祥物視覺與聲音完美連貫。

Su補充：此流程可擴展至多角色（Whisk上傳多主體）；第三方工具如OpenArt、Hygenura雖方便，但仍需手動修復，且不易上手。

結論：AI影片的未來與實踐建議

Jeff Su總結，AI影片模型已極其強大，但僅為工具，需透過工作流程整合多工具優勢：Whisk生成角色與起始畫面、Gemini優化提示、Veo產生影片、11 Labs統一聲音、最後編輯整合。這不僅解決連貫性，更讓業餘者創作專業級內容。

面對2025年AI進展，Su提醒：別被頭條迷惑，專注學習工具強項與流程，將開啟無限創作可能。你是否準備好嘗試？這不僅是技術革命，更是內容創作者的轉型契機。

參考資料：YouTube影片連結 https://www.youtube.com/watch?v=0-0gFuDwmXI

# 我用 Gemini API 破解了 YouTube 影片秒找關鍵畫面的問題——花了一年才想通的事

在我開始用 Gemini 的 API 之前，我其實在這個問題上卡了很久。你知道那種感覺嗎？就是你明確知道自己想要什麼，但市面上的工具就是不給你。 ▋ 那些沒辦法的時代最一開始，我想做的事很簡單——從 YouTube 影片裡自動找出特定的畫面。聽起來沒什麼，但當你開始想要把它實際執行出來的時候，馬上就撞牆了。OpenAI 的模型？它們根本不讓你直接處理影片內容。Anthropic 的 Claude？同樣的問題，他們也會限制你對影片的存取權限。就像被隔著一層玻璃，明明看得到東西卻摸不著。我試過各種繞路。有段時間我想用影片截圖搭配 OCR 去識別，但那效率慘到不行。也想過自己寫爬蟲去抓影片的文字敘述檔，但 YouTube 上大多影片根本沒有，或者敘述檔品質爛到不能用。那段時間我真的很挫折，感覺就像在黑暗裡摸索，不知道哪條路才是出口。大概花了快要一年的時間，我一直在想同一個問題，嘗試不同的方法，然後一次又一次地失敗。有時候是技術層面的問題，有時候是成本太高根本行不通。那種反覆的無力感，現在回想起來還是有點難受。 ▋ Gemini

我正在做一個瘋狂的實驗：讓AI掌控我80%的線上形象，看看會發生什麼

老實跟你說，你現在看到的我—聲音、影像、文字—大部分都不是我本人。這聽起來很詭異，我知道。但這正是重點。我不是隨便玩玩，也不是為了作秀。我是在親身經歷一個別人都在談論、但很少有人真正去試驗的東西：如果AI能掌控你超過80%的線上生產力，會發生什麼事？ ▋ 大多數人的想法都停在20% 現在很多人用AI的方式是這樣的：拿它來寫個開場、潤色個段落、幫忙生成幾張圖。AI扮演的是助手角色，人類才是主導者，還是靠人力來賺錢、維持信譽。這樣當然安全，也很聰明。但我想知道的是另一個問題。如果我不是偷偷用AI，而是讓它在前台直接面對你，掌控我80%以上的聲音、文字、影像表現，會怎樣？會崩潰嗎？會被識破嗎？人們會察覺不出來嗎？還是說，這樣的模式本身就會帶來一些我根本預料不到的怪事？我沒看過有人真的這樣做過，所以我決定自己試試。 ▋ 為什麼我要這樣折騰自己你可能會問：「為什麼？這不是自找麻煩嗎？」確實是。但這就像任何真實的實驗一樣，你不下水，你根本不知道水溫。

別再追風口了——我如何從「快速出產品」的狂歡中走出來，轉向解決自己真正的問題

▋ 那段沉迷「快速出貨」的日子說實話，當 Vibe Coding 火起來的時候，我也被那種感覺迷住了。能用 AI 這麼快速地把腦子裡的想法變成產品，那種成就感真的滿到爆炸。我記得有一陣子，我幾乎每週都在做新東西——今天做個 X 功能，明天改個 Y 工具，後天又琢磨起 Z 的變體。身邊的人都在說「哇，你動作好快」，我自己也覺得特別充實，彷彿在衝浪一樣踩著科技浪潮的尖端。但你知道嗎？那種快不是充實，只是上癮。我現在還記得最清楚的一個例子——我看到有人用生成式 AI 做出超厲害的產品推介功能，能把一堆圖片一鍵轉成專業級的電商影片。那時候我眼睛都亮了，馬上想「這個我也能做，而且我能做得更好」。花了一個禮拜把 MVP 整出來，還挺自豪的。然後呢？Google 用 Nano Banana

當八十萬粉絲的代價是失去自己：我如何拒絕YouTube的魔鬼交易

我最近想了很久一個問題。如果有人告訴你，只要你改變自己，你就可以擁有幾十萬的粉絲和穩定的收入，但代價是把接下來的每一天都用來製作你不想做的內容——你會簽這個合約嗎？我聽說有個頻道主，經營了一個擁有八十幾萬粉絲的頻道。老實說，很多人聽到這個數字會先羨慕。但他卻在某一天毅然決然地決定放棄它。不是因為沒有觀眾，而是因為觀眾要他做的事，和他真正想做的事完全相反。演算法喜歡他拍的某些題材，但那些是他最討厭拍的。他想拍的內容呢？流量一般般。在這樣的煎熬裡，他的身心靈一點一點崩潰，直到他決定停止更新。 ▋ 我也在同樣的十字路口站過我之前有段時間，每週都按時發影片。那時候我慢慢發現了一個模式——流量喜歡我拍的 Cloud Code 相關主題。但這就是問題啊。我本來每週的工作不是只有做這個東西。我在做很多不同的東西，但觀眾似乎只想看那一種。一開始我試著迎合。每週硬擠出時間來拍這類內容，一邊做著我真正在做的工作，一邊為了維持這個頻道的「人設」而活著。慢慢地，拍影片變成了一種義務，而不是分享。我開始在上傳前就感到疲憊，甚至在發布後才是最累的。不是因為工作量大，而是因為一種莫名的虛無感。