先看清楚難在哪
一小時的演講,哪一秒才是重點?
文章要配圖,圖得從影片裡截。但 AI 根本不知道該截哪一格。
🙈 它看不到畫面
純文字 AI 只拿得到字幕。講者秀的架構圖、操作示範,字幕裡完全沒有。
⏱️ 它不知道時間
就算知道某段重要,那畫面在第幾秒?沒有時間戳,ffmpeg 切不出來。
🗑️ 截了也是廢圖
隨機截,十之八九是講者說話的臉、或動畫展開一半的殘影。塞滿這種圖等於沒配圖。
AGENT SKILL 一日工作坊 · 案例單元
一支一小時的演講影片要變成一篇圖文文章,AI 卻不知道哪一秒是重點。解法很妙:讓 Gemini 先看一遍、標出每個重點落在第幾秒,本地腳本照著時間戳切圖切 gif。
先看清楚難在哪
文章要配圖,圖得從影片裡截。但 AI 根本不知道該截哪一格。
純文字 AI 只拿得到字幕。講者秀的架構圖、操作示範,字幕裡完全沒有。
就算知道某段重要,那畫面在第幾秒?沒有時間戳,ffmpeg 切不出來。
隨機截,十之八九是講者說話的臉、或動畫展開一半的殘影。塞滿這種圖等於沒配圖。
整套 skill 的靈魂
解法不是硬要一個 AI 全包,而是分工。Gemini 看完回一張清單:每個重點在第幾秒、哪段值得做成 gif。本地腳本照著戳切就好。
把影片送進 Gemini,它回傳結構化 JSON:key_frames(每個重點截圖的 timestamp、重要度、該段在講什麼)+ gif_segments(值得做成動圖的起訖時間)。
"key_frames": [
{ "timestamp": "12:38",
"importance": "high",
"description": "封閉迴路架構圖",
"article_context": "對應..." }
]拿到 Gemini 給的精確時間戳,直接擷取那一刻的幀,不需要本地再做任何啟發式選幀。Gemini 已經看過了,本地只負責執行。
從影片到文章的全程
補一課:skill 裡的腳本
v2a 要精算、要操作檔案,所以配了腳本。這就是「什麼時候才需要腳本」的標準答案。
video_analyzer.pyextract_assets.shcreate_contact_sheet.pyframe_aligner.pyget_transcript.pyfinal_gate.pyprepare_temp_dir.shcleanup_temp_dirs.sh三個角色,一個劇本
三種角色,每一刀分工都有原因。最值得學的是「寫作為什麼要外包」。
做精確、可重複的事。切第 12:38 秒那一幀、簡轉繁、壓雙逗號。這種事不需要判斷,要的是每次都一模一樣,交給程式最穩。
做需要判斷的事。抽主題地圖、決定哪些漏掉的細節要補、最後對著你的反饋拍板。它是導演,留著清醒的腦袋掌全局。
做又重又髒的活,用完即丟。寫草稿、配圖、校對。跑完只回主 Agent 一段摘要,乾淨的 context 進、乾淨的摘要出。
最值錢的一頁
真正值錢的不是流程圖,是這些用血換來的禁令。每一條都是踩坑後寫進去的。
ps aux | grep gemini 一個指令就吃掉 12,000 token,耐心等 timeout 就好。收束:把關與串接
發布前 final_gate.py 先做機械正規化,再硬擋。確定性的事不靠人盯。
Step 7.5 拿三類元素去字幕裡逐一比對,確認文章沒漏掉真正重要的東西。
hamster-writing-craft,套上 Opening Hook、認知階梯、結尾框架。v2a 只把影片變素材,寫成好文章交給專門的 skill。skill 串 skill,各自單一職責。