AGENT SKILL 一日工作坊 · 先備知識

九個常聽卻講不清的概念
半小時講明白

AI 拆開來其實很單純：一顆會想的腦、一雙能動手的手腳、再插上可拆換的技能。最後那塊 Skill,就是你今天要親手做的。

拆開來看

把 AI 拆成身體：腦是 LLM、手腳是 Tool 與 MCP、插上的模組是 Skill

腦是 LLM，手腳是 Tool／MCP，插上的模組是 Skill

第一層

ChatGPT、Claude 背後那顆腦
其實在玩文字接龍

你給它幾個字，它就猜下一個最可能的字，接上去，再猜下一個。如此而已。

今天天氣真＋猜→ 好

今天天氣真好＋猜→ ，

接上去、再猜下一個 ── 一個字一個字，就這樣吐出一整句。

它不是魔法，是個會接龍的工具。看懂這件事，你就不會神化它，也不會怕它。

接龍拆解

「小明長的真帥」
它是這樣一個字一個字吐的

你「小明」 → 輸入

1 猜最可能的下一個字 → 「長」

2 「小明長」接回去再猜 → 「的」

3 「小明長的」再猜 → 「真」… 最後湊出「小明長的真帥」

每一步都重複同一件事：看現有的字 → 猜下一個。沒有更多秘密。

第二層

AI 不是一個字一個字讀
它把文字切成一塊一塊的 Token

中間這個翻譯官叫 Tokenizer，文字 ⇄ 數字來回轉。

它把你的文字切塊、轉成數字餵給 AI，AI 吐出數字後再轉回文字。那一塊一塊的單位，就叫 Token。

一句話被切開的樣子

工作坊報名開始 → 5 個 Token

程式設計師 → 3 個 Token

翻譯官的工作

AI 其實不認識文字，它只認數字

切分

小

明

長

的

真

帥（拆 2 塊）

↓

映射

5820

11071

35081

1616

7910

3151

98

編碼 · TOKENIZER

👤

用戶

「小明長的真帥」

文字 · 6 字

→

編碼 ⇅ 解碼

Tokenizer

→

[5820, 11071, 35081, …]

Token ID（共 7 塊）

→

🧠

大模型

AI 看到的不是文字，是一串數字 ID。注意看：6 個字卻切成 7 塊,「帥」一個字就拆成 2 塊。所以 token 不一定等於字。

重要陷阱

一個字，不一定是一個 Token

詞字數Token 數切成

工作坊 3 字 2 Token 工作｜坊

程式設計師 5 字 3 Token 程式｜設計｜師

workflow 8 字母 1 Token workflow

火山矽肺症（世上最長的英文單字之一）　45 個字母 → 15 個 Token

        P
        ne
        um
        on
        oul
        tr
        amic
        ros
        cop
        ics
        ilic
        ovol
        can
        ocon
        iosis
      

每一個色塊就是一個 Token。45 個字母，只被切成 15 塊。

平均換算：1 個 Token ≈ 0.75 個英文字 ≈ 1.5～2 個中文字。API 按 Token 收費，叫 AI 讀一整份大手冊很貴。

第三層

AI 沒有真記憶，它靠一張桌子

它不是在「學」

大家以為跟它聊過、它就記住了。其實模型是無狀態（stateless）：每一次請求都重置回同一個空白，把整段對話從頭重讀一次。

「記得」是錯覺

它像記得前文，是因為程式每次都把對話歷史重新餵進去。沒餵的，它一個字都不知道。

這整包每次重新攤開給它看的東西，就叫 Context（上下文）。像一張桌子，沒攤上去的，它看不到。

好，現在到第三層：Context。這個概念是整個先備知識裡最容易讓人搞錯的一個。

很多人以為 AI 有記憶，跟它聊過一次、教過它一次，它就「學會」了。錯。工程上有個詞叫無狀態（stateless）。看這張圖：模型就像被罩在玻璃罩裡，每一次請求都重置回一模一樣的空白，把那疊對話歷史從頭重讀一次。它不是在學你教的東西，是每一次都重新讀一次。

那它為什麼還能接得上前面的話？因為背後的程式，每次你發問的時候，都把整段對話歷史、加上系統規則、加上你現在問的問題，一整包重新餵給它。

這一整包它當下看到的東西，就叫 Context，也叫上下文。

我喜歡用一張桌子來比喻。你把資料攤在桌子上，它才看得到。沒攤上去的，它一個字都不知道。記住這張桌子，等一下還會用到它。

Context Window

桌子有上限。攤越多越貴越慢

Context Window 是什麼

桌子的大小上限叫 Context Window。主流模型現在約 100 萬 Token，差不多就是一整套哈利波特全集的份量。

滿不等於好

桌子不是越滿越聰明。攤太多東西，AI 的注意力會被稀釋，開始跳步、忘記前面交代的規則。

Context 容量比例示意

哈利波特全集 ≈ 90～100%

一個 Skill 約 5～10%

記住這張桌子。等一下動手做 skill 的時候，你會看到一個聰明的設計，專門省這張桌子。

第四層

Prompt，就是你給 AI 的指令

沒那麼玄。你在對話框裡打的那一句話，就是一個 Prompt。

💬 你輸入

一句問題或指令。例：「幫我寫一封感謝信，對象是客戶小明，語氣專業。」

⚙️ AI 接龍生成

把你的 Prompt 加上 Context 裡的所有資訊，一個字一個字猜出來。

📄 輸出結果

一封感謝信。你的 Prompt 講得多清楚，輸出就多到位。

Prompt 是你唯一能控制的輸入。講得清楚，AI 就能做出你要的東西。

兩種 Prompt

你看得見的，和藏在背後的

使用者看見的 · User's View

台北天氣如何？

AI 看見的 · AI's View

👈 這層你看不到

<System Prompt>

你是個友善的助理，絕對不能……

</System Prompt>

<User Prompt>

台北天氣如何？

</User Prompt>

你只打了一句「台北天氣如何？」。但 AI 真正收到的，前面還黏著一層你看不到的 System Prompt，那層才是規矩。同一句話，配不同的 System Prompt，回答天差地遠。

📌 記住這句：你今天要做的 Skill，本質上就是一份預先寫好、能隨時套上的 System Prompt 加操作步驟。

Prompt 其實有兩種，這很多人不知道。看這張圖：左邊是你看見的，右邊是 AI 真正收到的。

你在對話框只打了「台北天氣如何？」，這是 User Prompt。但 AI 收到的不只這句，前面還黏著一層你看不到的 System Prompt，是開發者事先設定好的人設與規則，像「你是個友善的助理，絕對不能怎樣怎樣」。

這層你看不到，但它才是定規矩的那層。同一句「台北天氣如何」，配一個「請簡短回答」的 System Prompt，跟配一個「請像氣象主播熱情播報」的，回答天差地遠。

記住這個兩層設計。等一下做 Skill 的時候你會發現：你做的 Skill，本質上就是一份預先寫好、隨時能套上的 System Prompt 加操作步驟。

Prompt Engineering

不是在背技巧。是想清楚你要什麼

模糊的 Prompt

「幫我寫文章」

輸出：不知道主題、風格、長度、對象。隨機生成，猜你要什麼。

清楚的 Prompt

「針對 30～40 歲媽媽族群，寫一篇 300 字的 IG 文案，推廣暑假親子課程，語氣溫暖帶行動呼籲。」

輸出：精準。一次到位。

把這 5 件事先想清楚，AI 就不用猜　↓

主題

對象

長度

語氣

格式

模型越來越聰明，你說得模糊它也能猜。但想清楚你要什麼，永遠比背技巧更重要。
等一下做 Skill，description 寫得好不好，就是這門功夫的應用。

最後講 Prompt Engineering，提示詞工程。這個詞聽起來很學術，但別緊張。

它的本質就是：把話講清楚，讓 AI 精準聽懂你要什麼。 就這樣。你不需要背什麼神奇的技巧公式。

比較一下：「幫我寫文章」，AI 不知道主題、風格、長度、對象，只能隨機猜。但你說「針對 30 到 40 歲媽媽族群，寫 300 字的 IG 文案，推廣暑假親子課程，語氣溫暖帶行動呼籲」，AI 就能一次到位。

而且現在的模型越來越聰明，你說得稍微模糊它也能猜出個八九成。所以重點不是背技巧，是想清楚你到底要什麼。

最後記住這句：等一下做 Skill，description 欄位寫得好不好，就是這門功夫最直接的應用。好，Prompt 講完了，下一層。

先講痛點

AI 碰不到真實世界

問它「今天台北天氣怎樣」，它只會說「抱歉我查不到即時資訊」。它沒有手、沒有眼睛。

🧠

大模型

文字進
文字出
沒有感知器官

A I 的牆

⛅

即時天氣

查不到

📧

Gmail

發不了

🌐

瀏覽器

開不了

📊

Google Sheet

看不到

這不是 AI 不夠聰明，是它天生的設計限制。打破這道牆，才是下一頁要講的事。

Tool 的本質

大模型只能說「我要呼叫」
真正動手的是平台

給它工具，它也不自己動手。它只「說」我要用這個工具，真正去敲的是背後的平台。

👤

你問

「台北天氣？」

→

🧠

大模型「說」

我要呼叫
天氣工具

只能說、不能動手

→

⚙️

平台「做」

實際去敲
天氣工具

真正動手的是它

→

💬

整理成人話

「台北今天
25°C，晴」

★ 記住這一刀：大模型只負責「說要呼叫」，平台才是真正去敲、把結果拿回來的那一個

Tool 就是 AI 伸出去的手。今天階梯 6 用 serper 查 Google、階梯 8 用瀏覽器抓競品，那些都是 Tool。

打破那道牆的方法，就是給 AI 工具。一個 Tool 本質就是一個函數：給輸入、回輸出。天氣工具：輸入城市跟日期，回天氣。聽起來很直覺，但有一個最重要的細節你要記住。

你看這張時序圖，由上往下六步。① 使用者問「台北天氣」，問題先到平台；② 平台把問題轉給大模型；③ 大模型回一句「我要呼叫天氣工具」── 注意，這步是虛線，因為它只能說，不能自己動手。

④ 真正去敲那個工具的，是平台；⑤ 工具把「25°C 晴」回傳給平台；⑥ 平台再交給大模型整合成一句人話「台北今天 25°C，適合外出」，回給你。

這個細節非常重要：平台是執行者，大模型只是指揮官。你以後要寫 Skill，懂這個機制，你就知道工具要怎麼擺、結果怎麼流回來。好，工具背後常常去敲一個 API。API 是什麼？下一頁。

別怕這個詞

API 就是得來速的點餐窗口

你不用進廚房，照菜單說「我要一號餐」，窗口就把餐遞出來。這就是 API。

你的程式開車來，照菜單點餐，資料就從窗口遞出 ── 不用進廚房。

你需要記住的三件事

① 照規矩點餐

每個 API 有自己的菜單（文件）。照文件格式傳參數，廚房才看得懂。

② 不用懂廚房

廚房怎麼煮是別人的事。你只管點餐、拿餐，不用知道後端怎麼實作。

③ 要先領資格卡

大多數 API 要先申請一把 API Key。沒有卡，窗口不理你。

剛剛說工具背後常常是去呼叫一個 API。這個詞你一定聽過，但很多人搞不清楚它到底是什麼。我現在用一個比喻讓你一秒懂，以後再聽到 API 就不會怕了。

API 就像得來速的點餐窗口。你開車進來，不用下車走進廚房，你就對著窗口說「我要一號餐」，廚房就把餐從窗口遞出來。你不用知道廚房怎麼運作、誰在煮、用什麼食材，你照著菜單點就好，餐就出來了。

API 的邏輯完全一樣。你的程式照著 API 文件（菜單）傳參數（點餐），服務就把資料從窗口遞回給你。你不用進廚房，也不用自己建廚房。

還有一件事：大多數 API 都要先申請一把 API Key。你可以把它想成「點餐資格卡」。沒有卡，窗口就不理你。這就是為什麼今天我們會現場帶你申請 serper key 和 DataForSEO key。下一頁，我把今天會用到的三個 API 窗口介紹給你認識。

敲窗口的背後

「敲窗口」其實是發一個 HTTP 請求

HTTP 是電腦之間的「對話規則」。你的程式跟網站要交換資料，就靠它一來一回 ── 像一個幫你跑腿的快遞員。

💻

你的瀏覽器

① 請求 Request：我要看 google 首頁

🖥️

伺服器 · Google

② 回應 Response：這是網頁內容，拿去

你打開瀏覽器輸入 google.com，背後就是瀏覽器發了一個 HTTP 請求、Google 回一個回應 ── 你每天都在做，只是沒看到。

你想做什麼

發請求時，先講你想做什麼

每個請求都要指定一個「方法」，告訴對方你要對資料做什麼。天天會碰到的就這四個。

GET 取得資料例如：從天氣 API 讀今天氣溫

POST 新增資料例如：送出表單、發一則訊息

PUT 更新資料例如：修改你的個人資料

DELETE 刪除資料例如：刪掉一筆商品

小測驗：想查最新天氣，該用哪個？ ── GET，因為你只是要「取得」資料。

一個請求長怎樣

一張請求單，三個欄位

把一個 HTTP 請求想成包裹上的快遞單，拆開就這三部分。

① 網址＋參數

要寄去哪、附帶什麼條件。

…/search?keyword=藍牙耳機

? 後面就是參數，直接寫在網址上。

② 標頭 Headers

包裹上的備註標籤：

身分驗證（API 金鑰）
資料格式（JSON／XML）
瀏覽器等附加資訊

③ 內容 Body

要傳過去的詳細資料。

{
"name": "John",
"email": "j@x.com"
}

簡單查詢，網址＋參數就夠；要傳大量或機密資料，放進 Body。差別下一頁細說。

放網址上，還是放裡面

參數還是 Body？

參數 Query Parameters

…/latest?city=Taipei&unit=celsius

接在網址上、看得到
用來查詢、篩選、搜尋
會顯示出來，不放敏感資料
主要配 GET

Google 搜「貓」→ …/search?q=貓

Body 請求體

{ "username": "john",
"password": "secret" }

藏在請求內部、網址看不到
傳大量或敏感資料（密碼、付款）
比較安全
配 POST／PUT

註冊新帳號，就是 POST 一包 Body

一句話分：查詢、簡單 → 用參數；大量、機密 → 用 Body。

對方怎麼回你

每個回應，都帶一個狀態碼

三位數字，一眼看出成功還是失敗、為什麼失敗。

200成功 ── 一切正常，資料拿到了

201已建立 ── 成功新增，例如註冊好了

400錯誤請求 ── 你的格式錯了、少了參數

401未授權 ── 要登入或補上 API 金鑰

404找不到 ── 網址或資源不存在

500伺服器錯誤 ── 對方的系統出包

查天氣網址拼錯 → 拿到 404。記個大方向：4 開頭通常是你寫錯，5 開頭是對方伺服器的問題。

API 無所不在

你用過的每個 App，背後都在叫 API

你沒寫一行程式，但每天已經在「用」一堆 API ── 只是沒看到那面窗口。

🛵

Foodpanda 找餐廳

→ 地圖 API

💳

Foodpanda 結帳

→ 金流 API · LINE Pay

🚗

Uber 叫車配對

→ Uber 自家 API

🔑

用 LINE／Google 登入

→ 登入 API

📱

收到簡訊驗證碼

→ 簡訊 API

📧

下單後的確認信

→ Email API · SendGrid

位置、付款、登入、驗證碼、推薦商品… 幾乎每一步，都是在跟別人的系統「叫 API」。

親手敲一個真 API

打開瀏覽器，現在就敲一個

不用寫程式。在網址列貼這個，你就發出了一個真的 HTTP 請求。

1

在網址列貼上、按 Enter（發出 GET 請求）

https://dog.ceo/api/breeds/image/random

2

伺服器回一包 JSON

{
"message": "https://images.dog.ceo/breeds/…/n02….jpg",
"status": "success"
}

3

把 message 那條網址再貼回瀏覽器 → 一張隨機狗狗照 🐶

你剛剛做的，就是 AI 在做的事：發一個請求、拿回一包 JSON、再用裡面的資料。差別只是它一秒能做幾百次。

連到今天

三個窗口，今天都會親手敲

API Key 就是「點餐資格卡」。申請到卡，窗口才理你。這就是我們課堂上會帶你申請的原因。

🔍

serper

Google 搜尋結果

說「查這個關鍵字」，它把前十名、別人也問、相關搜尋整包回給你。

📌 階梯 6 用到 · 現場申請 Key

📈

DataForSEO

搜量與 SEO 數據

關鍵字月搜量、競爭度、SERP 分析。你的 Skill 自己去敲窗口拿資料。

📌 SEO 分析階梯用到 · 現場申請 Key

☁️

Google 服務

Search Console / Docs / Sheet

GSC 流量數據、自動寫進 Sheet、更新 Google Doc 報告。全是 API 窗口。

📌 後段階梯用到 · OAuth 授權替代 Key

你的 Skill 就是那台開進得來速的車。它知道對哪個窗口說什麼，把資料拿回來給大模型用。

好，現在把 API 的概念直接對接到今天你要做的事。今天你一共會碰到三個 API 窗口，我一個個讓你認識。

第一個：serper。它開了一個 API 窗口，讓你的程式去查 Google 搜尋結果。你不用自己開瀏覽器一頁頁看，你說「查這個關鍵字」，serper 就把前十名、別人也問、相關搜尋整包回給你。階梯 6 就用到它。

第二個：DataForSEO。這個窗口提供關鍵字月搜量、競爭度這些 SEO 數據。以前你要手動開工具一個個查，現在你的 Skill 自己去敲這個窗口拿。

第三個：Google 服務。Search Console 的流量數據、把結果自動寫進 Sheet、更新 Google Doc 報告，這些都是 API 窗口，只是它用 OAuth 授權取代 Key。

今天現場帶你申請的那把 serper key 和 DataForSEO key，就是去窗口領資格卡。有卡，窗口才理你。沒有卡，什麼都點不到。今天動手的時候你就會用到。好，API 講完，下一個概念是 MCP。

看一個真的

實際長怎樣：問一句
AI 自己去敲窗口

1

你問　「台北中山區有什麼火鍋店？」

2

AI 寫一小段請求，去敲 serper 這個窗口　（照菜單格式點餐）

POST api.serper.dev/search
{ "q": "台北中山區火鍋" }

3

{ "organic": [
  { "title": "詹記麻辣鍋", "rating": 4.5 },
  { "title": "馬辣中山店", "rating": 4.3 },
  { "title": "這一鍋", "rating": 4.2 }
] }

→ AI 整理成人話

中山區評價較高的有詹記麻辣鍋（4.5）、馬辣（4.3）、這一鍋（4.2）。

這段「寫請求去敲窗口」的小腳本，AI 自己會寫 ── 階梯 1 你就會親手玩到，不用先會寫程式。

剛剛講 API 是得來速窗口、講了今天要用的三個窗口。這頁讓你看一次真的長什麼樣，你就完全不怕了。

第一步，你問一句很日常的話：「台北中山區有什麼火鍋店？」第二步，AI 為了回答你，會自己寫一小段請求，去敲 serper 這個窗口。你看那段，就是對著 serper 的網址說「我要查『台北中山區火鍋』」，照它的菜單格式點餐而已。

第三步，窗口把一包 JSON 資料遞回來，裡面是店名跟評分。AI 再把這包資料整理成人話回給你：「中山區評價較高的有詹記、馬辣、這一鍋。」

重點是：中間那段「寫請求去敲窗口」的小腳本，AI 自己會寫，不用你先會寫程式。今天階梯 1 你就會親手玩到這個。好，API 真的長怎樣看完了，下一個概念 MCP。

痛點

同一個工具，要寫三遍

工具要能被 AI 使用，得先「接入」平台。問題來了：每個平台各有一套規範。

🔧 工具

天氣查詢
Notion、Slack…

OpenAI 格式

Anthropic 格式

Google 格式

ChatGPT

Claude

Gemini

技術上：M × N 整合爆炸

M 個 AI app 要接 N 個服務，就得寫 M × N 種接法。每加一個就乘上去。

ChatGPT

Claude

Gemini

天氣

Notion

Slack

3 × 3 ＝ 9 條線，全要各寫一遍

同一個工具，接 ChatGPT 一套、接 Claude 又一套、接 Gemini 再一套。工程師寫到崩潰。這就是 MCP 出現之前的接入規範地獄。

講完 API，我要講一個你最近一定一直聽到的縮寫：MCP。先從它誕生的原因說起。

剛才說工具就是一個函數。但這個工具要能被 AI 使用，得先被平台「接入」，平台才知道有這工具、怎麼呼叫它。問題在哪？每個 AI 平台各有一套接入規範。同一個天氣工具，接 ChatGPT 要照它的 JSON Schema 寫一遍，接 Claude 照 Anthropic 規範再寫一遍，接 Gemini 照 Google 規範又寫一遍。

講技術一點：你有 M 個 AI app、N 個服務，要全部互通，就得寫 M 乘 N 種接法。右邊這張圖，三個 app 對三個服務，就是九條線，每條線格式都不同，全要各寫一遍。每多一個 app 或服務，就再乘上去，這叫整合爆炸。工程師寫到崩潰。那有人想出什麼解法？翻下一頁。

MCP 是什麼

寫一次，所有 AI 都能用

❌ 沒有 MCP

工具

OpenAI 格式

Anthropic 格式

Google 格式

同一工具要寫三套規範。每增加一個 AI 平台，就多寫一遍。

✅ 有 MCP

工具

MCP
統一規範

ChatGPT

Claude

Gemini

只寫一次。所有支援 MCP 的 AI 平台，全部能用。

MCP 全名 Model Context Protocol（模型上下文協定）。名字很學術，你把它記成「工具接入的統一規範」就好。一條線取代三條線。

換個角度看 MCP

API 要你照它的規格，MCP 把工具端上桌

同樣是讓 AI 用工具，差別在「誰要先懂規格」。

API ／你寫的 function

想用它，你得先讀文件，把每個欄位照規格拼對：

POST /weather
headers: { "api-key": ？ }
body: { "city": ？, "unit": ？ }

少一個欄位、格式錯一點就失敗。AI 還得先「知道有它」才叫得動。你去配合工具。

MCP

MCP 主動把整盤工具端出來，每個都自帶用法：

🔧 查天氣 · 自帶說明＋輸入格式

📄 讀 Notion · 自帶說明＋輸入格式

💬 發 Slack · 自帶說明＋輸入格式

AI 一連上就看到整份菜單，直接挑來用。工具主動報名。

差別就在誰要先懂規格：API 是你去配合它，MCP 是工具自己告訴 AI「我有哪些、怎麼用」。這就是大家覺得 MCP 方便的地方。

我換個角度再講一次 MCP，你會更有感。先看左邊：一個普通 API，或你自己寫的 function，想用它，你得先翻文件，知道它的網址、要帶哪些參數、格式長怎樣、認證怎麼放。少一個欄位、格式錯一點就失敗。而且 AI 還得先「知道這個 API 存在」，才叫得動它。整個是你去配合工具。

右邊 MCP 不一樣。你把一台 MCP 接上來，它會主動把自己有的工具整盤端出來：查天氣、讀 Notion、發 Slack…而且每個工具都自帶說明跟輸入格式。AI 一連上，就看到一整份菜單，知道有哪些、各怎麼用，直接挑來用。

所以差別在「誰要先懂規格」。API 是你去配合它；MCP 是工具主動報名、告訴 AI 怎麼用。這就是為什麼大家覺得 MCP 方便：它把「你要先懂」變成「工具自己講」。

一個比喻

MCP 就是工具接入的 Type-C

左：每個服務一條專用線，亂成一團　·　右：一條 Type-C 通吃所有裝置

技術上：一套插孔規範

MCP 是一套插孔規範（protocol）。任何 AI client 用同一種講法，對接任何工具 server。

M × N → M ＋ N

每邊只接 MCP 一次，不必兩兩相乘

🍳 順手記一句分工

MCP ＝廚房，給你存取權，解決「連得上什麼」；Skill ＝食譜，解決「連上之後怎麼把事做對」。

記成「工具接入的 Type-C」就好。能連到廚房不等於做得出好菜，菜好不好靠食譜。所以今天重點在教你寫 Skill。

MCP 給你一個一定記得住的比喻：它就像手機統一用 Type-C。你看左邊這張圖，以前每個裝置配一條不同的線，整個抽屜亂成一團；Type-C 出來之後，一條線接所有裝置。MCP 對工具接入做的事一模一樣。

講技術一點：MCP 是一套插孔規範，英文叫 protocol。任何 AI client 都用同一種講法去對接任何工具 server。所以上一頁那個 M 乘 N 的整合爆炸，就變成 M 加 N：每個 app 接一次 MCP、每個服務接一次 MCP，不必兩兩相乘。這就是它真正省下的工。

然後順手記一個分工，今天很有用：MCP 是廚房，Skill 是食譜。 MCP 解決「連得上什麼」，Skill 解決「連上之後怎麼把事做對」。連得上廚房，不等於做得出好菜，菜好不好靠食譜。所以今天重點在教你寫 Skill，而不是裝一堆工具。

第八層

Agent：會自己規劃的 AI

把前面學的全裝在一起，再加上一句：自己規劃下一步。你只下一個目標，其餘它自己跑。

Agent · 自己規劃下一步

把前面學過的零件裝在一起，再加上「自己規劃下一步」，就是 Agent：

🧠

大腦　＝ LLM，負責決策

🖐

手　＝ Tool · MCP，對外動作

📋

記憶　＝ Context，記住進度

👁

看結果　＝觀察環境回饋

👤

你　＝只下一個目標，其餘它自己跑

Agent ＝把前面學的 LLM ＋ Tool ＋ Context 裝在一起，再加上「自己規劃下一步」。你今天用的 Claude Code，就是這種 Agent。

好，MCP 講完，往上第八層：Agent。其實你把前面幾個概念串起來就到了。

你看這張圖，左邊那隻就是 Agent，右邊列出它裝了哪五樣東西。大腦是 LLM，負責做決策；手是 Tool 和 MCP，負責對外動作；記憶是 Context，記住做到哪一步；看結果是觀察環境回饋，看上一步成不成功；最後是你，你只負責下一個目標。

所以 Agent 不是什麼全新的東西，它就是把你前面學的 LLM、Tool、Context 裝在一起，再加上最關鍵的一件事：自己規劃下一步。前面的 LLM 你問一句它答一句，Agent 是你給一個目標，它自己想步驟、自己連續呼叫工具。

跟今天的關係很直接：你用的 Claude Code，就是一個 Agent。下一頁，我帶你看它「自己規劃、自己執行」的迴圈到底長什麼樣。

Agent 怎麼跑

從規劃到執行：Agent 的迴圈

不是一次做完。是規劃、執行、看結果、不夠好就修正再來一輪，直到達成。

🎯 目標

① 規劃

LLM 想步驟

② 執行

Tool 動手

④ 修正

不夠好就再規劃

③ 看結果

Context 記下

↻ ③→④→① 不斷迴圈，直到

✓ 達成目標

跑一個真例子

🎯 目標：整理這 100 張照片

規劃先看有哪些 → 按日期分 → 改名

執行寫一段腳本，跑過 100 張

看結果97 張成功、3 張失敗（格式怪）

修正針對那 3 張改寫規則，重跑

完成100 張全部歸位

關鍵在那個「看結果 → 修正」的迴圈。它做錯不會卡住，會自己發現、自己調整、再跑一輪 ── 這是 Agent 跟一次性回答最大的差別。

上一頁知道 Agent 由哪些零件組成，這頁看它怎麼跑。重點是：它不是一次就做完，是一個迴圈。

看左邊這個環。你給它一個目標，它先規劃，由 LLM 想出要哪幾步；再執行，用工具動手；然後看結果，把結果記進 Context；如果不夠好，就修正，回頭重新規劃。③→④→① 一直繞，直到達成目標才停。

右邊跑一個真例子。目標是「整理這一百張照片」。它規劃：先看有哪些、按日期分、再改名。執行：寫一段腳本跑過去。看結果：發現有三張失敗，格式很怪。它不會卡在那裡，它修正規則、針對那三張重跑，最後一百張全部歸位。

關鍵就在那個「看結果、修正、再來一輪」的迴圈。它做錯會自己發現、自己調整。這是 Agent 跟一般一次性回答最大的差別，下一頁我把這兩種擺在一起對照。

兩種用法對照

它會自己跑，不用你盯

同一顆 LLM，差別在「誰負責規劃跟動手」。看左右就懂。

💬 一般問答

你問一句，它答一句

🧍手是你的：它給建議，動作要你自己做

🔁做錯了你回來再問：每一步都要你接力

👀你得全程盯著，逐句下指令

像問一位顧問：問什麼，答什麼

🤖 Agent

你給目標，它把成果帶回來

🖐自己動手：規劃步驟、連續呼叫工具

🔧自己修正：做錯了自己發現、重跑

📦跑完帶成果回來，你只需驗收

像交辦一位同事：給目標，等成果

今天用的 Claude Code、codex 就是這種 Agent ── 你只下意圖，它自己規劃、執行、修正，把事跑完帶回來給你。

把兩種用法擺在一起，差別一眼就清楚。同一顆 LLM，差別只在「誰負責規劃跟動手」。

左邊是一般問答。你問一句、它答一句，手是你的，它給你建議，真正的動作要你自己做。做錯了，你得回來再問一次，每一步都要你接力、全程盯著。這像問一位顧問，你問什麼，他答什麼。

右邊是 Agent。你給一個目標，它自己規劃步驟、自己連續呼叫工具、做錯了自己修正重跑，跑完把成果帶回來，你只要驗收。這像交辦一位同事，你給目標，等他把事辦好。

這個差別你要記牢：今天你用的 Claude Code、codex，就是右邊這種 Agent。你只下意圖，它自己跑。好，Agent 講完了，最後輪到今天真正的主角，Skill。

主角登場

Skill：提前寫好
塞給 Agent 的說明書

Agent 很強，但它不知道你的私人規則。每次重打很煩。Skill 解這個問題。

😤 沒有 Skill 之前

每次都要重打規則：輸出格式、語氣、流程、限制條件。打完還要確認它有沒有漏讀。

✅ 有 Skill 之後

規則提前寫進 Skill，以後只說一句「出門助手」，它就自動照你的規矩辦，不用每次重講。

超能力光碟。 平常收著不佔位置，要用才插上去。一份 Markdown 檔，就是你給 Agent 的完整說明書。

接下來做什麼

這就是今天的主角。
你會親手做好幾個

接下來十個階梯，你會把最煩的 SEO 工序，一個一個變成一句話就跑完的 Skill。

✦ Skill ← 今天你要親手做的

Agent你用的 Claude Code

MCP統一插座

API點餐窗口

ToolAI 的手

Prompt / Context / Token / LLM

↑ 你今天學的九個概念，全疊在這座塔上 ── Skill 就站在最頂端。

把最煩的 SEO 工序一個一個變成 Skill，最後做出一個用你自己風格寫作的 Skill。我們開始。

九層收斂

九層疊起來，只學最頂那層

LLM 腦。猜下一個字的文字接龍機器。

Token 它的眼。文字被切成塊後轉成數字。

Context 桌子。它當下能看到的全部東西。

Prompt 你的指令。System 設規則、User 問問題。

Tool 它的手。讓它碰到真實世界。

API 服務的點餐窗口。程式照菜單呼叫。

MCP 工具的統一插座。Type-C 的概念。

Agent 會自己規劃的它。你只下意圖。

✦ Skill 你教它做事的說明書。今天你來寫這個。

你不用懂怎麼造腦造手。你只要學會寫最頂層那份說明書。 我們開始。

九個常聽卻講不清的概念半小時講明白

ChatGPT、Claude 背後那顆腦其實在玩文字接龍

「小明長的真帥」它是這樣一個字一個字吐的

AI 不是一個字一個字讀它把文字切成一塊一塊的 Token

AI 其實不認識文字，它只認數字

一個字，不一定是一個 Token

AI 沒有真記憶，它靠一張桌子

它不是在「學」

「記得」是錯覺

桌子有上限。攤越多越貴越慢

Context Window 是什麼

滿不等於好

Prompt，就是你給 AI 的指令

💬 你輸入

⚙️ AI 接龍生成

📄 輸出結果

你看得見的，和藏在背後的

不是在背技巧。是想清楚你要什麼

模糊的 Prompt

清楚的 Prompt

AI 碰不到真實世界

大模型只能說「我要呼叫」真正動手的是平台

API 就是得來速的點餐窗口

你需要記住的三件事

「敲窗口」其實是發一個 HTTP 請求

發請求時，先講你想做什麼

一張請求單，三個欄位

① 網址 ＋ 參數

② 標頭 Headers

③ 內容 Body

參數 還是 Body？

參數 Query Parameters

Body 請求體

每個回應，都帶一個 狀態碼

你用過的每個 App，背後都在叫 API

打開瀏覽器，現在就敲一個

三個窗口，今天都會親手敲

serper

DataForSEO

Google 服務

實際長怎樣：問一句AI 自己去敲窗口

同一個工具，要寫三遍

🔧 工具

技術上：M × N 整合爆炸

寫一次，所有 AI 都能用

❌ 沒有 MCP

✅ 有 MCP

API 要你照它的規格，MCP 把工具端上桌

API ／ 你寫的 function

MCP

MCP 就是工具接入的 Type-C

技術上：一套插孔規範

🍳 順手記一句分工

Agent：會自己規劃的 AI

從規劃到執行：Agent 的迴圈

跑一個真例子

它會自己跑，不用你盯

💬 一般問答

🤖 Agent

Skill：提前寫好塞給 Agent 的說明書

😤 沒有 Skill 之前

✅ 有 Skill 之後

這就是今天的主角。你會親手做好幾個

九層疊起來，只學最頂那層

九個常聽卻講不清的概念
半小時講明白

ChatGPT、Claude 背後那顆腦
其實在玩文字接龍

「小明長的真帥」
它是這樣一個字一個字吐的

AI 不是一個字一個字讀
它把文字切成一塊一塊的 Token

大模型只能說「我要呼叫」
真正動手的是平台

① 網址＋參數

參數還是 Body？

每個回應，都帶一個狀態碼

實際長怎樣：問一句
AI 自己去敲窗口

API ／你寫的 function

Skill：提前寫好
塞給 Agent 的說明書

這就是今天的主角。
你會親手做好幾個