AI Agent 介紹：AI Agent 運作原理、組成元素、AAO 優化方法

客服與技術支援：24 小時自動回覆問題、用語音或文字即時處理工單，甚至主動追蹤後續狀態。
行銷／銷售漏斗：即時評分潛在客戶、寄個人化追蹤信，甚至幫業務預約通話。
財務與帳務對帳：自動核對交易、開立發票與匯總報表，減少人工錯帳。
人資流程：從履歷篩選、面試排程到入職文件準備，通通交給代理跑。
軟體開發：Claude Code、OpenAI Codex、Devin 這類程式開發代理，能讀 codebase、改檔案、跑測試，協助交付可 review 的程式變更。
資料分析與報告：自動匯整多源資料、生成圖表與洞察。
研究／情報蒐集：在瀏覽器或雲端工作區裡連續搜尋、比價、抓重點並匯整來源，常見於 ChatGPT Agent、ChatGPT Atlas、Perplexity Comet 等工具。
個人排程與行政：幫你安排會議、寄備忘信、更新 CRM 或其他雲端應用；Zapier、Lindy 等工作流工具已在這類場景提供模板或整合。

目前市場上知名的 AI Agent

1. 個人與瀏覽器代理

ChatGPT Atlas／ChatGPT Agent 模式（ChatGPT 智慧體）

ChatGPT Atlas 把 ChatGPT 放進瀏覽器，讓它能理解你正在看的網頁、摘要內容、比較資訊，並在授權下透過 Agent 模式執行任務。ChatGPT 智慧體的重點不只是回答問題，而是能在自己的虛擬電腦中搜尋、點擊、分析資料、編輯文件，代表「聊天機器人」走向「能動手做事的數位助理」。

Perplexity Comet

Perplexity Comet 是最有代表性的 AI browser 之一，把搜尋、問答、摘要、購物、旅遊規劃與信箱整理整合進瀏覽器。它的市場意義在於：AI 不再只是外掛工具，而是直接成為你上網時的副駕，跟著頁面脈絡協助你研究、比較與採取行動。

Google Gemini Live／Project Astra

Project Astra 代表 Google 對「通用 AI 助理」的長期想像：即時語音、相機理解、環境記憶與多模態互動。這些能力正逐步進入 Gemini Live、搜尋與未來裝置體驗，方向不是另外做一個代理 App，而是把代理能力嵌進搜尋、手機與日常操作介面。

2. 企業代理平台

Microsoft Copilot Studio／Agent 365

Microsoft Copilot Studio 代表大型企業最典型的代理平台路線：在既有 Microsoft 365、Teams、Power Platform 與企業資料權限之上，讓公司建立、部署與管理自己的 AI agents。搭配 Agent 365 這類治理工具，重點不只是做出代理，而是能監控、安全管理與控管企業內部越來越多的代理行為。

Salesforce Agentforce

Salesforce Agentforce 是 CRM 與客服／銷售場景最有代表性的企業代理平台。它把代理放進客戶服務、銷售、行銷與商務流程中，強調資料連接、流程行動、權限控管與成效追蹤；對企業來說，這比單純的「AI 很會回答」更接近真正能上線的數位勞動力。

Google Gemini Enterprise Agent Platform

Gemini Enterprise Agent Platform 是 Google Cloud 面向企業代理的核心平台，主打建置、部署、治理與最佳化 AI agents。它代表雲端平台商的典型打法：把模型、資料、工具、工作流程與安全治理整合在同一個企業級代理基礎設施裡。

3. 程式開發代理

Claude Code

Claude Code 是 Anthropic 最具代表性的 agentic coding 產品。它不是單純的程式碼自動補全，而是能在終端機、IDE、桌面與瀏覽器等開發環境中讀取 codebase、編輯檔案、執行命令、跑測試，並把結果整理成可 review 的程式變更。

Claude Code 的代表性在於「代理工作流」而不是單一模型能力：開發者交付的是任務目標，例如修 bug、補測試、重構模組、整理 PR 或查詢 CI 失敗原因；Claude 會先探索專案，再規劃、修改、驗證，必要時透過 MCP 連接 issue tracker、監控工具、資料庫或內部 API。

不過，它仍不等於可以完全放手的工程師。越複雜、越高風險的程式任務，越需要版本控管、測試、權限隔離與人工 review；把 Claude Code 視為「能操作開發環境的代理隊友」，會比把它當成自動工程師更精準。

OpenAI Codex

OpenAI Codex 已從早期的程式碼生成模型，轉向雲端軟體工程代理與多代理 coding workflow。它能平行處理多個任務、操作開發環境、閱讀多個檔案與終端機，代表 OpenAI 在開發者工作流上的核心代理產品。

Devin

Devin 定位為 AI software engineer，主打複雜 repo、多任務工程流程、ticket 處理與團隊知識學習。它的代表性在於把 coding agent 從「幫你寫程式」推進到「接近一名雲端工程隊友」：能讀任務、理解背景、改程式、跑流程，最後交付結果。

4. SEO 與行銷代理

Ahrefs Agent A

Ahrefs Agent A 是 SEO 與內容行銷場景裡很值得觀察的 AI Agent。它的代表性不在於單純「幫你寫文章」，而是把 Ahrefs 原本分散在關鍵字研究、競品分析、內容缺口、技術 SEO、反向連結與報表整理中的資料，轉成更接近任務導向的代理流程。

過去 SEO 人員使用 Ahrefs 時，通常要自己進入 Site Explorer、Keywords Explorer、Site Audit 等工具，一步步查詢資料、匯出表格、比對競品，再把結果整理成內容計畫或技術修復清單。Agent A 的差異在於，它讓使用者用自然語言描述目標，例如「找出這個網站最該補的內容缺口」、「比較三個競品的自然搜尋策略」、「整理本月 SEO 成效報告」，再由代理協助讀取資料、歸納重點並提出下一步建議。

從 AI Agent 的角度來看，Ahrefs Agent A 顯示 SEO 工具正在從「資料查詢平台」往「行銷代理助理」演化。SEO 不再只是人類手動操作工具，而是逐漸變成由 Agent 先完成資料蒐集、初步分析與行動建議，再由 SEO 人員判斷搜尋意圖、商業價值、品牌定位與實作風險。

延伸閱讀：《Ahrefs Agent A 介紹》

AI Agent Based 的未來

未來的網站與產品不只要服務人類，也要服務 AI Agent——這不是抽象想像，而是平台正在重新定義網路的訊號。

OpenAI 與 Stripe 推出的 Agentic Commerce Protocol，已經把商品型錄、庫存、結帳與商家後台串成可被代理理解與操作的商務流程

Anthropic 推動的 MCP，則把企業資料、工具與 AI 應用之間的連接標準化，讓代理不只讀文字，而能在權限範圍內調用工具、查資料、執行任務。

McKinsey 也指出，agentic commerce 正在把購物從「人進網站瀏覽」推向「代理替使用者比較、組合購物車、完成交易」。

Gartner 則預測，到 2028 年，三分之一企業軟體會內建 agentic AI，日常工作決策也會有一部分交由代理自主處理。

因此，未來的網站會從「給人看的頁面」逐漸變成「給 Agent 執行任務的服務層」：內容要結構化、價格與規格要可機讀、購物車與預約流程要能串接，產品本身也要提供清楚的 API、資料接口、權限邊界與操作紀錄，讓 AI Agent 能安全地消化資訊、比較選項、完成流程，甚至代表使用者做出下一步行動。

AI Agent 組成元素

1. 感知層 (Perception)

任何進入代理的訊息——使用者指令、API 回傳、即時感測器、企業資料庫──都要先經由解析與正規化模組變成可餵給模型的 JSON／文本結構。

常見做法：使用 tool calling／function calling、LangChain tools 或自訂 schema，把外部工具的輸入輸出定義清楚，降低模型亂填參數的風險。

簡單舉例：就像新進祕書先把各種語言的文件全翻成標準格式（同一種表格），方便老闆閱讀。

2. 語義理解與目標編碼 (Core LLM)

大型語言模型（如 GPT、Claude、Gemini 等，或企業自選模型）負責將人類目標轉為內部語義表示，同時抽取關鍵約束（期限、品質、預算）。

更複雜的代理系統會在模型前後加入系統提示、任務規劃提示、工具權限與檢查點，降低長鏈任務中途偏離目標的機率。

簡單舉例：祕書讀完需求後，在心裡列出「要幾頁、什麼風格、何時交」的代辦清單。

3. 記憶體系 (Memory / Retrieval)

短期快取：存放目前對話與現行子任務狀態。

長期向量記憶：將過往任務結果、文件嵌入到向量資料庫（如 Pinecone、Weaviate），供 RAG 隨取隨用。

在多代理或企業環境中，記憶通常還會區分個人、團隊與工具層級；是否共享，取決於權限、隱私與治理設計。

簡單舉例：祕書先翻桌面便條紙（短期記憶），再去公司檔案室翻歷年資料夾，還能跟其他祕書借筆記。

4. 推理與規劃 (Reasoning & Planning)

典型策略：ReAct、plan-and-execute、狀態圖流程，或用 LangGraph 這類框架把計畫、工具、記憶與人工審核串成可追蹤的 loop。

深度代理將高階目標拆成 N 個子目標，並為每個子目標選擇最合適的工具與成功判準。

簡單舉例：祕書畫流程圖──「蒐集資料→做大綱→排版→校稿」──並標註完成標準。

5. 行動執行層 (Action / Tool Interfaces)

透過 REST、GraphQL、RPA、或雲端函式呼叫完成具體操作（寫程式碼、下單、更新 CRM…）。

以 Claude 生態為例，tool use 會讓 Claude 依照工具描述產生結構化 tool call，再由應用程式或伺服器端執行；MCP 則提供標準化連接方式，把檔案、資料庫、issue tracker、搜尋工具與內部系統接到模型上。這類設計的重點不是讓模型「知道更多」，而是讓模型能在受控權限內取得必要上下文，並把推理結果轉成真實操作。

更進一步的 computer use，則讓模型透過畫面、游標、點擊與輸入來操作軟體介面。這種能力很接近人類使用電腦的方式，但也更需要沙盒、權限控管與人工確認，尤其是登入、付款、刪除資料或修改正式環境時。

簡單舉例：像打電話訂機票、開 Excel 算預算、登入後台改數字，全都自動完成。

6. 觀測與回饋 (Observation & Feedback)

每次工具呼叫後取得 result → 再送回 LLM。模型評估結果是否滿足成功判準，若否就重新規劃。

多代理系統通常會用 message passing 或共享狀態，把觀測結果在不同代理與流程節點之間流轉，形成「思考→行動→觀察→協商」環。

簡單舉例：祕書辦完事回報：「票訂好了」或「網站掛了重試中」，再決定下一步。

7. 學習／調整 (Learning Loop)

代理會將成功與失敗樣本寫入長期記憶，下一輪推理前先檢索相似案例。

企業版框架加入Human-in-the-Loop 審核與 RLHF 微調，把人類反饋蒸餾回模型或規則庫。

簡單舉例：祕書事後寫「心得小結」：什麼流程順、哪裡出錯，下次直接套用改進版 SOP。

這 7 步就像一位超能祕書的工作日誌：先聽清楚、懂需求、查資料、擬計畫、動手做、檢查結果，最後還會自我複盤。

AI Agent 運作流程

1. 啟動／身份載入：代理讀取角色設定與權限範圍（API key、ACL）。

2. 目標接收與語義解析：LLM 把自然語言任務轉成結構化「Intent + Constraints + Context」。

3. 長短期記憶檢索：先查向量庫有無可重用知識，再決定是否外部搜尋。

4. 生成行動計畫：拆解子目標的順序、依賴關係與成功指標。為每步挑選工具，標註輸入格式。

5. 執行第一個行動：調用工具並取得 observation。

6. 評估與迭代：若 observation 未達指標，則修改提示或換工具重試；若達成，將結果寫入記憶並移至下一子目標。

7. 完成或人工介入：所有子目標完成→輸出最終結果；若無法收斂→觸發人類審核。

提醒：這一整個 loop 在深度代理中可能重複數十次，直到所有 stop condition 滿足。

Observation 介紹

「Observation」是指 AI Agent 在呼叫外部工具（Action）後收到的「真實結果回饋」。Observation 是 Thought-Action-Observation （TAO）或 ReAct 迴圈中第三個不可或缺的元素，扮演「感知世界、修正計畫」的關鍵角色。

Observation 就是 Agent 的「眼睛」，把行動結果看清楚後，再決定下一步要怎麼做。

快速對照：TAO／ReAct 三步

Thought：LLM 內部推理，決定下一步。
Action：呼叫真正的外部工具。
Observation：接收工具「真實輸出」，餵回 Thought，形成自我修正迴圈。

白話文舉例，幫助你理解 AI Agent 運作流程

想像你請來一位「超能實習生」，負責幫你處理事情。整個過程可以拆成 7 個動作，每一步都很直覺：

1. 先聽清楚──收集訊息（感知 Perception）

他會把你說的話、網站資料、公司 API 回傳……通通整理成統一格式，方便後續處理。開發者常用 OpenAI 的「function calling」或 LangChain tool 介面來做這件事，保證每條資訊都對得上欄位。

2. 弄懂想要什麼──理解任務（語義理解 Core LLM）

接著，他用大型語言模型（例如 GPT、Claude、Gemini 或企業自選模型）把指令翻成「目標＋條件」：何時要完成？品質標準？預算限制？這一步就是把人話變「程式腦」能懂的語意結構。

3. 翻翻自己的筆記──找資料（記憶 Memory/Retrieval）

他先查「短期便條紙」看看剛剛的對話，再到「大資料夾」—向量資料庫（如 Pinecone）找舊專案成果。如果同辦公室的其他實習生有做過類似任務，也能直接借他們的筆記（跨代理共享記憶）。

4. 擬定執行計畫──思考與拆解（推理 & 規劃 Reason & Planning）

實習生把大目標拆成一連串小步驟，決定先做什麼、再做什麼，並為每一步挑好工具（例如查報價、更新 CRM）。這常用 ReAct 或 LangGraph 的「思考→工具→記憶」迴圈來完成。

5. 真正動手──執行動作（Action）

計畫確定後，他就去調用 REST API、Python 腳本，甚至自動點擊網站，把事情辦完。大型模型平台、CRM 系統與企業自動化工具通常會把 API 包成「工具」或「技能」，讓代理能在受控範圍內出手。

6. 檢查成果──觀察與回饋（Observation & Feedback）

每做完一步，他立刻把「成功或錯誤訊息」帶回來：例如「訂單已下」或「404 找不到頁面」。如果不達標，就重新規劃；在多代理系統裡，這些回饋會透過訊息通道或共享狀態在不同角色之間流轉。

7. 做完再變強──學習與調整（Learning Loop）

最後，他把成功／失敗經驗寫進長期記憶，下次先引用，不重蹈覆轍。企業通常會插入 Human-in-the-Loop 和 RLHF（人類回饋強化學習），確保關鍵步驟有人審核，讓模型越用越聰明。

工商時間

如果你想要更系統化、更輕鬆的學好 SEO 與 AI SEO，歡迎參考我與知識衛星合作的 SEO 線上課程：《SEO 排名攻略學》、《AI SEO 流量變革》。

透過《SEO 排名攻略學》獲得穩定的 SEO 流量與實戰經驗。
再搭配《AI SEO 流量變革》看懂 AI 搜尋趨勢，搶佔 AI 搜尋紅利。

AI Agent 對於 SEO 的影響：搜尋行為被「外包」給軟體

個人端

Perplexity Comet、ChatGPT Atlas 等瀏覽器代理，會直接替用戶提問、掃描網頁、萃取重點，並在授權下完成下一步（例如整理、填表、預約或下單）。
→ 點擊深度驟減：Agent 只載入最相關段落，甚至改用 API。

企業端

內部客服或採購代理可自動比較供應商報價、寫 PO、追蹤物流
→ B2B 內容策略：確保資料有 CSV/API 端點，方便 Agent 抓取。

平台端

Perplexity Comet、ChatGPT Atlas 與 ChatGPT Agent 顯示瀏覽器正在從「看網頁的工具」變成「能理解網頁並協助操作的工作台」。

關鍵影響

解析友善度：HTML 結構乾淨、無阻擋爬蟲的動態腳本，才能被 Agent 正常解析。
授權來源：若網站提供官方 API / OpenGraph + JSON-LD 敘述，Agent 更傾向使用。
安全風險：瀏覽器代理會讀取網頁、郵件與文件等不受信任內容，因此特別需要防範 indirect prompt injection、惡意隱藏文字與錯誤工具調用。

AAO 優化方向

AAO（AI Agent Optimization）該怎麼做？接下來讓我們來仔細討論。

前提已改變

我們要服務的「客戶」不再只是人，也包含會自己讀網頁、拉 API、擷取段落並執行動作的 AI Agents，例如 AI browser、搜尋代理與企業內部工作流代理。

要讓這些軟體助理「看得到、讀得懂、願意用」，傳統 SEO 必須延伸到面向代理的內容結構、資料授權與工具介面設計。

資訊從給人看，變成給機器人看。

1 . 讓 Agent 容易「找到」——可擷取、可爬、可引用

乾淨的 HTML 與靜態路徑

避免把關鍵內容包在 JavaScript 動態渲染或 Shadow DOM 裡，否則瀏覽器 Agent 可能直接抓不到。

結構化資料優先

FAQPage、HowTo、Product、Dataset 等 Schema.org 標記仍然關鍵。
為重點數據同步提供 JSON-LD 源檔 / RSS / CSV / GraphQL endpoint——Agent 抓 API 省時省錢，比解析 DOM 容易得多。

開放 robots，但加速回應

在 robots.txt、伺服器日誌與 API 政策中分辨搜尋引擎、AI crawler、AI browser 與惡意 bot；是否開放取用，要和授權策略一致。

2 . 讓 Agent 「願意引用」——信任、權威、精準

段落式事實陳列：Agents 傾向複製最短能解題的文字。把關鍵數據拆成 1-3 句摘要、清單或對照句型，降低冗詞。

E-E-A-T 強化：露出作者簡介、原始數據來源、更新日期與審稿方式；搜尋引擎、AI 搜尋與人工審核都更容易判斷可信度。

一致引用標籤：內外文統一品牌綽號、產品型號，避免向量檢索把你和競品混在一起。

3 . 讓 Agent 「能行動」——資料及服務打包給工具層

公開（或授權式）API：如果你的業務需要用戶採取下一步（下單、預約、計算），直接給出 REST/GraphQL 端點；瀏覽器 Agent 就能跳過 UI 直接調用。

微格式與 Deep-Link：intent:、whatsapp://send?text=… 這類深層鏈結可讓行動式 Agent 一鍵完成轉換。

速率限制與金鑰管理：給 Agent 流量單獨的 API Key，可追蹤與節流，避免被刷爆。

4 . 保護自己——安全、合規與 AI-Policy

Prompt-Injection 防禦：在自家元數據注入「拒絕危險指令」或錯誤資訊，可能反被利用。跟進 OWASP Gen AI Top 10 的建議，檢查可被外部寫入的欄位。

AI 內容授權與取用政策：不要把希望寄託在單一未成熟 meta 標籤；更實際的是同步管理 robots.txt、授權條款、API 條款、內容來源標示，並追蹤 CoMP 等內容授權／內容擷取標準的進展。

資料授權條款：用 Creative Commons / 商業 API 條款明確標註，避免被未授權的企業代理大批量複製。

SEO 與 AAO 的關聯之處：SEO DNA 的延續

就算在 AI Agent時代，幾個 SEO 基礎仍舊重要：

可爬與可索引──乾淨 HTML、穩定網址、可被 robots 讀到仍是前提；否則搜尋引擎和 Agent 都進不來。
內容品質與權威──E-E-A-T（經驗、專業度、權威、可信度）仍是引擎與 LLM 判斷可信度的核心。
技術健康與速度──Core Web Vitals、行動裝置體驗、HTTPS 等技術指標，無論是人還是 Agent，載入慢都會跳出。

AI Agent 常見問題

ChatGPT 是 AI agent 嗎？

如果你用的是一般對話模式，它仍偏向「聽指令回答」的聊天助理；但使用 ChatGPT Agent 模式時，就像替模型配了一台雲端小電腦，能在授權下開瀏覽器、寫程式、填表單，從規劃到執行一手包辦。簡單說：只聊天不一定算 agent；能在目標、工具與回饋迴圈中行動，才比較符合 AI agent 的定義。

AI agents 是什麼？

你可以把 AI agent 想成「自帶大腦和小手」的軟體：先感知環境、擬定計畫，再叫用外掛、API 或瀏覽器等工具去完成多步驟任務。與只能回答問題的聊天機器人相比，代理的關鍵是能在既定邊界內選擇動作、接收回饋並持續推進任務。

Claude 是 AI agent 嗎？

Claude 本身是一系列模型與產品，不是每一種用法都算 agent；如果只是聊天、寫文案、回答問題，它比較像對話式 AI。當 Claude 透過 Claude Code、tool use、MCP 或 computer use 連接工具、讀取環境、執行動作並根據結果迭代時，就符合本文所說的 AI Agent。

MCP 跟 AI Agent 有什麼關係？

MCP（Model Context Protocol）可以理解成 AI 應用連接外部工具與資料的標準接口。它本身不是代理，但能讓 Claude、ChatGPT 或其他 AI 應用更容易接上檔案、資料庫、搜尋、issue tracker、內部 API 與工作流程，因此是 agent 能否「真的做事」的重要基礎設施。

Agent-to-Agent 是什麼？

Agent-to-Agent（A2A）是一套讓不同品牌或框架的 AI 代理「說同一種語言」並互相派工的通訊標準。它由 Google 發起，後續交由 Linux Foundation 託管，重點在代理之間的發現、能力宣告與協作；它和 MCP 這類工具／資料連接協議互補，但安全、權限與責任歸屬仍需要在實作時審慎設計。

AI 搜尋的新未來：AXO（AI eXperience Optimization）

隨著 AI 搜尋的發展，我們希望出現在各個 AI 搜尋引擎、各個垂直的搜尋引擎。

在 AXO（AI eXperience Optimization）中，我根據不同的層次，分類了 SEO、AEO、LEO、BEO、AAO，定義了不同的工作任務。

SEO 找得到 → AEO 說得到 → LEO 連得到 → BEO 買得到 → AAO AI 替你做到。

延伸閱讀：《AXO（AI 全搜尋體驗）介紹：一次理解搜尋的未來與布局》

工商時間

AI Agent 是什麼？

AI Agent 與傳統 Chatbot、自動化腳本差異

AI Agent 可以幫我們做哪些事？

目前市場上知名的 AI Agent

1. 個人與瀏覽器代理

2. 企業代理平台

3. 程式開發代理

4. SEO 與行銷代理

AI Agent Based 的未來

AI Agent 組成元素

1. 感知層 (Perception)

2. 語義理解與目標編碼 (Core LLM)

3. 記憶體系 (Memory / Retrieval)

4. 推理與規劃 (Reasoning & Planning)

5. 行動執行層 (Action / Tool Interfaces)

6. 觀測與回饋 (Observation & Feedback)

7. 學習／調整 (Learning Loop)

AI Agent 運作流程

Observation 介紹

白話文舉例，幫助你理解 AI Agent 運作流程

1. 先聽清楚──收集訊息（感知 Perception）

2. 弄懂想要什麼──理解任務（語義理解 Core LLM）

3. 翻翻自己的筆記──找資料（記憶 Memory/Retrieval）

4. 擬定執行計畫──思考與拆解（推理 & 規劃 Reason & Planning）

5. 真正動手──執行動作（Action）

6. 檢查成果──觀察與回饋（Observation & Feedback）

7. 做完再變強──學習與調整（Learning Loop）

AI Agent 對於 SEO 的影響：搜尋行為被「外包」給軟體

關鍵影響

AAO 優化方向

前提已改變

1 . 讓 Agent 容易「找到」——可擷取、可爬、可引用

2 . 讓 Agent 「願意引用」——信任、權威、精準

3 . 讓 Agent 「能行動」——資料及服務打包給工具層

4 . 保護自己——安全、合規與 AI-Policy

SEO 與 AAO 的關聯之處：SEO DNA 的延續

AI Agent 常見問題

ChatGPT 是 AI agent 嗎？

AI agents 是什麼？

Claude 是 AI agent 嗎？

MCP 跟 AI Agent 有什麼關係？

Agent-to-Agent 是什麼？

AI 搜尋的新未來：AXO（AI eXperience Optimization）

延伸閱讀

Frank Chiu

訂閱電子報

相關文章

Google Search Console 生成式 AI 報表：GSC 生成式 AI 報表是什麼？新手完整入門

Prompt 是什麼？AI 提示詞入門教學：寫法、範例、常見錯誤

Claude Desktop 是什麼？新手入門教學：下載、用途、MCP、Cowork 與注意事項