Favicon02

Token 介紹:理解 LLM、AI 搜尋的重要基本知識

讀懂 token,我們就掌握了生成式 AI 的出入、輸出的核心概念。

你或許沒聽過「Token」,Token 它正悄悄決定我們跟 AI 對話能說多少話、花多少錢,甚至左右一個專案一天能否跑完所有工作流程。

想像你把長篇小說塞進一台超級翻譯機:書頁會瞬間被裁成一顆顆「字粒」——這些字粒就是 token。

越多 token,機器就要翻得越久、收費越高;反之,精準切割、巧妙重組,既能壓低成本,也能讓 GPT-5 這種最新模型在 256 K token 的超大視窗裡一次掌握所有內容,替你寫出企劃案或長篇論文。

接下來,我們將帶你走進這顆看似微小、卻牽動算力、成本與創意邊界的「字粒宇宙」——讀懂 token,我們就掌握了生成式 AI 輸入、輸出的核心概念。


Token 是什麼?

Token 就是模型看文字時用的「最小拼圖片」。

Token 不是一定等於一個字或一個詞,而是把文字切成常見的字串片段(subword)、單一字元,或特定符號,再把它們變成數字給模型吃。

在 AI 裡,「Token(符記)」就是模型處理與產生文字時最小的計算單位——像樂高積木一樣,小到可以自由拼裝,大到能搭出整段文章。模型只看得見這些「積木」,再把它們轉成數字向量去學習與推理。


白話文舉例

電影分鏡:把整部片切成鏡頭(Token),導演(模型)讀腳本時就能快速瀏覽、剪輯、重組。

Token 3


Token 大小長什麼樣?

英文約 1 Token ≈ 4 個字元 ≈ ¾ 個單字。短詞如 “chat” 可能是一顆 Token;長詞 “unbreakable” 多半被拆成 “un-” 和 “breakable”。

中文則常按字、字根或拼音切分。


為什麼要把文字切成 Token?

  • 電腦只認得數字:把字劈開成 Token,再映射成 ID,才能丟進矩陣運算。
  • 控制字典大小:若每個單字都給一個編號,字典會爆炸;所以主流做法使用「子詞(sub-word)」演算法,例如 BPE,先把常見片段合併,不常見字再拆細。這樣 5 萬左右的詞彙即可涵蓋多語言。
  • 解決生僻字與錯字:拆得夠細,模型就算沒見過整個單字,也能靠子詞片段理解大意。

Token 1


Token 也等於「錢」

雲端 API(OpenAI、Azure、Anthropic…)普遍按「輸入/輸出Token」計價:

你送 100 Token 的問題,模型回 300 Token,總消耗 400 Token。

價格依模型而異,業界也把「成本/千 Token」當成 KPI 來優化。


Token 長度對比

先感覺一下「尺度感」:1 Token ≈ 多少文字?

  • 英文:1 Token 約等於 0.75 個英文單字、4 個字元,也就是每 1,000 Token 可容納大約 750 個單字。
  • 中文:因為中文切得更細,一般估算「1 Token ≈ 1.5–2 個漢字」,也就是 1,000 Token 左右能放 500–650 個漢字。

簡易公式

  • 英文字數 ≈ Token × 0.75
  • 中文字數 ≈ Token ÷ 1.5(取平均)

把 256K Token 轉成「紙本厚度」

ChatGPT GPT-5 的 256 K 上下文視窗,換算成每種語言。

英文

  • 約 192,000 單字(256,000 Token × 0.75)。
  • 以市面小說常見的 300 字/頁估算,相當於 640 頁左右;若採 280 字/頁的平均電子書排版,則約 685 頁。

中文

  • 約 130,000–170,000 字(依 1 Token 折算 1.5–2 字)。
  • 以常見 500 字/頁的排版計算,大約 260–340 頁的篇幅。

延伸閱讀:《ChatGPT 怎麼用?ChatGPT 教學:帳號註冊、22 種技巧


256 K Token 夠裝下一本什麼樣的書?

  • 《Harry Potter and the Order of the Phoenix》 全書 257,045 字——等同於 約 256 K Token 的內容量,代表 GPT-5 可以一次「看完」並討論整本最厚的哈利波特小說,不必分段餵給模型。
  • 《War and Peace》 則有 587,287 字,約 780 K Token,超過 256 K,因此仍需分批輸入。

為什麼 SEO 人員需要理解 Token?

在 2025 年以後,搜尋已不只是演算法排名的遊戲,而是同時面向 傳統 SERP + 生成式回答(GEO,Generative Engine Optimization) 的雙軌競爭。

無論是 Google GeminiChatGPT 還是各家垂直 AI 搜尋,內容在進入模型前都會被切成 token;理解這層切片規則,直接決定你的內容能否被完整索引、摘要、引用,甚至影響製作成本。


操作方向

  • 關鍵句前置:把核心關鍵字與主張放在開頭 300–400 token,以防被長視窗模型截斷或被 snippet 裁掉。
  • 主題叢集寫法:一頁解一題改為「一群相關問題 + 結構化標題」,增加在 Answer Box/AI 摘要中被整段引用的機率。
  • 多語標準化分詞:使用支援 BPE 或 SentencePiece 的 CMS/插件確保 tokenizer 不會把外語品牌詞亂拆。

小結

在生成式搜尋時代,SEO 不只追關鍵字,而是要「管理 token」——讓重要語意落在模型能看見、能負擔的範圍內,才能同時贏得 SERP 排名與 AI 答案盒曝光。


SEO 的新未來:AXO(AI eXperience Optimization)

隨著 AI 搜尋的發展,我們希望出現在各個 AI 搜尋引擎、各個垂直的搜尋引擎。

在 AXO(AI eXperience Optimization)中,我根據不同的層次,分類了 AAO、BEO、GEO、AEO、SEO,定義了不同的工作任務。

SEO 找得到 → AEO 說得到 → GEO 連得到 → BEO 買得到 → AAO AI 替你做到。

延伸閱讀:《AXO(AI 全搜尋體驗)介紹:一次理解搜尋的未來與布局

Axo 250722

 

Frank Chiu
Frank Chiu

SEO 顧問、行銷顧問。協助本地企業與跨國企業導入 SEO 跟行銷方案,包括:雀巢、凱基銀行、大人學、居家先生、IKEA、Vocus 等。

訂閱電子報