- 登入
- 註冊
爬取是什麼?爬取及爬取預算介紹|爬取優化
在搜尋引擎三階段中,爬取(Crawl)是第一階段,也是許多網站技術人員、SEO 技術人員最常鑽研的面向,也是 SEO 的重要起點。

在搜尋引擎三階段中,爬取(Crawl)是第一階段,也是許多網站技術人員、SEO 技術人員最常鑽研的面向。
當一個網站爬取做得好,就容易被索引,也就有機會獲得好排名。
特別是大型網站,由於網頁內容太多了,要怎麼確保網站的重要內容都能被搜尋引擎爬蟲輕鬆爬完,就是大型網站 SEO 人員的必修課題。
接下來就讓我們來了解爬取,以及要如何做好爬取吧。
搜尋引擎依靠爬蟲來爬取
我們已經知道了搜尋引擎要爬取網站,那實際上要靠什麼東西來「爬」呢?
答案就是「爬蟲」,英文叫做「Crawler」跟「Spider」。
「網路」中的「網跟路」、「Internet」中的「net」,裡面都有網狀的概念,每個網頁透過連結串聯成一個網子,連結就是那條線。
透過頁面跟連結,進而組成了整個網際網路,而這些爬蟲就像是在網子上移動的蜘蛛,把每個網頁都瀏覽過一次。
延伸閱讀:《秒懂 Google 搜尋引擎運作原理:按下 Google 搜尋時發生什麼事?》
爬取預算(Crawl Budget)
爬取預算(檢索預算)是一個爬取中重要的概念,你可以當成 Google 會配一個網站每天固定的爬取額度,用完就沒了。
因此我們要把這些額度都用在最重要的網頁上。
我們可以從 Google Search Console 中的「設定>檢索>檢索統計資料」,來得知 Google 對於我們網站的檢索次數,評估 Google 對於網站的爬取狀況。
這邊的檢索次數可以讓我們了解爬取預算的多寡,當我們發現 Google 檢索網站的次數變少了,可能要留意 Crawl Budget 可能變少了。
如上面這張圖就是我的檢索統計資料,可以看到在 90 天內我的網站被 Google 爬取(檢索)3.84 萬次,平均一天約莫 400 多次。
而我整個網站網頁約莫 380 頁,這樣的次數是沒問題的。
但如果我的網站有 40,000 頁,但每天只有爬取 400 次,那問題就大了,代表爬取預算不足,需要進行調整。
延伸閱讀:《SEO 自學大全:一篇就搞懂 SEO,完整說明 SEO 的底層邏輯》
大型網站需要特別注意爬取預算
大型網站需要特別注意爬取預算,因為網頁太多了、要確保重要的網頁都能被即時爬取跟更新。
像是蝦皮、momo 這類大型電商網站,都很注重爬取預算的控制。
根據 Google 官方說法,以下狀況者需要特別注意爬取預算:
- 擁有超過 100 萬個不重複網頁,且內容變動頻率適中(每週一次)的大型網站
- 擁有超過 1 萬個不重複網頁,且內容變動極為頻繁(每天)的中型或大型網站
- 網站中有大量網址在 Search Console 中分類為「已找到 – 目前尚未建立索引」
如果你是大型網站的網站主,推薦你閱讀 Google 官方提供的《大型網站擁有者的檢索預算管理指南》。
工商時間
如果你想要更系統化、更輕鬆的學好 SEO,推薦你參考我與知識衛星合作的 SEO 線上課程《SEO 排名攻略學:從產業分析到落地實戰,創造翻倍流量》。
這是我的 SEO 集大成之作,讓你從入門到精通,附贈實戰模板跟檢核表,讓你真正學好 SEO。
爬蟲的限制:什麼情況下爬蟲會受到阻礙?
爬蟲儘管很厲害,但爬蟲也會有一些限制,主要原因就是上面提到的爬取預算有限制。
網海無盡,爬蟲必須省時省力,把資源放在重要的頁面上。
以下的頁面容易造成爬蟲的負擔、或是讓爬蟲無法工作,網站主要特別注意。
無法訪問需權限的頁面(Access Denied)
有些頁面會限制爬蟲進入,像是某些付費牆內容,只有獲得權限的人可以進去,爬蟲這個時候會被擋在外面。
robots.txt 設定錯誤(robots.txt)
網站主可以透過 robots.txt 設定,告訴爬蟲哪些頁面可以爬、哪些頁面不能爬,爬蟲原則上會遵守此規則。
好比說有些情況,網站主會限制特定爬蟲進入網站,因為這些爬蟲對於網站伺服器都是額外的負擔,有些網站主為了網站穩定性會限制特定爬蟲來爬取,把爬蟲擋在門外。
延伸閱讀:《robots.txt 介紹:什麼是 robots.txt?》
網站結構不佳(Website Structure)
如果網站結構很糟糕,網站內部連結稀疏,導致爬蟲「無路可走」,那自然就很難把整個網站走透透;因此增加網站的內部連結很重要。
延伸閱讀:《網站架構優化:什麼是 SEO 友善的網站架構?》
頁面載入速度太慢(Page Speed)
當我們在路上塞車時,就很難開車暢遊整個城市。
回到爬蟲的狀況也是相同,如果一個網站很卡,每頁載入都塞車,那麼爬取效率也會大打折扣,搜尋引擎也會認為這樣的頁面使用者會提供負面的回饋。
延伸閱讀:《網頁速度(Page speed)是什麼?網站速度如何優化?》
JavaScript 網頁設計不良(JavaScript)
JavaScript 網頁對於搜尋引擎來說是較難解析的網頁,由於 Google 爬蟲在近年持續進步,JavaScript 網站的爬取跟索引已經有所改善。
但相較於一般 html 網頁,JS 的頁面對於爬蟲來說會更吃力,需要做更多額外優化。
如何優化爬取?
透過上述內容,我們已經理解了哪些狀況對於爬蟲會造成負面影響,那麼我們要做的就是將其反轉,就能創造好的爬蟲體驗了。
好比:
- 優化網站速度與伺服器穩定度
- 建立清晰且扁平的網站結構與良好內部連結
- 提交並維護 Sitemap 與正確的 Robots 設定
- 減少無用或重複內容,確保錯誤頁面處理正確
- 持續關注 Search Console 的索引與抓取統計
- 確保網站權威度與可信度(有優質的內容與外部連結)
而從這些內容我想你也能感受到,Google 就是希望越舒服越好,希望可以越快、越輕鬆、越容易的爬完網站,那就越好。
另一方面,優化爬取就是在優化 Crawl Budget,讓預算花在重要的頁面、讓預算可以花得更有效率,並且把不重要的頁面隔離,避免消耗爬取預算。
後續我也會分享更多優化爬取的方法。
工商時間
如果你想要更系統化、更輕鬆的學好 SEO,推薦你參考我與知識衛星合作的 SEO 線上課程《SEO 排名攻略學:從產業分析到落地實戰,創造翻倍流量》。
這是我的 SEO 集大成之作,讓你從入門到精通,附贈實戰模板跟檢核表,讓你真正學好 SEO。