要優化爬取還有一個很常見的好工具,叫做 Sitemap,裡面比較有名的是 XML Sitemap,這個工具可以說是給爬蟲的快速通道、也是網站重要網址的懶人包。
對於大型網站來說,XML Sitemap 更是很重要的功能,接下來就讓我們來詳細談談 XML Sitemap 吧!
文章目錄
Sitemap 是什麼?
Sitemap 是一種給搜尋引擎使用的文件,裡面會將網站的連結(URL)列出來,讓爬蟲可以輕鬆找到所有網站網址。
Sitemap 常見的有 XML Sitemap 跟 RSS Sitemap,我們下面會再詳細個別介紹。
延伸閱讀:《SEO 自學大全:一篇就搞懂 SEO,完整說明 SEO 的底層邏輯》
為什麼會需要 Sitemap
對於爬蟲來說,整個網站就是一個巨大的城市,每個大街跟小巷都能走進去,而這些道路也彼此連結,讓爬蟲可以到處逛來逛去。
然而,整座城市裡面可能只有特定的道路是最重要的,一個城市可能有 3,000 條道路,但裡面只有 100 道路是最精華,最需要爬蟲來逛的。
因此我們就準備了一個 Sitemap,把所有重要的道路都標注出來,幫助爬蟲節省了大量的時間跟力氣;而對於市長來說,也確保了重要的道路都有被關照到。
回到 SEO 的場景,一個網站可能有上萬則網址,要如何幫助爬蟲很有效率的爬完呢?我們可以準備一包 Sitemap,這就是給爬蟲的懶人包,讓它可以直接享用裡面打包好的網址。
爬蟲省心、更高效率的爬取完網站了,網站主也不用擔心重要網址會被爬蟲遺漏。
工商時間
如果你想要更系統化、更輕鬆的學好 SEO,推薦你參考我與知識衛星合作的 SEO 線上課程《SEO 排名攻略學:從產業分析到落地實戰,創造翻倍流量》。
這是我的 SEO 集大成之作,讓你從入門到精通,附贈實戰模板跟檢核表,讓你真正的學好 SEO。
XML Sitemap 介紹
前面提到 Sitemap 有一種常見格式是 XML Sitemap,這個「XML」就是一種特殊的格式。我們這邊可以來看一下 XML Sitemap 的實際範例。
Apple 官網的 XML Sitemap
網址:https://www.apple.com/sitemap.xml
你可以看到裡面充滿了一則又一則的網址,而爬蟲看到這些網址就能直接進去爬取,非常方便。
Frank Chiu 官網的 XML Sitemap
網址:https://frankchiu.io/sitemap_index.xml
這個是我的網站,畫面中則是我利用 WordPress Yoast SEO 外掛,產生的 XML Sitemap。
你會感覺格式好像跟前面不一樣?這是因為這是一包 XML Sitemap 的索引檔案,Yoast SEO 根據不同的網址結構、頁面類型,分出了 5 個 XML Sitemap。
我們可以點入當中的「post」,網址是:https://frankchiu.io/post-sitemap.xml;裡面就會有我網站文章的所有網址,共計 185 個,讓爬蟲可以直接爬取。
如何產生 XML Sitemap?
要產生 XML Sitemap,可以參考網路上現成的工具,像是 WordPress 就有許多 SEO 外掛工具能幫助你產生 XML Sitemap,像是 Yoast SEO、Rank Math 等等
而像是 Pixnet、Blogspot 也有提供自動產生 XML Sitemap 的功能。
你可以詢問你的網站工程師、網站平台,查看關於 XML Sitemap 的資訊。
XML Sitemap 使用技巧
要做好 XML Sitemap,我們需要注意以下內容。
1. 數量限制
XML Sitemap 一包可以吃下 50,000 則網址,如果超過 50,000 則網址,就需要創立另一個 XML Sitemap。如果 XML Sitemap 檔案超過 50MB 也不可以,要拆開來。
2. 自動更新
XML Sitemap 應該要能自動更新,讓爬蟲能爬到最新的網址。當網站網址有增加時,XML Sitemap 上面應該要能自動增加此網址;當網站有下架網址,XML Sitemap 也應該要自動剃除網址。因此我這邊不提供手工製作 XML Sitemap 的工具,因為這個只能解決當下的問題,對於未來沒有幫助。
3. 確保重要網址
XML Sitemap 是希望爬蟲能關注的網址,因此如果一些毫無爬取價值的垃圾頁面,已下架頁面,則不適合放入 XML Sitemap 當中。
4. 放置位置
XML Sitemap 通常會放在根目錄的位置(網址第一層),不過與 robots.txt 不同,這並非強制性的。
但根據經驗,多數人都會放在網站根目錄,並且命名為「sitemap.xml」,你可以隨便點開一些網站測試看看,通常都會中!
5. 需要提交到 Google Search Console
當完成了 XML Sitemap 之後,你會得到一個網址,如我網站的:https://frankchiu.io/post-sitemap.xml,接下來我們要這個網址提交到 Google Search Console 這個工具當中。
你可以在 Google Search Console 左側「產生索引」>「Sitemap」,就能找到提交的地方。畫面中有一個「新增 Sitemap」,把網址貼上去,就能成功提交囉。
如果提交成功,會像是畫面中顯示「狀態:成功」,並且顯示這包 XML Sitemap 裡面有幾則網址。
關於 Google Search Console 的內容可以參考《Google Search Console 介紹以及常用功能講解》。
如果提交或規劃 XML Sitemap 碰到問題,推薦你參考 Google 官方文件《建立並提交 Sitemap》。
XML Sitemap 注意事項
XML Sitemap 雖然很美好,但還是有一些注意事項。
不是索引保證
使用 XML Sitemap 會提升爬取效率,進而提升被索引的機率,但這不意味著一定會被索引。
還記得圖書館的例子嗎?使用 XML Sitemap 是幫助書籍更容易被看到,但還是要書籍內容夠好,圖書館管理員(Google)才會願意納入館藏,被索引。
小型網站未必需要
今天如果你的網站很小,網址在 10,000 則以下,其實你不安裝 XML Sitemap 也不會死,只要內容有價值、網站有更新,Google 還是很樂意爬取。
因此如果碰到一些困難無法安裝或設定 XML Sitemap,也不用這麼緊張,這完全不影響你做好 SEO。
RSS Sitemap
一般來說,一個網站過往的內容都已經被搜尋引擎爬取跟索引了,那麼有沒有辦法讓搜尋引擎更專注在我網站「更新的網址」上呢?
像是新聞、媒體網站就有大量的文章新增,我們這個時候並不希望搜尋引擎慢悠悠的爬取冗長的 XML Sitemap,而是希望爬蟲可以專注在網站最新的網址上。
而 RSS Sitemap 正能解決此問題,它也被稱做 RSS feed。
RSS Sitemap 是一種 XML 文件,它包含了網站最近更新、發布的網址列表。每次網站有新的網址產生時,RSS Sitemap 也會被更新
就像是以前部落格很盛行 RSS,你訂閱別人的 RSS,對方網站更新,你就會收到通知;而 RSS Sitemap 也是相同的道理。
RSS Sitemap 注意事項
RSS Sitemap 同樣要提交到 Google Search Console,這部分可以參考上方 XML Sitemap 的說明。
而同樣地 RSS Sitemap 是被爬取的快速通道,但不是被索引的保證。
如果想要了解 RSS Sitemap 更多細節,歡迎參考Google 官方文件《建立並提交 Sitemap》。
工商時間
如果你想要更系統化、更輕鬆的學好 SEO,推薦你參考我與知識衛星合作的 SEO 線上課程《SEO 排名攻略學:從產業分析到落地實戰,創造翻倍流量》。
這是我的 SEO 集大成之作,讓你從入門到精通,附贈實戰模板跟檢核表,讓你真正的學好 SEO。