做 SEO 朋友,多少聽過「重複內容」會對 SEO 有負面影響,因此要避免網站有重複內容的問題發生。

而今天我想要跟各位進一步討論 SEO 重複內容(duplicate content)到底是什麼?Google 為何不喜歡重複內容?又有哪幾種重複內容的類型?最後,我們可以如何解決重複內容的問題?

本次內容一樣會相當厚實,那我們開始吧。


重複內容是什麼?

所謂的「重複內容」(duplicate content),顧名思義即是重複、相同的內容,而這樣的相同內容會使搜尋引擎跟使用者感到困擾,進而影響 SEO 成效。

更簡單的定義的話:如果有內容相同、但網址不同的情況,即為 SEO 中的重複內容。

圖片來源(https://www.pinterest.es/pin/76490893651879718/)
圖片來源

為何 Google 不喜歡重複內容?

如果你想像 Google 是一間超巨大的圖書館,而一個網站(website)是一間出版社,網站中一篇一篇的網頁(page)則是一本又一本的書。

當 Google 這個圖書館館長在決定要提供哪些書給讀者時,發現很多書的內容都長的一模一樣,這時候要決定提供哪一本書給讀者就會很困擾了。

又或者說,有一間出版社(網站)出了很多本一模一樣的書,Google 自然會覺得這個出版社(網站)莫名其妙,進而進低對於它的關注。

用 SEO 角度來看,就是 Google 覺得爬取你網站的 CP 值很低,所以會降低 Google 爬蟲對你網站的關注度——也就是降低你網站的「檢索預算」(crawl budget),而這對於經營網站來說是有害的。

通常我們會利用 google search console 的「檢索統計資料」來評估 crawl budget 的狀況
通常我們會利用 google search console 的「檢索統計資料」來評估 crawl budget 的狀況

衍伸閱讀:《Google 官方說明:避免建立重複的內容


重複內容對於網站主以及使用者的危害

上述是 Google 不喜歡重複內容的理由之一。而重複內容不只會困擾 Google ,對於網站主跟使用者也同樣有負面影響。

1. 網站主:重複內容會分散權重,導致 SEO 效果不彰

如果你只有一個頁面,那麼所有的 credit 都會累積在這個網頁上,進而讓 Google 知道這個頁面是個優質頁面。

相對的,如果你今天有十個同樣的頁面,credit 就會分散在不同的頁面上,導致單一頁面的競爭力薄弱,進而影響到你在 SEO 環境的競爭力。

這是為何網站主該處理重複內容的理由,也是 canonical 標籤希望解決的問題。

※ 當然,如果有些是無意義的重複頁面,也會造成網站分析、流量計算的困擾,所以處理重複頁面對於整個網站的經營都是好事。


2. 使用者:重複頁面造成使用者體驗不佳

當使用者去逛一個網站,結果發現好多頁面長的極其相似,但網址好像又不太一樣,這樣的網站體驗總是令人不快及困惑。


常見的重複內容類型介紹

前面幫助各位了解重複內容的定義及負面影響了,那麼接下來就來討論一下有哪些常見的重複內容類型吧。

1.什麼樣叫做重複內容

首先我們要了解到:不同的網址,對於 Google 來說就是不同的頁面;而當「不同的頁面」卻有著「相同的內容」,就算是重複內容了!

所以說假設你的網頁有 http 跟 https 版本同時存在於網路上,由於網址是不一樣的,但是內容相同,所以構成了重複內容。

2.重複內容的發生位置

重複內容可以發生在同網域跟跨網域的情況。你可以想像成同一間出版社中有書本內容重複,跟跨出版社中有書本內容重複。

以下就是幾種常見的重複內容類型,其中概念都差不多,如果你懂了以後就能判讀類似的情境了。


同網域重複內容解析

以下介紹的重複內容,通常發生同一個網站/網域底下,也是網站主最應該處理、最能處理的重複內容情況。

而除了第 1 點的「非技術失誤的重複內容」,後面的 2~6 點都屬於網站技術設定失誤造成的重複頁面。


1. 非技術失誤的重複內容

排除掉網站技術問題,如果你的網站重複上架了相同的產品或文章,並產生了多個不同的網址,此時你的網站就會有重複內容的問題發生。

不過 Google 判別重複內容有時候會比較嚴格,像是假設兩個頁面內容只差了一點點,像是尺寸不一樣、顏色不一樣,Google 也有可能判定為重複內容,因為太像了。

此時就很適合用 canonical 來處理,幫助 Google 了解這幾個產品屬於同一系列,並請以標準網址為主即可。

另一方面,如果你網站有無意義且完全相同的頁面,則請盡量下架或者 301 轉址到主頁面上,因為使用者跟 Google 都只需要你唯一且正確的頁面即可。

舉例:透過 canonical 設定,來解決重複頁面問題

2. http, https 重複問題

所謂的「http, https 重複問題」,是指網站同時存在 http 跟 https 版本的網址。

舉例來說,假設我的網站同時以下兩個版本,那代表我的網站就有重複內容的問題發生:

  • http 版本:http://frankchiu.io/
  • https 版本:https://frankchiu.io/

如果網站有做好設定,輸入 http 版本的時候,會自動轉址到 https 的版本,如此一來就沒有重複內容的問題了。


3. www, non-www 重複問題

所謂的「www, non-www」重複問題,是指網站同時存在 www 跟 non-www 版本(沒有 www)的網址。

舉例來說,假設我的網站同時存在以下兩個版本,那代表我的網站就有重複內容的問題發生:

  • www 版本:https://www.frankchiu.io/
  • non-www 版本:https://frankchiu.io/

而我的網址只有 non-www 版本(https://frankchiu.io/),就是網址沒有 www;如果輸入 https://www.frankchiu.io/ 會顯示 404,無法連線到我的網站。

此時因為只有一個版本存在網路上,所以不構成重複內容的問題。

※提醒:www 跟 non-www 沒有哪個比較好,但一個網站應該要統一規範要採取哪種格式。

兩隻一樣的貓(重複內容)

4. slash, non-slash 重複問題

所謂的「slash, non-slash 重複問題」,是指網站同時存在 slash(/)跟 non-slash 版本的網址。

舉例來說,假設我的網站同時存在以下兩個版本(請注意看網址最後面),那代表我的網站就有重複內容的問題發生:

  • slash 版本:https://www.frankchiu.io/
  • non-slash 版本:https://frankchiu.io

在這邊舉個實際例子,以商業週刊來說,你會發現這兩個網址都同時存在,且頁面內容相同,而這就構成了重複內容問題。

※提醒:slash 跟 non-slash 沒有哪個比較好,但一個網站應該要統一規範要採取哪種格式。


5. 大小寫未統一重複問題

所謂的「大小寫未統一」重複問題,是指網站同時存在英文大小寫未統一版本的網址。

大小寫未統一的狀況稍微少見了一點,但某些網站因為設定不佳,會因為大小寫設定而導致很多重複頁面。

舉例來說,假設我的網站同時存在以下兩個版本(請注意看網址最後面的 coffee),那代表我的網站就有重複內容的問題發生:

  • 正常版本:https://frankchiu.io/marketing-case-1-1-coffee/
  • 不正常版本:https://frankchiu.io/marketing-case-1-1-COFFEE/

網站主應該設定網址都盡量以小寫為主,並且規範大寫字母會自動跳轉到小寫網址,以避免重複內容。


6. 網站參數問題

有時候網站會因架構設定,而使得網站產生許多參數,好比以下例子。

這三頁內容完全相同,且沒有分頁差異存在,符合內容相同、網址不同的重複內容定義。

  • https://www.sample.com.tw/duedate
  • https://www.sample.com.tw/duedate?page=1
  • https://www.sample.com.tw/duedate?page=2

不過該網站至少有針對後面兩個網址做 canonical 到第一個網址,所以負面影響有限;但在理想情況下,最好是不要跑出這些無意義的參數,會是比較理想的狀況。


跨網域重複內容解析

所謂跨網域重複內容,就是指同一篇內容,但同時出現在不同的網域跟網站上。

好比我的《揭密 Google Trends 正確使用方式:為何 90% 人都用錯 Google Trends?》就同時出現在我的部落格、行銷人、Yahoo 新聞上。

從 Google 的角度來看,圖書館裡有 3 本《揭密 Google Trends 正確使用方式》,發生了重複內容的問題;而這樣的情境通常發在轉載,或者你有多個部落格平台或網站的情境上。

關於轉載對於 SEO 的影響,我撰寫了一篇《文章轉載終極指南:轉載對於 SEO 有什麼影響?創作者又要如何看待轉載?》,裡面針對這樣轉載的行為有詳細的解析,歡迎參閱。

文章轉載終極指南:轉載對於 SEO 有什麼影響?創作者又要如何看待轉載?


如何解決重複內容問題?

上面討論了這麼多種重複內容的情境,那麼要如何解決呢?請見以下說明。

1. 從根本上避免重複內容發生

以最直接來說,要徹底解決重複內容,就是讓網站不要有重複內容。

這聽起來有點廢話,但實際上的確是如此,像是前面提到的 https, http、www,non-www、參數問題…等,都會造成網站產生大量的重複內容,如果不從根本解決,就會沒完沒了。

檢查網站技術設定:如果 https, http、www,non-www、slash, non-slash 同時發生,即為 2 x 2 x 2,也就是 8 倍的重複內容!所以有些網站建設跟技術設定相當重要,否則重複內容就會像是雜草一下清也清不完。

因此,網站主與網站工程師,需要從根本去思考重複內容發生的頁面類型,為何會發生這樣的狀況?要如何從根本上避免?就能降低許多重複內容的問題發生。

頁面多會必是好事:網站主也要了解到「多未必是好」,有些網站主會為了希望網站內容很豐富,因此弄了大量含金量低、含水量高的相近頁面,然後這樣的頁面對於 Google 跟使用者都沒有價值。

如果你能把相似的頁面內容精煉並且彙整,對於整個網站的體質跟使用者體驗都會大有幫助。


2. 301 轉址來統一網址

所謂的 301 轉址(301 redirect),是一種永久轉移的轉址方式(Moved Permanently),可以傳遞舊頁面的權重。

301 轉址等於告訴搜尋引擎我永久搬家了,請你以我新家的地址為主(也就是轉向的新網址)。

針對那些我們認為不需要存在的頁面時(沒有人應該看到該頁),我們就能採用 301 轉址,將舊頁面統一轉址到標準頁面上。

好比將「http://frankchiu.io/」頁面,301 轉址到「https://frankchiu.io/」上,這樣就能解決重複頁面問題了。

衍伸閱讀:Google 官方說明《透過 301 重新導向變更網頁網址


3.善用 canonical 標籤

canonical 標籤主要是處理重複頁面的標籤,尤其是那些「內容很接近但又有點不一樣的頁面」。

好比說,如果同一件衣服如果有紅色、黃色、綠色,並且有各自獨立的網址(url),此時將黃色跟綠色轉址到紅色衣服的頁面並不適當。

因為使用者依然會想知道黃色跟綠色的頁面,如果轉址後,另外兩個頁面就無法被使用者讀取了,此時正適合使用 canonical 標籤。

關於 canonical 詳細的說明,請參考《SEO canonical 2020 終極指南:解決重複內容、跨平台轉載困擾》一文,裡面有詳細的論述。

SEO canonical 2020 終極指南:解決重複內容、跨平台轉載困擾


如何發現網站中的重複內容問題?

關於如何發現網站的重複內容問題,在這裡我也簡要跟各位說明一下。如同前面反覆提到的定義:如果有內容相同、網址不同的情況,即為 SEO 中的重複內容。

因此我們就是要多檢驗不同類型的網址,並看看內容是否相同,進而發現重複內容的狀況。你可以先透過同網域重複內容類型 2~6,來檢驗是否有重複內容的問題。

而我們 SEO 人通常會利用專業的檢測工具,幫助我們評估重複頁面狀況。

好比說像是 Ahrefs 的 site audit 功能,有時候就能直接幫我們檢驗出來重複內容的頁面。(但未必完整跟精確,還是需要人工判讀)

而我則更習慣使用 screaming frog 這個強大的爬蟲工具,並利用 title,h1 等標籤,來幫助我評估內容是否重複。

因為一個頁面 title 或 h1 重複,很有可能內文也是重複的;當然工具只能幫我們收斂方向,實際上要找到正確答案,還是仰賴不少人工的抽檢跟逐頁的分析。

那麼本次關於 SEO 重複內容的討論就到這裡,感謝你的閱讀,我們下次見。

2020.10.04
法蘭克

留下一個答复

請輸入你的評論!
請在這裡輸入你的名字