2015年1月20日

Blogger 提供新的網站地圖(sitemap)格式﹍一勞永逸的提交方法

A+
過去 Blogger 要提交網站地圖到「Google / Bing 網站管理員」時,其實有點小小的麻煩,因為 Blogger 提供的兩種格式 Atom/Rss,無法儲存太多資料,一個 sitemap 網址最多能存放 500 篇文章,超過時只能手動分開提交。

現在 Blogger 提供了一勞永逸的方法,無論部落格有多少文章,就算有數千、甚至上萬篇,都只需要提交一次網站地圖就好,不必再為這件事操心,無論是否自訂網域都適用。



一、Blogger 舊版網站地圖


1. Sitemap 格式

有提交過網站地圖的站長,應該都知道 Blogger 提交的格式長的類似像這樣:

RSS:http://www.wfublog.com/rss.xml
ATOM:http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500


將以上 www.wfublog.com 置換成自己的網址即可看到內容。分別說明一下以上格式──

  • RSS:根據以上網址格式,只能儲存最新的 25 篇文章
  • ATOM:根據以上的網址格式,會儲存最新的 500 篇文章;當文章超過此數目時,必須提交另一個網址,例如將參數改為 start-index=501&max-results=500,代表第 501 ~ 1000 篇的文章,其餘以此類推。


2. 索引更新原理

Sitemap 網址之中,每篇文章的資料之中包含一個標記,註記該篇文章的更新日期、時間。例如 RSS 的標記為 <pubDate>,ATOM 的標記為 <updated>。

只要有文章更新過內容,Sitemap 之中該篇文章就會更新這個標記,記錄最後的更新時間。搜尋引擎蜘蛛定期爬 Sitemap 發現這件事後,就會去重新索引該篇文章,讓搜尋結果保有最新的資料。


3. 無法更新的文章

瞭解以上原理後,我們可以知道:

RSS:根據前面的網址格式,只有最新的 25 篇文章,當文章內容修改過時,搜尋引擎才會知道、並過來更新。每當網站有新的文章,從第 26 篇起,搜尋引擎就比較難發現文章的更新狀態。

ATOM:依上述網址格式,最新的 500 篇文章會持續更新。不過只要勤勞一點,分批將所有文章都提交出去,搜尋引擎就能知道所有文章的更新狀態。

補充說明一下,RSS 的 sitemap 網址後面,加上跟 ATOM 一樣的參數 (?redirect=false&start-index=1&max-results=500),就可有一樣的效果。



二、Blogger 新版網站地圖


1. 一般網站

根據這篇「XML Sitemap for Blogger」,Blogger 在 2013 中提供了新的網站地圖格式:

http://wayne-fu.blogspot.com/sitemap.xml

在網址後面加上 "sitemap.xml" 就是可以提交的新格式。這個網址格式的特點如下:


  • 包含網站的所有文章更新狀況,無論多少篇都能處理。
  • 提交網站地圖時只需一次即可,每超過 500 篇也不再需要分批提交,是一勞永逸的方法。
  • 實際上 sitemap.xml 一次最多只能存放 1000 篇文章,但超過 1000 篇後,內容會自動化處理,sitemap.xml 自動成為索引檔。


來看一下實例,這是 Google 官方網站的 sitemap 網址:

http://googleblog.blogspot.tw/sitemap.xml

實際上 Google 官網有數千篇文章,但 sitemap 的內容卻不多:

<?xml version='1.0' encoding='UTF-8'?><sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=1</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=2</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=3</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=4</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=5</loc></sitemap></sitemapindex>

原來這個索引網頁記錄了 sitemap 的分頁資訊,如此搜尋引擎就可從這個 sitemap 網址的索引資料,繼續爬第 1 頁到 第 5 頁的內容。這個機制很聰明,不必再像 ATOM 一樣,得手動另外提交超過 500 篇的頁面。


2. 自訂網域

這麼棒的 sitemap 格式,其實一開始只適用 blogspot.com 網域的 Blogger,也就是說「自訂網域」的 Blogger 不支援。不過原文提到,最近 2014 年底,這個功能已經悄悄支援所有 Blogger 了,例如本站就能提交以下的網址:

http://www.wfublog.com/sitemap.xml

因此,如果你使用 Blogger 自訂網域的話,現在可以開始提交 sitemap.xml 這個格式了。



三、不同網站地圖格式的特點


1. 官方建議

然而提交 sitemap 之前,需要瞭解一下 Google 官方說明「Best practices for XML sitemaps & RSS/Atom feeds」:

1.「sitemap.xml」的內容比較多(全部);「ATOM/RSS」較少,只列出最近更新的文章

2. 「sitemap.xml」更新頻率比較慢;「ATOM/RSS」更新的速度比較快

因此官方建議提交網站地圖時,兩種都一起提交,才能確保「網站所有文章都被索引」,以及「讓搜尋引擎以最快速度索引」。


2. 最方便的搭配

根據以上的結論,WFU 認為提交網站地圖時,這是較佳的組合:


http://www.wfublog.com/sitemap.xml

http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500



以上 www.wfublog.com 置換成自己的網址即可。

提交兩組網站地圖的意思是:

  • 提交 sitemap.xml 可確保所有文章都被收錄
  • 提交 ATOM 的 1~500 篇文章,可確保最新的文章能以最快速度被收錄,第 1~500 篇文章 有更新時能被搜尋引擎快速知道。
  • ATOM 從 501 篇之後的文章可不必提交,因為 sitemap.xml 已經有這些資料,只是更新頻率稍微慢一些而已。
  • 可省去以後操作的麻煩,也就是說網站地圖只需提交這麼一次即可。



3. 補充說明

以上官方文章提到一件事 "submitting sitemaps or feeds does not guarantee the indexing of those URLs." → 不保證提交的文章都會被搜尋引擎索引。

這是因為 Google 會另外審核文章,如果是重複、不當、垃圾、版權內容等等,可能就不會被收錄了。



四、提交網站地圖


最後是提交的步驟,如果不熟悉的話,可參考這篇「Blogger 部落格提交網站地圖」,分別向兩大搜尋引擎「Google 網站管理員」以及「Bing 網站管理員」提交即可。如果需要向別的地區提交、來增加文章的能見度,也可參考該篇文章進行。


更多 Blogger 相關主題:

16 則留言:

  1. 多謝分享這項資訊,趕快加上去 :)

    回覆刪除
    回覆
    1. 剛發現我在去年已經加到 Webmaster Tool 裡面了,居然沒有印象 @@iii

      刪除
    2. sitemap.xml 是2013 推出,但自訂网域最近才支援,mark 你家的blogger 不是自訂網域,所以可能之前先用了 ^^

      刪除
    3. 令我納悶的一點,是我根本忘了已經改用 sitemap.xml,在 robots.txt 卻忘了改,哈哈!

      刪除
  2. 我也來提交新的網站地圖格式 :D

    回覆刪除
  3. 感謝說明,非常有幫助呢!

    回覆刪除
  4. 請問版主,文中的方法應該是指針對文章的部分,Blogger的網頁部分有辦法建立sitemap嗎?感謝你

    回覆刪除
    回覆
    1. 可參考 http://www.wfublog.com/2016/02/blogger-post-page-difference.html →「二、"網頁" 頁面的特點」,"網頁" 不存在於 RSS FEED,所以無法自動建立 sitemap

      刪除
  5. WFU你好,

    之前BLOGGER受惠你的網站許多,謝謝^^

    而最近也從GODADDY購買了.com的新網域,但是在analytics的地方要新增

    【sitemap.xml】
    【atom.xml?redirect=false&start-index=1&max-results=500】

    都會出現【General HTTP error: Domain name not found】的錯誤~

    不知道為提示出在哪裡呢? 謝謝

    就的網域是 http://wanghenrytw.blogspot.com 這裡使用 sitmap.xml 跟 atom 都可以正常!
    但是 新的 http://www.wanghenry.com 提交上述兩種sitemap時都會出現尚處兩種錯誤訊息、

    而http://wanghenry.com 就正在審核中

    回覆刪除
    回覆
    1. 你好, "在analytics的地方要新增 【sitemap.xml】【atom.xml?redirect=false&start-index=1&max-results=500】" → 我看不懂這是什麼意思, 本篇沒提到 analytics, 不清楚你在哪裡做了什麼動作.

      刪除
    2. 抱歉,應該是console的地方要加入sitemap.xml 以及 atom,筆誤寫成analytics~

      因為一開始寫blogspot時使用的是預設的wanghenrytw.blogspot.com,但最近因購買新網域就把網址替換成了www.wanghenry.com,這時後我就去console的這個新網址的sitemap,但console就立刻告知有錯誤,而錯誤的說明就是【General HTTP error: Domain name not found】

      就英文字面來解讀是domain找不到,但我確認上面的新www網址是可以在不同的手機或電腦上能正確開啟網站的(即網址沒錯)

      因此留言詢問~謝謝

      刪除
    3. 我看 wanghenry.com 跟 www.wanghenry.com 現在都沒問題了

      刪除
    4. 謝謝Wayne,剛剛看 www這個包含子網域的網址都正常了,這狀況有可能是怎樣的原因嗎?
      Google本身系統短暫失常?新的網域需要經過左右的啥間才能被抓取?(網域是23日購買,約24/25日才正式改成www開頭)

      PS:因為就連另一個測試用的food.wanghenry.com剛剛立刻新增sitemap.xml也都順利成功(昨天也是出現上述的錯誤訊息)

      刪除
    5. 不客氣,DNS 設定要一段時間後才會生效~

      刪除

張貼留言注意事項:

◎ 勾選「通知我」可收到後續回覆的mail!
提問請附網址、詳細描述狀況,如提供的資訊不足,則無法回覆。
◎ 請在相關文章留言,與文章無關的主題請至「Blogger 中文論壇」。
◎ 若詢問 CSS 、非官方範本問題、或貴站為商業網站 ,請參考「本站諮詢頁面」→「1. 諮詢服務」
◎ 若留言要輸入語法,"<"、">"這兩個符號請用其他符號代替,否則語法會消失!
◎ 若發現留言不見了,通常是因為 "複製貼上" 的內容常被系統判定為垃圾留言,請不用擔心,我會定期將留言恢復。
◎ 本站「已關閉自刪留言功能」。