2015年1月20日

Blogger 提供新的網站地圖(sitemap)格式﹍一勞永逸的提交方法

Blogger 提供新的網站地圖(sitemap)格式﹍一勞永逸的提交方法

Wayne Fu 0 A+
過去 Blogger 要提交網站地圖到「Google / Bing 網站管理員」時,其實有點小小的麻煩,因為 Blogger 提供的兩種格式 Atom/Rss,無法儲存太多資料,一個 sitemap 網址最多能存放 500 篇文章,超過時只能手動分開提交。

現在 Blogger 提供了一勞永逸的方法,無論部落格有多少文章,就算有數千、甚至上萬篇,都只需要提交一次網站地圖就好,不必再為這件事操心,無論是否自訂網域都適用。



一、Blogger 舊版網站地圖


1. Sitemap 格式

有提交過網站地圖的站長,應該都知道 Blogger 提交的格式長的類似像這樣:

RSS:http://www.wfublog.com/rss.xml
ATOM:http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500


將以上 www.wfublog.com 置換成自己的網址即可看到內容。分別說明一下以上格式──

  • RSS:根據以上網址格式,只能儲存最新的 25 篇文章
  • ATOM:根據以上的網址格式,會儲存最新的 500 篇文章;當文章超過此數目時,必須提交另一個網址,例如將參數改為 start-index=501&max-results=500,代表第 501 ~ 1000 篇的文章,其餘以此類推。


2. 索引更新原理

Sitemap 網址之中,每篇文章的資料之中包含一個標記,註記該篇文章的更新日期、時間。例如 RSS 的標記為 <pubDate>,ATOM 的標記為 <updated>。

只要有文章更新過內容,Sitemap 之中該篇文章就會更新這個標記,記錄最後的更新時間。搜尋引擎蜘蛛定期爬 Sitemap 發現這件事後,就會去重新索引該篇文章,讓搜尋結果保有最新的資料。


3. 無法更新的文章

瞭解以上原理後,我們可以知道:

RSS:根據前面的網址格式,只有最新的 25 篇文章,當文章內容修改過時,搜尋引擎才會知道、並過來更新。每當網站有新的文章,從第 26 篇起,搜尋引擎就比較難發現文章的更新狀態。

ATOM:依上述網址格式,最新的 500 篇文章會持續更新。不過只要勤勞一點,分批將所有文章都提交出去,搜尋引擎就能知道所有文章的更新狀態。

補充說明一下,RSS 的 sitemap 網址後面,加上跟 ATOM 一樣的參數 (?redirect=false&start-index=1&max-results=500),就可有一樣的效果。



二、Blogger 新版網站地圖


1. 一般網站

根據這篇「XML Sitemap for Blogger」,Blogger 在 2013 中提供了新的網站地圖格式:

http://wayne-fu.blogspot.com/sitemap.xml

在網址後面加上 "sitemap.xml" 就是可以提交的新格式。這個網址格式的特點如下:


  • 包含網站的所有文章更新狀況,無論多少篇都能處理。
  • 提交網站地圖時只需一次即可,每超過 500 篇也不再需要分批提交,是一勞永逸的方法。
  • 實際上 sitemap.xml 一次最多只能存放 1000 篇文章,但超過 1000 篇後,內容會自動化處理,sitemap.xml 自動成為索引檔。


來看一下實例,這是 Google 官方網站的 sitemap 網址:

http://googleblog.blogspot.tw/sitemap.xml

實際上 Google 官網有數千篇文章,但 sitemap 的內容卻不多:

<?xml version='1.0' encoding='UTF-8'?><sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=1</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=2</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=3</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=4</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=5</loc></sitemap></sitemapindex>

原來這個索引網頁記錄了 sitemap 的分頁資訊,如此搜尋引擎就可從這個 sitemap 網址的索引資料,繼續爬第 1 頁到 第 5 頁的內容。這個機制很聰明,不必再像 ATOM 一樣,得手動另外提交超過 500 篇的頁面。


2. 自訂網域

這麼棒的 sitemap 格式,其實一開始只適用 blogspot.com 網域的 Blogger,也就是說「自訂網域」的 Blogger 不支援。不過原文提到,最近 2014 年底,這個功能已經悄悄支援所有 Blogger 了,例如本站就能提交以下的網址:

http://www.wfublog.com/sitemap.xml

因此,如果你使用 Blogger 自訂網域的話,現在可以開始提交 sitemap.xml 這個格式了。



三、不同網站地圖格式的特點


1. 官方建議

然而提交 sitemap 之前,需要瞭解一下 Google 官方說明「Best practices for XML sitemaps & RSS/Atom feeds」:

1.「sitemap.xml」的內容比較多(全部);「ATOM/RSS」較少,只列出最近更新的文章

2. 「sitemap.xml」更新頻率比較慢;「ATOM/RSS」更新的速度比較快

因此官方建議提交網站地圖時,兩種都一起提交,才能確保「網站所有文章都被索引」,以及「讓搜尋引擎以最快速度索引」。


2. 最方便的搭配

根據以上的結論,WFU 認為提交網站地圖時,這是較佳的組合:


http://www.wfublog.com/sitemap.xml

http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500



以上 www.wfublog.com 置換成自己的網址即可。

提交兩組網站地圖的意思是:

  • 提交 sitemap.xml 可確保所有文章都被收錄
  • 提交 ATOM 的 1~500 篇文章,可確保最新的文章能以最快速度被收錄,第 1~500 篇文章 有更新時能被搜尋引擎快速知道。
  • ATOM 從 501 篇之後的文章可不必提交,因為 sitemap.xml 已經有這些資料,只是更新頻率稍微慢一些而已。
  • 可省去以後操作的麻煩,也就是說網站地圖只需提交這麼一次即可。



3. 補充說明

以上官方文章提到一件事 "submitting sitemaps or feeds does not guarantee the indexing of those URLs." → 不保證提交的文章都會被搜尋引擎索引。

這是因為 Google 會另外審核文章,如果是重複、不當、垃圾、版權內容等等,可能就不會被收錄了。



四、提交網站地圖


最後是提交的步驟,如果不熟悉的話,可參考這篇「Blogger 部落格提交網站地圖」,分別向兩大搜尋引擎「Google 網站管理員」以及「Bing 網站管理員」提交即可。如果需要向別的地區提交、來增加文章的能見度,也可參考該篇文章進行。


更多 Blogger 相關主題:
0 0
如這篇文章對你有幫助,歡迎「分享」到 FB、「追蹤」粉絲團、「訂閱」最新文章

36 則留言:

  1. 多謝分享這項資訊,趕快加上去 :)

    回覆刪除
    回覆
    1. 剛發現我在去年已經加到 Webmaster Tool 裡面了,居然沒有印象 @@iii

      刪除
    2. sitemap.xml 是2013 推出,但自訂网域最近才支援,mark 你家的blogger 不是自訂網域,所以可能之前先用了 ^^

      刪除
    3. 令我納悶的一點,是我根本忘了已經改用 sitemap.xml,在 robots.txt 卻忘了改,哈哈!

      刪除
  2. 我也來提交新的網站地圖格式 :D

    回覆刪除
  3. 請問版主,文中的方法應該是指針對文章的部分,Blogger的網頁部分有辦法建立sitemap嗎?感謝你

    回覆刪除
    回覆
    1. 可參考 http://www.wfublog.com/2016/02/blogger-post-page-difference.html →「二、"網頁" 頁面的特點」,"網頁" 不存在於 RSS FEED,所以無法自動建立 sitemap

      刪除
  4. WFU你好,

    之前BLOGGER受惠你的網站許多,謝謝^^

    而最近也從GODADDY購買了.com的新網域,但是在analytics的地方要新增

    【sitemap.xml】
    【atom.xml?redirect=false&start-index=1&max-results=500】

    都會出現【General HTTP error: Domain name not found】的錯誤~

    不知道為提示出在哪裡呢? 謝謝

    就的網域是 http://wanghenrytw.blogspot.com 這裡使用 sitmap.xml 跟 atom 都可以正常!
    但是 新的 http://www.wanghenry.com 提交上述兩種sitemap時都會出現尚處兩種錯誤訊息、

    而http://wanghenry.com 就正在審核中

    回覆刪除
    回覆
    1. 你好, "在analytics的地方要新增 【sitemap.xml】【atom.xml?redirect=false&start-index=1&max-results=500】" → 我看不懂這是什麼意思, 本篇沒提到 analytics, 不清楚你在哪裡做了什麼動作.

      刪除
    2. 抱歉,應該是console的地方要加入sitemap.xml 以及 atom,筆誤寫成analytics~

      因為一開始寫blogspot時使用的是預設的wanghenrytw.blogspot.com,但最近因購買新網域就把網址替換成了www.wanghenry.com,這時後我就去console的這個新網址的sitemap,但console就立刻告知有錯誤,而錯誤的說明就是【General HTTP error: Domain name not found】

      就英文字面來解讀是domain找不到,但我確認上面的新www網址是可以在不同的手機或電腦上能正確開啟網站的(即網址沒錯)

      因此留言詢問~謝謝

      刪除
    3. 我看 wanghenry.com 跟 www.wanghenry.com 現在都沒問題了

      刪除
    4. 謝謝Wayne,剛剛看 www這個包含子網域的網址都正常了,這狀況有可能是怎樣的原因嗎?
      Google本身系統短暫失常?新的網域需要經過左右的啥間才能被抓取?(網域是23日購買,約24/25日才正式改成www開頭)

      PS:因為就連另一個測試用的food.wanghenry.com剛剛立刻新增sitemap.xml也都順利成功(昨天也是出現上述的錯誤訊息)

      刪除
    5. 不客氣,DNS 設定要一段時間後才會生效~

      刪除
  5. 您的 Sitemap 似乎為 HTML 網頁。請使用支援的 Sitemap 格式。

    請問這種狀況要怎麼解決?我是痞克邦的部落格

    回覆刪除
    回覆
    1. 本文是針對 Blogger 平台,而痞客邦有問題請找客服喔~

      刪除
    2. 我的文章(https://u7804156baby.blogspot.com/2018/10/King-Lotus.html)

      search console / sitemap

      會出現以下錯誤:

      可讀取 Sitemap,但其中含有錯誤

      Sitemap 為 HTML 檔案

      您的 Sitemap 似乎為 HTML 網頁。請使用支援的 Sitemap 格式。


      (截圖如下)
      ____________________________

      https://lh3.googleusercontent.com/-PmGsYhqj8HU/XAXjFFWya1I/AAAAAAAAX_k/a1QfViuMfKgMb9PLBquKKx59P_qahYQoQCHMYCw/s1600/sitemap.png

      ____________________________

      不知道哪邊設定錯誤??

      煩請站長不吝解惑

      刪除
    3. 根據附上的截圖 提交的網址未根據本文流程
      請按照本文流程的網址格式提交 sitemap 即可

      刪除
    4. 親愛的老師:我日前就有按照文章流程提交 sitemap。(https://u7804156baby.blogspot.com/sitemap.xml


      不知道是不是哪邊誤會了?搞錯了呢?

      真的不吝理解。煩請不吝解惑!感恩~~~

      刪除
    5. 你第一個未依流程的處理方式提供的出錯資訊很詳細

      而依照流程的操作方式沒有提供任何出錯資訊 所以無法知道究竟是哪裡出問題

      刪除
    6. 感謝站長不吝解惑,認真反覆看文章好幾次,也重新提交 sitemap ,希望有操作正確!

      謝謝!

      刪除
  6. 很順利的解決了sitemap的問題,謝謝您!

    回覆刪除
  7. 謝謝分享, 把您的連結加到我的部落格了. 在您的網站上學到很多!

    回覆刪除
  8. 提交後出現問題,缺少xml 標記,
    https://drive.google.com/file/d/1XklI_RQIfPn6bPmr24R5N9j1kVPaMty9/view?usp=drivesdk

    回覆刪除
    回覆
    1. https://kellyfangstory.blogspot.com/ 你的網站一篇文章都沒有,是要提交什麼呢?

      刪除
  9. 為何blogger的sitemap沒有涵蓋網頁page?

    回覆刪除
  10. WFU 你好!又來向您請教
    是這樣的,當我提交sitemap
    (若我的解讀沒錯,依照文義,我應該提交http://grizzlybrblog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500)
    至google search console時,系統顯示無法擷取,請問是怎麼了嗎?

    回覆刪除
    回覆
    1. 如果 sitemap.xml 可以提交 atom.xml 無法 可以換個時段再嘗試

      然後 看到你附的網址為 http → 提交是不需要填寫完整網域的 請注意看 search console 現在的提交格式 跟以前不一樣 這篇是很久以前寫的文章

      刪除
    2. 最近 FB 社團有人反應相同狀況 建議可到社團參與討論 https://www.facebook.com/groups/blogger.skill/posts/1057535988187642

      刪除
  11. 感謝Wayne大,按造步驟就成功了!

    回覆刪除
  12. 你好,時隔多年又看一次這邊教學文,而有2一個問題與2個回報。

    回報1:文章一開始是不是有寫錯數字?
    =====原文=====
    將參數改為 start-index=501&max-results=500
    ==============
    這邊是否應該要寫
    將參數改為 start-index=501&max-results=1000

    回報2:留言的框框有點變形(附圖上傳)
    https://drive.google.com/file/d/17j5PQhxs3tGEechu7hhJIDMRGR-I6v8m/view?usp=drivesdk

    問題1:

    文內提到sitemap.xml會自動、但比較慢,所以建議連atom也一起手動上傳。

    那在後台robot.txt的內容中,是否也要加入

    Sitemap: https://自己的網域/atom.xml?redirect=false&start-index=1&max-results=500
    Sitemap: https://自己的網域/atom.xml?redirect=false&start-index=501&max-results=1000

    問題2:
    我的文章已發布836篇,但atom的地圖中都只收集到151篇後就在501~1000的atom地圖中再次收集151篇文章。這樣好像不太正常?那是否有相關教學文章可參考問題出在哪裡?

    謝謝W大

    回覆刪除

張貼留言注意事項:

◎ 勾選「通知我」可收到後續回覆的mail!
◎ 請在相關文章留言,與文章無關的主題可至「Blogger 社團」提問。
◎ 請避免使用 Safari 瀏覽器,否則無法登入 Google 帳號留言(只能匿名留言)!
◎ 提問若無法提供足夠的資訊供判斷,可能會被無視。建議先參考這篇「Blogger 提問技巧及注意事項」。
◎ CSS 相關問題非免費諮詢,建議使用「Chrome 開發人員工具」尋找答案。
◎ 手機版相關問題請參考「Blogger 行動版範本的特質」→「三、行動版範本不一定能執行網頁版工具」;或參考「Blogger 行動版範本修改技巧 」,或本站 Blogger 行動版標籤相關文章。
◎ 非官方範本問題、或貴站為商業網站,請參考「Blogger 免費諮詢 + 付費諮詢
◎ 若是使用官方 RWD 範本,請參考「Blogger 推出全新自適應 RWD 官方範本及佈景主題」→ 不建議對範本進行修改!
◎ 若留言要輸入語法,"<"、">"這兩個符號請用其他符號代替,否則語法會消失!
◎ 為了過濾垃圾留言,所有留言不會即時發佈,請稍待片刻。
◎ 本站「已關閉自刪留言功能」。

TOP