2015年1月1日 星期四

Blogger 提供新的網站地圖(sitemap)格式﹍一勞永逸的提交方法

Blogger 提供新的網站地圖(sitemap)格式﹍一勞永逸的提交方法

Wayne Fu 0 A+
過去 Blogger 要提交網站地圖到「Google / Bing 網站管理員」時,其實有點小小的麻煩,因為 Blogger 提供的兩種格式 Atom/Rss,無法儲存太多資料,一個 sitemap 網址最多能存放 500 篇文章,超過時只能手動分開提交。

現在 Blogger 提供了一勞永逸的方法,無論部落格有多少文章,就算有數千、甚至上萬篇,都只需要提交一次網站地圖就好,不必再為這件事操心,無論是否自訂網域都適用。



一、Blogger 舊版網站地圖


1. Sitemap 格式

有提交過網站地圖的站長,應該都知道 Blogger 提交的格式長的類似像這樣:

RSS:http://www.wfublog.com/rss.xml
ATOM:http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500


將以上 www.wfublog.com 置換成自己的網址即可看到內容。分別說明一下以上格式──

  • RSS:根據以上網址格式,只能儲存最新的 25 篇文章
  • ATOM:根據以上的網址格式,會儲存最新的 500 篇文章;當文章超過此數目時,必須提交另一個網址,例如將參數改為 start-index=501&max-results=500,代表第 501 ~ 1000 篇的文章,其餘以此類推。


2. 索引更新原理

Sitemap 網址之中,每篇文章的資料之中包含一個標記,註記該篇文章的更新日期、時間。例如 RSS 的標記為 <pubDate>,ATOM 的標記為 <updated>。

只要有文章更新過內容,Sitemap 之中該篇文章就會更新這個標記,記錄最後的更新時間。搜尋引擎蜘蛛定期爬 Sitemap 發現這件事後,就會去重新索引該篇文章,讓搜尋結果保有最新的資料。


3. 無法更新的文章

瞭解以上原理後,我們可以知道:

RSS:根據前面的網址格式,只有最新的 25 篇文章,當文章內容修改過時,搜尋引擎才會知道、並過來更新。每當網站有新的文章,從第 26 篇起,搜尋引擎就比較難發現文章的更新狀態。

ATOM:依上述網址格式,最新的 500 篇文章會持續更新。不過只要勤勞一點,分批將所有文章都提交出去,搜尋引擎就能知道所有文章的更新狀態。

補充說明一下,RSS 的 sitemap 網址後面,加上跟 ATOM 一樣的參數 (?redirect=false&start-index=1&max-results=500),就可有一樣的效果。



二、Blogger 新版網站地圖


1. 一般網站

根據這篇「XML Sitemap for Blogger」,Blogger 在 2013 中提供了新的網站地圖格式:

http://wayne-fu.blogspot.com/sitemap.xml

在網址後面加上 "sitemap.xml" 就是可以提交的新格式。這個網址格式的特點如下:


  • 包含網站的所有文章更新狀況,無論多少篇都能處理。
  • 提交網站地圖時只需一次即可,每超過 500 篇也不再需要分批提交,是一勞永逸的方法。
  • 實際上 sitemap.xml 一次最多只能存放 1000 篇文章,但超過 1000 篇後,內容會自動化處理,sitemap.xml 自動成為索引檔。


來看一下實例,這是 Google 官方網站的 sitemap 網址:

http://googleblog.blogspot.tw/sitemap.xml

實際上 Google 官網有數千篇文章,但 sitemap 的內容卻不多:

<?xml version='1.0' encoding='UTF-8'?><sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=1</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=2</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=3</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=4</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=5</loc></sitemap></sitemapindex>

原來這個索引網頁記錄了 sitemap 的分頁資訊,如此搜尋引擎就可從這個 sitemap 網址的索引資料,繼續爬第 1 頁到 第 5 頁的內容。這個機制很聰明,不必再像 ATOM 一樣,得手動另外提交超過 500 篇的頁面。


2. 自訂網域

這麼棒的 sitemap 格式,其實一開始只適用 blogspot.com 網域的 Blogger,也就是說「自訂網域」的 Blogger 不支援。不過原文提到,最近 2014 年底,這個功能已經悄悄支援所有 Blogger 了,例如本站就能提交以下的網址:

http://www.wfublog.com/sitemap.xml

因此,如果你使用 Blogger 自訂網域的話,現在可以開始提交 sitemap.xml 這個格式了。



三、不同網站地圖格式的特點


1. 官方建議

然而提交 sitemap 之前,需要瞭解一下 Google 官方說明「Best practices for XML sitemaps & RSS/Atom feeds」:

1.「sitemap.xml」的內容比較多(全部);「ATOM/RSS」較少,只列出最近更新的文章

2. 「sitemap.xml」更新頻率比較慢;「ATOM/RSS」更新的速度比較快

因此官方建議提交網站地圖時,兩種都一起提交,才能確保「網站所有文章都被索引」,以及「讓搜尋引擎以最快速度索引」。


2. 最方便的搭配

根據以上的結論,WFU 認為提交網站地圖時,這是較佳的組合:


http://www.wfublog.com/sitemap.xml

http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500



以上 www.wfublog.com 置換成自己的網址即可。

提交兩組網站地圖的意思是:

  • 提交 sitemap.xml 可確保所有文章都被收錄
  • 提交 ATOM 的 1~500 篇文章,可確保最新的文章能以最快速度被收錄,第 1~500 篇文章 有更新時能被搜尋引擎快速知道。
  • ATOM 從 501 篇之後的文章可不必提交,因為 sitemap.xml 已經有這些資料,只是更新頻率稍微慢一些而已。
  • 可省去以後操作的麻煩,也就是說網站地圖只需提交這麼一次即可。



3. 補充說明

以上官方文章提到一件事 "submitting sitemaps or feeds does not guarantee the indexing of those URLs." → 不保證提交的文章都會被搜尋引擎索引。

這是因為 Google 會另外審核文章,如果是重複、不當、垃圾、版權內容等等,可能就不會被收錄了。



四、提交網站地圖


最後是提交的步驟,如果不熟悉的話,可參考這篇「Blogger 部落格提交網站地圖」,分別向兩大搜尋引擎「Google 網站管理員」以及「Bing 網站管理員」提交即可。如果需要向別的地區提交、來增加文章的能見度,也可參考該篇文章進行。


更多 Blogger 相關主題:
0 0
如這篇文章對你有幫助,歡迎「分享」到 FB、「追蹤」粉絲團、「訂閱」最新文章

沒有留言:

張貼留言注意事項:

◎ 勾選「通知我」可收到後續回覆的mail!
◎ 請在相關文章留言,與文章無關的主題可至「Blogger 社團」提問。
◎ 請避免使用 Safari 瀏覽器,否則無法登入 Google 帳號留言(只能匿名留言)!
◎ 提問若無法提供足夠的資訊供判斷,可能會被無視。建議先參考這篇「Blogger 提問技巧及注意事項」。
◎ CSS 相關問題非免費諮詢,建議使用「Chrome 開發人員工具」尋找答案。
◎ 手機版相關問題請參考「Blogger 行動版範本的特質」→「三、行動版範本不一定能執行網頁版工具」;或參考「Blogger 行動版範本修改技巧 」,或本站 Blogger 行動版標籤相關文章。
◎ 非官方範本問題、或貴站為商業網站,請參考「Blogger 免費諮詢 + 付費諮詢
◎ 若是使用官方 RWD 範本,請參考「Blogger 推出全新自適應 RWD 官方範本及佈景主題」→ 不建議對範本進行修改!
◎ 若留言要輸入語法,"<"、">"這兩個符號請用其他符號代替,否則語法會消失!
◎ 為了過濾垃圾留言,所有留言不會即時發佈,請稍待片刻。
◎ 本站「已關閉自刪留言功能」。

TOP