Semalt專家:防止Google抓取舊站點地圖的指南

隨著網站的發展,您將盡力尋找提高其在互聯網上的知名度和信譽的方法。有時,我們的網站過去的工作效果仍然落後,這是我們應該注意的地方。

遵循 Semalt ,以防止Google抓取舊網站。

幾週前,我的一位客戶告訴我他有一個電子商務網站。它經歷了各種變化:從URL結構到站點地圖,所有內容都進行了修改,以使站點更加可見。

客戶注意到他的Google Search Console中發生了一些變化,並在那裡發現了抓取錯誤。他觀察到,有大量的舊的和新的URL會產生假流量。但是其中一些顯示的是“訪問被拒絕403”和“未找到404”錯誤。

我的客戶告訴我,他最大的問題是根文件夾中存在一個舊的站點地圖。他的網站以前使用過各種Google XML Sitemaps插件,但現在他依靠Yoast的WordPress SEO來製作站點地圖。但是,各種舊的站點地圖插件為他帶來了混亂。它們存在於名為sitemap.xml.gz的根文件夾中。由於他開始使用Yoast插件為所有帖子,頁麵類別和標籤創建站點地圖,因此他不再需要這些插件。不幸的是,此人沒有將sitemap.xml.gz提交給Google Search Console。他只提交了Yoast網站地圖,而Google也在抓取他的舊網站地圖。

要抓取什麼?

此人未從根文件夾中刪除舊站點地圖,因此也已將其索引。我回過頭來向他解釋說,站點地圖只是建議在搜索引擎結果。您可能認為刪除舊站點地圖將阻止Google抓取已失效的URL,但這不是事實。根據我的經驗,Google會嘗試每天多次索引每個舊的URL,以確保404錯誤是真實的,並非偶然。

Googlebot可以存儲將在您站點的站點地圖中找到的舊鏈接和新鏈接的內存。它會定期訪問您的網站,以確保正確索引每個頁面。 Googlebot會嘗試評估鏈接是否有效,以使訪問者不會遇到任何問題。

很明顯,當抓取錯誤的數量增加時,網站管理員會感到困惑。他們所有人都希望在很大程度上減少它。如何通知Google忽略所有舊站點地圖?您可以通過殺死所有不需要的奇數站點地圖爬網來實現。以前,唯一可行的方法是.htaccess文件。感謝WordPress為我們提供了一些插件。

WordPress網站在其根文件夾中有此文件。因此,您只需要訪問FTP並啟用cPanel中的隱藏文件。轉到文件管理器選項,根據您的要求編輯此文件。您不要忘記錯誤地編輯它會損壞您的網站,因此您應該始終備份所有數據。

將代碼段添加到文件後,所有過期的URL都會立即從“抓取錯誤”中消失。您不應忘記Google希望您保持網站正常運行,從而減少404錯誤的可能性。

mass gmail