在本文中,我將討論搜索引擎抓取工具和搜尋引擎機器人活動不受控制的影響,可能會對您帳戶的資源使用造成影響。 為什麼需要控制搜尋引擎機器人?用搜尋引擎機器人來爬(抓取)網際網路,查找和索引新的資訊內容並提供瀏覽者資訊搜尋,這就是網際網路上所用來散佈訊息的方式。 如果您希望在Google或Bing等大型搜索引擎中找到您的網站內容,這是非常好的方式,不過在相同的時間上,搜尋引擎機器人與真的人拜訪你的網站的活動方式是非常不同的,真的人來你的網站,有可能花費一些時間閱讀當前的網頁,他們會瀏覽的更多資訊,當他們願意在網站上點擊更多的連結時,很可能是對這個網站很有興趣。 搜尋機器人拜訪你的網站,主要的任務是要抓取你網站的上的內容,所以它們最可能從首頁開始,它們輕鬆的的找出網站的每一個連結一個接著一個,直到發現全部的內容。 所以一個搜尋引擎機器人訪客,可能潛在影響數百個使用者資源,就算沒有上千個訪客在你的網站上,一個資源使用到極限的網站,最後可能會讓網站停止運作,如果只允許真的人拜訪的話,這是可以避免的,並且設定只有好的搜尋機器人可以進入你的網站,所以這是很重要的觀念。 如何控制搜尋機器人?幸運的是,大多數的守規矩的搜尋機器人,是會跟隨一個標準化的robots.txt規則文件,如果你需要進一步的了解,如何阻擋搜尋機器人檢索你的網站,你可以觀看這篇文章「如何使用robots.txt阻止搜尋引擎爬(抓取)你的網站?」 你也可以閱讀此篇「如何在Google網站管理員工具中設置延遲爬(抓取)你的網站」 這個章節有步驟說明,如何控制Google的爬蟲機器人。 不幸的是,不是全部的自動化機器人都會順從robots.txt規則,在這種情況下,最好的方式就是學習「使用.htaccess去阻止不需要的訪客到你的網站」
|