小麦子 发表于 2024-10-21 12:48:37

通过伪静态对垃圾蜘蛛返回403,对游客返回503的设置方法

江山代有才人出,各领风骚数百年。这段时间看到要给骚客,通过伪静态设置仅蜘蛛可以抓取,垃圾蜘蛛返回403,游客返回503的代码。

用到这样的伪静态几乎无解,游客啥也看不到。 if ($http_user_agent ~* (SemrushBot|DotBot|HttpClient|MJ12bot|SemrushBot|Barkrowler|AhrefsBot|PetalBot|BLEXBot|SM-G900P|Googlebot|Bytespider)) {
   return 403;}
set $return_status true;
if ($http_user_agent !~* "Baidu|sogou") { set $return_status false;}
if ($remote_addr ~* "127.0.0.1|127.0.0.2") { set $return_status true;}
if ($return_status = false) { return 503;}
有朋友还问,有一些页面,游客点击了就跳转,模拟蜘蛛无论如何也看不到页面内容,这是为什么?
可能这种页面设置了禁止PC抓取,所以模拟的PC蜘蛛过去啥也抓不到。然后他是通过PHP进行跳转的,就算你禁止了网页加载JS,也正常跳转。

ralok 发表于 2024-10-26 11:44:25

看看是什么东西

wx123 发表于 2024-10-26 15:25:18

不错不错

小麦子 发表于 2024-10-26 20:13:52

本帖最后由 小麦子 于 2024-10-26 20:47 编辑

ralok 发表于 2024-10-26 11:44
看看是什么东西
首先谢谢对本文的支持,可以多多转发一下本论坛。

小麦子 发表于 2024-10-26 20:14:27

本帖最后由 小麦子 于 2024-10-26 20:47 编辑

wx123 发表于 2024-10-26 15:25
不错不错
首先谢谢对本文的支持,可以多多转发一下本论坛。
页: [1]
查看完整版本: 通过伪静态对垃圾蜘蛛返回403,对游客返回503的设置方法