搜索引擎蜘蛛是在访问我们网站时会带他们的名字,这样我们在做一些安全限制时就好对这些搜索引擎蜘蛛进行开放了,下面我整理了这些搜索引擎蜘蛛名字。
各大seo 搜索引擎的蜘蛛会不断地访问抓取我们站点的内容,也会消耗一定的站点流量,有时候就需要屏蔽某些蜘蛛访问我们的站点。其实常用的搜索引擎就那么几个,只要在robots文件里把常用的几个搜索引擎蜘蛛放行就好,其它的统统通过通配符(*)禁止掉。阿修百度了一下搜索引擎蜘蛛名称,但得到的结果让阿修很是抑郁,几乎都是原文复制粘贴的文章,而且很多的资料都是过时的了,哪怕是最近发表的文章也是抄袭的旧资料根本就没修正和更新,并且关于蜘蛛名称、大小写众说不一,根本就找不到一个准确的资料。所以阿修决定根据自己空间的访问日志来整理常见的蜘蛛名称,不求最全,但力求资料最新最准确(以下搜索引擎蜘蛛名称都是阿修根据空间日志亲手提取)。
最新最准确各大搜索引擎蜘蛛名称:
1、百度蜘蛛:Baiduspider
看网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,都洗洗睡吧,那是旧黄历了。百度蜘蛛最新名称为Baiduspider。日志中还发现了Baiduspider-image这个百度旗下蜘蛛,查了下资料(其实直接看名字就可以了……),是抓取图片的蜘蛛。
常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)、Baiduspider-mobile(抓取wap)。
注:以上百度蜘蛛目前本站只发现了Baiduspider和Baiduspider-image两种。
2、谷歌蜘蛛:Googlebot
这个争议较少,但也有说是GoogleBot的。谷歌蜘蛛最新名称为Googlebot。还发现了Googlebot-Mobile,看名字是抓取wap内容的。
3、360蜘蛛:360Spider
4、SOSO蜘蛛:Sosospider
5、雅虎蜘蛛:Yahoo! Slurp China或者Yahoo! Slurp关于现在到底名称中带不带!暂时还未找到精确数据,等待爬行中(居然不来爬行了,抓不到这个蜘蛛- -,查找了大量资料,应该就是现在这样子的,欢迎提供此蜘蛛名称的可靠线索……)。想了下倒是也不用纠结于带不带!的问题,robots里名称可以使用Slurp……
6、有道蜘蛛:YoudaoBot,YodaoBot(两个都有)
7、搜狗蜘蛛:Sogou News Spider
搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,阿修在日志中只发现了其中的Sogou News Spider。(参考别人的robots文件,搜狗蜘蛛名称可以用Sogou概括)
8、MSN蜘蛛:msnbot,msnbot-media(只见到msnbot-media在狂爬……)
9、必应蜘蛛:bingbot
10、一搜蜘蛛:YisouSpider
11、Alexa蜘蛛:ia_archiver
12、宜搜蜘蛛:EasouSpider(这货和第10个是什么关系?再来个已搜、易搜凑四兄弟吧- -)
13、即刻蜘蛛:JikeSpider
在上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取了。
阿修在日志中还发现了 YandexBot、AhrefsBot和ezooms.bot这些蜘蛛,据说这些都不是什么好鸟……
暂时空间流量还足够使用,等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。
看一个我判断搜索引擎蜘蛛php函数
代码如下
| 复制代码
|
function get_naps_bot()
{
$useragent = strtolower(@$_SERVER['HTTP_USER_AGENT']);
if( empty($useragent) )
{
return false ;
}
if (strpos($useragent, 'google') !== false){
return true;
}
if (strpos($useragent, 'msnbot') !== false){
return true;
}
if (strpos($useragent, 'slurp') !== false){
return true;
}
if (strpos($useragent, 'baidu') !== false){
return true;
}
if (strpos($useragent, 'sohu-search') !== false){
return true;
}
if (strpos($useragent, 'lycos') !== false){
return true;
}
if (strpos($useragent, 'robozilla') !== false){
return true;
}
return false;
}
|