在了解搜素引擎蜘蛛的之前,我们先回顾下之前介绍过什么是互联网,通俗可以理解成互联网就像一张非常大的蜘蛛网,然而搜索引擎是如何发现并收录互联网中过亿的网页呢?这就是我们今天所要介绍的,搜索引擎蜘蛛或机器人(网络爬虫),当大家看一些seo文章或教程的时候就会经常发现我们做seo的讲解引蜘蛛等方法,那么就是指它了。
我们来看看搜索引擎蜘蛛字面含义:
搜索引擎蜘蛛是一个自动提取网页的程序,它为搜索引擎从internet网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的url开始,获得初始网页上的url,在抓取网页的过程中,不断从当前页面上抽取新的url放入队列,直到满足系统的一定停止条件。被搜索引擎蜘蛛抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;
国内常见搜索引擎蜘蛛名称:
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
soso蜘蛛:sosospider
msn蜘蛛:msnbot
有道蜘蛛:yodaobot和outfoxbot
搜狗蜘蛛:sougouspider