一、Googlebot的真相:不是一个,而是数百个
在很多人的认知中,Googlebot就是谷歌用来抓取网页的那个爬虫。但谷歌的Gary Illyes在最新一期的Search Off The Record播客中澄清了一个重要事实:Googlebot这个名字是一个历史遗留的误称。
早在2000年代初期,谷歌确实只有一个爬虫,因为当时谷歌只有一个产品——搜索引擎。但随着AdWords等新产品陆续推出,谷歌开始拥有越来越多的爬虫。虽然爬虫数量不断增加,但”Googlebot”这个名字却保留了下来,尽管它早已不是”一个”东西了。
二、爬取基础设施的内部架构
1. “Jack”:爬取基础设施的代号
Gary Illyes透露,谷歌的爬取基础设施有一个内部名称,但他拒绝透露具体是什么。为了方便理解,他在播客中将其代称为”Jack”。
这个基础设施本质上是一个软件即服务(SaaS)平台,提供API端点供内部各个产品调用。当谷歌的某个产品需要从互联网获取数据时,它会向Jack发起API调用,指定各种参数:
- 等待响应的超时时间
- 要发送的User-Agent
- 要遵守的robots.txt产品令牌
- 其他爬取参数
Jack会为这些参数设置默认值,使得API调用可以尽可能简单。但本质上,这就是一个在云端或数据中心运行的服务,负责从互联网获取数据——”在不破坏互联网的前提下,从互联网获取内容”。
2. 爬虫与抓取器的区别
Gary还解释了谷歌内部对”Crawler(爬虫)”和”Fetcher(抓取器)”的区分:
| 特性 | Crawler(爬虫) | Fetcher(抓取器) |
|---|---|---|
| 工作模式 | 批量处理,持续运行 | 单个URL处理 |
| 输入 | 持续的URL流 | 单个URL |
| 控制方式 | 自动运行,无需人工等待 | 用户控制,有人等待响应 |
| 典型用途 | 搜索引擎索引、大规模数据收集 | 实时数据获取、用户触发操作 |
三、数百个未公开的爬虫
这是最令人震惊的 revelation:谷歌内部有数百个不同的爬虫和抓取器,其中大部分都没有公开记录。
为什么有这么多爬虫?
谷歌是一个大公司,拥有众多产品和团队,每个团队都可能需要从互联网获取数据:
- 搜索团队:传统的网页索引爬虫
- 广告团队:AdWords/Ads相关爬虫
- 地图团队:Google Maps数据收集
- 新闻团队:Google News内容获取
- 图片团队:Google Images图片抓取
- 购物团队:商品信息和价格监控
- 学术团队:Google Scholar文献收集
- 翻译团队:语料库建设
- …以及更多内部工具和实验性项目
为什么大部分爬虫不公开?
Gary Illyes解释了不公开所有爬虫的 practical reasons:
1. 数量太多
如果要把所有爬虫都记录下来,需要记录”几十个甚至几百个”不同的爬虫。在developers.google.com/crawlers这个页面上展示这么多信息是不现实的。
2. 页面空间限制
Gary直言不讳地说:”页面空间实际上相当宝贵。”他们需要在页面上展示最重要的爬虫,而不是所有爬虫。
3. 爬虫规模差异
很多内部爬虫的抓取量非常小,不值得单独记录。谷歌的策略是:只有当某个爬虫的抓取量达到显著水平时,才会考虑将其文档化。
四、对SEO的启示
1. 日志中的神秘爬虫有了答案
很多网站管理员在服务器日志中看到过各种奇怪的谷歌爬虫User-Agent,但查不到任何官方文档。现在我们知道原因了:这些都是谷歌内部使用的、未公开的爬虫。
常见的已记录爬虫包括:
- Googlebot (搜索)
- Googlebot-Image (图片)
- Googlebot-News (新闻)
- Googlebot-Video (视频)
- AdsBot-Google (广告)
- AdsBot-Google-Mobile-Apps (应用广告)
但日志中可能还会出现更多未记录的爬虫标识。
2. 爬虫管理策略需要更新
了解谷歌有数百个爬虫后,SEO人员需要重新考虑robots.txt和爬虫管理策略:
不要过度限制
如果你看到不认识的谷歌爬虫,不要急于在robots.txt中屏蔽。它可能是谷歌某个产品的合法爬虫,屏蔽可能会影响你在该产品中的展示。
关注抓取频率
Gary提到他有一个工具,当某个爬虫的抓取量超过阈值时会触发警报。网站管理员也应该监控异常的高频抓取。
理解抓取目的
不同的爬虫有不同的目的。搜索爬虫影响排名,广告爬虫影响广告质量,地图爬虫影响本地搜索展示。了解这些差异有助于优化策略。
3. 谷歌的抓取哲学
从Gary的描述中,我们可以窥见谷歌的抓取哲学:
- 统一基础设施:所有产品共享同一个爬取基础设施(Jack)
- API化服务:抓取能力被封装为内部API服务
- 参数化配置:不同的爬虫通过参数区分身份和行为
- 规模导向:只有大规模的爬虫才会被正式记录
- 持续演进:新的产品和需求不断催生新的爬虫
五、实操建议
对于网站管理员:
- 监控日志:定期检查服务器日志,了解哪些爬虫在访问你的网站
- 识别模式:如果发现未知的谷歌爬虫,观察其抓取行为和频率
- 谨慎屏蔽:不要急于屏蔽不认识的爬虫,除非你确定它是有害的
- 优化robots.txt:确保robots.txt正确配置,允许必要的爬虫访问
- 服务器资源:确保服务器能够承受谷歌多个爬虫的同时抓取
对于SEO从业者:
- 扩展知识:了解谷歌的各种产品如何抓取和使用网页数据
- 全面优化:不要只关注搜索排名,还要考虑其他谷歌产品的优化
- 技术SEO:确保网站的技术架构能够支持多种爬虫的高效抓取
- 数据分析:利用日志分析工具,深入了解爬虫行为模式
六、结语
谷歌拥有数百个爬虫的 revelation 改变了我们对Googlebot的认知。它不再是一个单一的、友好的网络爬虫,而是一个庞大的、复杂的、多产品的抓取生态系统。
对于网站所有者和SEO从业者来说,这意味着:
- 需要更全面地考虑爬虫管理
- 不能简单地用”是不是Googlebot”来判断是否允许抓取
- 需要理解不同谷歌产品的抓取需求
- 应该拥抱这种多样性,而不是抗拒
正如Gary Illyes所说,谷歌会尝试记录主要的爬虫,但由于数量太多,不可能全部公开。我们能做的,就是理解这一现实,并相应调整我们的SEO策略。
在这个信息日益丰富的时代,谷歌需要更多样化的数据来支持其不断扩展的产品线。作为网站所有者,理解并适应这一趋势,将有助于我们在谷歌生态系统中获得更好的展示和流量。
微信扫一扫 或 点击链接联系我
