Google揭秘Googlebot爬虫限制:15MB上限背后的技术逻辑

摘要:Google的Gary Ilyes和Martin Splitt在最新一期Search Off The Record播客中深入讨论了Googlebot的爬虫限制机制。他们揭示了15MB默认限制背后的技术原因,解释了为什么这个限制可以被覆盖或关闭,以及不同Google爬虫如何根据需求调整限制。本文深入分析Google爬虫基础设施的灵活性和多样性。

一、Googlebot限制的幕后机制

Google的Gary Ilyes和Martin Splitt讨论了Googlebot的爬虫限制,提供了更多关于为什么存在限制的细节,并揭示了如何根据需求向上调整或向下调低这些限制的新信息。

二、15MB默认限制:基础设施保护

Gary Illyes分享了Google幕后发生的事情,这些驱动着各种爬虫限制,从Googlebot 15MB限制开始。

他说,Google内部的任何爬虫都有15MB限制,并明确表示这个限制可以被覆盖或关闭。事实上,他说Google内部的团队经常覆盖这个限制。

他用Google Search举例,Google Search通过将限制调低到2MB来覆盖这个设置。

2.1 Gary Ilyes的解释

“我的意思是,有很多事情是为了我们自己的保护或我们基础设施的保护。比如,例如,臭名昭著的15MB默认限制是在基础设施级别设置的。

基本上,任何不覆盖该设置的爬虫都会有15MB限制。基本上它开始从服务器获取字节或无论服务器发送什么。然后有一个内部计数器。当它达到15MB时,它基本上停止接收字节。

我不知道它是否关闭连接。我认为它不关闭连接。它只是向服务器发送一个响应,说,好了,你可以停止了。我够了。

但然后各个团队可以覆盖它。这确实发生了。发生得相当频繁。例如,对于Google Search,特别是对于Google搜索,限制被覆盖到2MB。”

三、不同内容的差异化限制

Illyes接下来分享了一个例子,其中15MB限制被覆盖以增加爬虫限制,在这种情况下是针对PDF。这就是他在保护Google基础设施免受过多数据压倒的背景下提到Googlebot限制的地方。

3.1 PDF的特殊处理

“嗯,几乎所有东西。比如,例如,对于PDF,它是,我不知道,64MB或类似的。因为PDF可以,就像HTTP标准,如果你把它导出为PDF,我想你说过,如果你把它导出为PDF,那么它是96MB或类似的。

但这意味着如果我们获取整个东西然后转换成HTML,等等,然后开始处理它,会压倒我们的基础设施。

就像,太压倒性了,因为数据太多了。

HTML也是一样。是HTML living standard。比如如果你有14MB,我们不会获取那个。我们会获取单独的页面,因为幸运的是,他们也有足够的脑力为HTML的个别功能设置单独的页面。我们可以获取那些页面,但我们不会从14MB的单页HTML standard中得到任何有用的东西。”

四、其他Google爬虫的不同限制

在这一点上,Illyes透露其他Google爬虫有不同的限制,而且文档化的限制并不是所有Google爬虫的硬性限制。

他继续说道:

“所以是的,其他爬虫,我从未在其他爬虫上工作过,但其他爬虫我确信有不同的设置。我可以想象,例如,即使在个别项目中,对同样的东西也可以有不同的设置。

比如,例如,我可以想象,如果我们需要非常快地索引某些东西,那么截断限制可能是1MB,例如。我不知道是不是这样,但我可以想象会是这样。因为如果你需要在几秒钟内把某些东西推过索引管道,那么处理少量数据更容易。”

五、Google爬虫基础设施:不是单体的

Search Off The Record播客的这一部分以Martin Splitt肯定Google的爬虫基础设施是灵活的,远比Google文档中描述的多样化,说它不是单体的而结束。

单体字面意思是一块巨大的石头,用来描述不变和一致的东西。通过说Google的爬虫不是单体的,Splitt肯定它们在获取限制和其他配置方面是灵活的。

他还把Google的爬虫基础设施描述为软件即服务

5.1 Martin Splitt的总结

“那是真的。那是真的。我认为总的来说,澄清这个爬虫只是像单体那种东西的想法是有用的。它更像是软件即服务,搜索是,或者网络搜索特别是,是它的一个客户端,而不是像单体那种东西。

正如你所说,配置可以改变。它甚至可以在,比如说,Googlebot内部改变。如果我在找一张图片,我们可能允许图片大于2MB,我猜,因为图片很容易大于2MB。PDF,允许64MB。无论文档化的是什么,我们会链接文档。但我认为这很合理。

如果你把它想象成,它是我们用一堆参数调用的服务,那么看到,好的,所以有不同的配置,这更有意义。而且这个配置可以在请求级别改变,不一定只是,Googlebot总是一样的。”

六、对SEO从业者的启示

6.1 理解限制的本质

Googlebot的限制不是任意的惩罚,而是基础设施保护机制。理解这一点有助于SEO从业者更好地优化网站:

  • HTML页面:控制在2MB以内(Google Search的实际限制)
  • PDF文件:可以更大,最高64MB
  • 图片:可以超过2MB,因为图片很容易大于2MB

6.2 优化建议

  1. 精简HTML:避免单页应用或巨大的HTML文件
  2. 分割内容:将大型文档分割成多个页面
  3. 优化PDF:虽然PDF限制更高,但仍建议优化文件大小
  4. 理解灵活性:Google可以根据需求调整限制,所以不要试图利用这一点

6.3 技术架构洞察

Google的爬虫基础设施是:

  • 灵活的:不是单体的,可以根据需求调整
  • 服务化的:作为软件即服务运行
  • 多样化的:不同爬虫、不同项目可以有不同的配置
  • 动态的:配置可以在请求级别改变

七、结论

Googlebot的15MB限制不是一成不变的规则,而是一个可配置的默认设置,旨在保护Google的基础设施。不同Google服务根据各自需求覆盖这个限制:Google Search使用2MB,PDF爬虫使用64MB,图片爬虫可能有不同的限制。

对于SEO从业者,关键是理解这些限制背后的逻辑——保护基础设施免受过多数据压倒——并据此优化网站。精简的HTML、合理分割的内容、优化的文件大小,这些不仅有助于爬虫抓取,也提升用户体验。

Google爬虫基础设施的灵活性和服务化架构也预示着未来可能会有更多动态调整,SEO策略需要保持适应性。

微信扫一扫 或 点击链接联系我