Matt Cutts访谈-ignore parameters与robots.txt

Matt Cutts：Google管理员工具中的“忽略的参数ignore parameters”是和canonical标签作用相同，一样有效的方法。

Eric Enge：是的。本质上说一样的。用robots.txt来屏蔽爬虫，不让爬出爬取重复的页面上一种不太好的方法。因为这样，我们将看不到重复的页面。但是如果你通过管理员工具告诉我们哪些参数不需要的话，我们将不会抓取又这些参数引起的重复页面。

Matt Cutts：让我们来谈谈KML文件吧。需要用robots.txt文件来屏蔽它，以节省抓取机会（save crawl budget）吗？

Eric Enge：最好的方法是让Google去自由抓取，Google会自动去掉重复页面。用可以用好的网站架构或301转向来节省抓取机会。如果你用robots.txt来屏蔽一部分内容的话，Google仍要查看这个URL，并在索引中保存一个引用，所以不会节省抓取机会。Google会尽量多的抓取页面，甚至非HTML的页面。KML页面Google是抓取的。

我们推荐让Google自己去抓取页面，然后自己去掉重复的页面。如果你有一定水平，你可以用好的网站结构来去掉重复页面。如果你的网站有50%是KML文件，或是有大量的字体文件，你确实不想让它们被抓取，你可以用robots.txt来屏蔽。Robots.txt允许使用通配符，所以你可以阻止它们被抓取。对于大部分网站，一般只有很少一些额外的页面或不同文件类型的页面，我推荐让Google去抓取他们。

Matt Cutts：如果只有很少一部分实际页面的话，你应该注意一下，别被判为作弊。

Eric Enge：是的。

微信扫一扫或点击链接联系我