SEO基础知识:什么是可抓取性?

在搜索引擎中排名需要一个具有完美技术 SEO 和出色相关内容的网站。如果您真的想充分利用您的网站并在竞争中保持领先,那么技术 SEO 的一些基本知识是必须的。在这篇文章中,我们将解释技术 SEO 最重要的概念之一:可抓取性。

什么是爬虫?

像 Google 这样的搜索引擎由爬虫、索引和算法组成。爬虫跟随链接。当 Google 的爬虫(也称为Googlebot)找到您的网站时,它会呈现、读取它并将内容保存在索引中。

爬虫跟踪网络上的链接。爬虫也称为机器人、机器人或蜘蛛。它在互联网上 24/7 全天候运行。一旦涉及到一个网站,它会将 HTML 版本保存在一个称为索引的巨大数据库中。每当爬虫绕过您的网站并找到它的新版本或修订版本时,该索引都会更新。根据 Google 对您网站的重要性以及您在网站上所做的更改次数,爬虫或多或少会出现。

什么是可抓取性?

可抓取性与 Google 抓取您的网站的可能性有关。您可以在您的网站上阻止爬虫。有几种方法可以阻止爬虫访问您的网站。如果您的网站或您网站上的某个页面被阻止,您就是在对 Google 的抓取工具说:“不要来这里。” 在大多数情况下,您的网站或相应页面不会出现在搜索结果中。

有几件事可能会阻止 Google 抓取(或编制索引)您的网站:

如果您的robots.txt 文件阻止了抓取工具,Google 将不会访问您的网站或特定网页。
在抓取您的网站之前,抓取工具会查看您网页的 HTTP 标头。此HTTP 标头包含一个状态代码。如果此状态代码表明页面不存在,Google 将不会抓取您的网站。在我们的技术 SEO 培训的关于 HTTP 标头的模块中,我们将告诉您所有相关信息。
如果特定页面上的漫游器元标记阻止搜索引擎将该页面编入索引,Google 将抓取该页面,但不会将其添加到其索引中。

使用 SEO工具提高网站的可抓取性

我们已经说过很多次了,可抓取性是 SEO 的一个重要方面。因此,优化网站的可抓取性是您应该做的事情。

爬虫每天可能会多次访问您的网站。有时他们会访问您的网站以发现新内容,有时他们会过来检查是否有任何新更新。但是每次他们到达您的网站时,他们肯定会抓取 看起来像他们的 URL 的所有内容。因此,一个 URL 很可能每天被抓取多次。

这不是事情应该的样子。在大多数情况下,您不太可能在某一天对 URL 进行多次更改。更不用说,几乎每个 CMS 输出的 URL 没有意义,爬虫可以安全地跳过。但是,爬虫不会跳过这些 URL,而是会一次又一次地抓取它们,每次遇到一个。所有这些不必要的爬行都会占用能源,这对我们的星球来说是一种有害的做法。

想了解有关可抓取性的所有信息吗?

尽管可抓取性只是技术 SEO的基础(它与使 Google 能够为您的网站编制索引的所有事情有关),但对于大多数人来说,它已经是相当先进的东西了。然而,如果你正在阻止 -甚至可能在不知道的情况下!– 来自您网站的爬虫,您永远不会在 Google 中排名靠前。所以,如果你对 SEO 很认真,这对你来说应该很重要。

内容来源:https://yoast.com/what-is-crawlability/

发表回复

您的电子邮箱地址不会被公开。