Google搜索引擎如何抓取和索引:您需要知道的一切
By: 全球搜 2021年08月13日

Google搜索引擎如何抓取和索引:您需要知道的一切

了解百度、谷歌等搜索引擎如何抓取和索引网页,以及可以帮助搜索引擎更快找到新内容和更新内容的四种方法。

在不先了解搜索引擎如何运作的情况下优化网站类似于在不先学习如何写作的情况下出版您的伟大小说。

当然,打字机上的一千只猴子最终会创造出一些有用的东西(至少这只猴子喜欢不时地认为他会这样做),但是如果您事先知道任务的核心要素,那就容易多了。

所以我们必须了解搜索引擎是如何工作的,才能充分了解如何针对它们进行优化

虽然我们将专注于自然搜索,但我们必须首先简要谈谈关于搜索引擎的一个重要事实。

付费搜索结果

不是谷歌,不是必应,也不是任何其他主要的搜索引擎都从事提供有机列表的业务。

也就是说,有机结果是达到目的的手段,但不会直接为其带来收入。

如果没有自然搜索结果,Google 的付费搜索结果就会显得不那么相关(有人提出过Overture?),从而减少了眼球和付费点击。

基本上,谷歌和必应(以及其他)是广告引擎,它们碰巧通过有机列表吸引用户访问他们的属性。那么,有机是达到目的的手段。

为什么这很重要?

这是掌握的关键点:

  • 他们的布局发生了变化。
  • 存在搜索功能,如知识面板和精选片段。
  • 有机结果的点击率 (CTR)。

当谷歌向商业意图查询添加第四个付费搜索结果时,正是因为这个。

当 Google 显示精选片段时,您无需离开 Google.com 即可获得查询的答案……正是因为如此。

无论您可能会看到什么变化,重要的是要牢记这一点,并且始终不仅要质疑它今天会产生什么影响,还要质疑它们意味着哪些进一步的变化可能即将到来。

今天搜索引擎的工作方式:系列

好吧,既然我们对谷歌为什么甚至提供有机结果有了基本的了解,让我们来看看它们如何运作的具体细节。

为了实现这一点,我们将看看:

  • 爬取和索引
  • 算法
  • 机器学习
  • 用户意图

这篇文章将重点介绍索引。因此,让我们深入了解……

索引

索引是一切的开始。

对于初学者来说,索引本质上是指将网页内容添加到 Google。

当您在站点上创建新页面时,可以通过多种方式对其进行索引。

将页面编入索引的最简单方法就是什么都不做。

谷歌有跟踪链接的爬虫,因此,如果你的网站已经在索引中,并且新内容是从你的网站内链接到的,谷歌最终会发现它并将其添加到它的索引中。稍后会详细介绍。

但是,如果您希望 Googlebot 更快地访问您的网页呢?

如果您有及时的内容,或者如果您对需要 Google 了解的页面进行了重要更改,这可能很重要。

我使用更快方法的主要原因之一是当我优化了一个关键页面或者我调整了标题和/或描述以提高点击率,并且想知道它们何时被选中并显示在 SERP 中时了解改进的衡量从哪里开始。

在这些情况下,您可以使用一些其他方法:

1. XML 站点地图

总是有XML 站点地图

基本上,这是一个通过Search Console提交给 Google 的站点地图

XML 站点地图为搜索引擎提供了您站点上所有页面的列表,以及有关它的其他详细信息,例如上次修改时间。

绝对推荐!

但是当您需要立即索引页面时,它并不是特别可靠。

2. 请求索引

在 Search Console 中,您可以“请求索引”。

您首先单击顶部搜索字段,默认情况下,“检查和域中的 URL”

输入要编入索引的 URL,然后按 Enter。

如果谷歌已经知道该页面,你会看到一堆关于它的信息。我们不会在这里讨论,但我建议您登录并查看那里有什么,如果您还没有。

就我们的目的而言,重要的按钮会显示页面是否已编入索引——这意味着它有利于内容发现或只是要求 Google 了解最近的更改

你会发现按钮…

GSC-请求-索引

在几秒钟到几分钟内,您可以在 Google 中搜索新内容或 URL,并找到更改或选取的新内容。

3. 在 Google 上托管您的内容

抓取站点以将它们编入索引是一个耗时且耗费资源的过程。

一种替代方法是直接与他们托管您的内容。

这可以通过几种不同的方式来完成,但我们中的大多数人(包括我自己)还没有采用所需的技术或方法,谷歌也没有将我们推向它们。

我们看到了让 Google 通过 XML 提要、API 等直接访问我们内容的能力,并将我们的内容从我们的设计中移除。

Google 的移动应用平台 Firebase 使 Google 可以直接访问应用内容,无需弄清楚如何抓取它。

这就是未来——让谷歌能够毫不费力地立即索引内容,因此它可以基于访问技术以最可用的格式提供内容。

虽然我们的技术还没有达到我们需要在这方面过分强调的地方,但只要知道它即将到来。

我再怎么推荐也不为过 Cindy Krum 的MobileMoxie 博客,她在那里非常详细且洞察力地讨论了这些以及与移动相关的主题。

4. 还有百度!

要让 百度 快速索引和/或更新您的内容,您需要一个 百度 网站管理员工具帐户。

其中提供的信息非常丰富,将帮助您更好地评估问题区域并提高您在 百度、Google 和其他任何地方的排名 – 并且还可能提供更好的用户体验。

但是为了将您的内容编入索引,您只需单击:配置我的站点 > 提交 URL

从那里你输入你想要索引的 URL,然后点击“提交”。

所以 – 这几乎是您需要了解的有关索引编制以及搜索引擎如何进行索引的所有内容(着眼于事情的发展方向)。

抓取预算

如果不谈论爬网预算,我们就不能真正谈论索引

基本上,抓取预算是一个术语,用于描述 Google 为抓取网站而花费的资源量。

分配的预算基于多种因素,其中两个核心因素是:

  • 您的服务器有多快(即,在不降低您的用户体验的情况下,Google 可以抓取多快)。
  • 您的网站有多重要。

如果您运营的主要新闻网站内容不断更新,搜索引擎用户会希望知道您的网站会经常被抓取(我敢说……不断)。

如果您经营一家小型理发店,有几十个链接,并且在这种情况下被认为不重要(您可能是该地区的重要理发师,但在抓取预算方面并不重要),那么预算将以下。

您可以在此处的Google 解释中阅读有关抓取预算及其确定方式的更多信息 

在线客服

全球搜在线客服

服务号
播放
全球搜视频