搜索引擎是如何工作的

预计阅读时间: 5 分钟

本文整理摘录自 How Search Engines Work

目的

我们首先需要清楚的知道搜索引擎是什么,怎么工作,然后我们才能更好的对网站做出符合搜索引擎规则的优化。

搜索引擎是什么?

定义

搜索引擎是用于查找和排名用户搜索匹配Web 内容工具

每个搜索引擎都包含两个主要部分:

  • 搜索索引:有关网页信息的数字图书馆。
  • 搜索算法:匹配搜索并进行排名的计算机程序。

热门搜索引擎有 GoogleBing、以及 DuckDuckGo

搜索引擎的目标
为用户提供最佳、最相关

的结果

基于此,我们做SEO本质上就是要给搜索引擎提供最佳、最相关的内容:

  • 内容质量要高
  • 内容要与用户搜索的意图相匹配
  • 内容要方便搜索引擎抓取和索引

搜索引擎的工作原理

Google 基本流程

搜索引擎是如何工作的

1. URL

一切都始于已知的 URL 列表。 Google 通过各种方法发现了这些 URL,并将其添加到索引中。

1.1 外链

某人在这些页面中添加了一个链接指向了自己的网站,那么 Google 可以从那些页面中找到链接,并将其添加到索引中。

1.2 来自网站地图 sitemap

站点地图列出了你网站上的所有重要页面,帮助 Google 爬虫 了解你网站的结构,更快爬取。

1.3 来自 URL 提交

Google 还允许通过 Google Search Console 提交单个 URL

2. 抓取

抓取是一种称为蜘蛛的抓取程序(例如 Googlebot)访问并下载发现的页面的地方。

重要的是要注意,Google 并不总是按照发现页面的顺序对其进行抓取。

Google 会根据以下因素对要抓取的 UR L进行排序,其中包括:

URL 的 PageRank URL 多久更改一次 是否是新的 这很重要,因为这意味着搜索引擎可能会在某些页面之前对其他页面进行抓取和索引。如果你的网站很大,搜索引擎可能需要一段时间才能完全抓取它

3. 处理 & 渲染

Google 会在处理过程中从抓取的页面中提取关键信息。 Google 以外的人都不知道有关此过程的细节,但是我们认位重要部分是提取链接和存储内容并进行索引。

Google 必须渲染页面以对其进行完全处理,而 Google 会运行页面的代码以了解外观对用户的影响。

也就是说,在渲染之前和之后都会进行一些处理——如你在图中所看到的。

4. 索引

索引是将抓取页面中的信息添加到叫做搜索索引的大型数据库中。本质上,这是一个由数万亿个网页组成的数字图书馆,Google 的搜索结果都来自于此。

这是重要的一点。当你在搜索引擎中搜索时,你并不是直接匹配互联网上的结果。而是在搜索搜索引中进行匹配的。如果网页不在搜索索引中,则搜索引擎用户将找不到它。这就是为什么让你的网站在 Google 和 Bing 等主要搜索引擎中建立索引如此重要。