翻译了下这篇讲google 搜索的文章,简单总结下:

  1. Google搜索排名机制是一个极其复杂的系统,涉及多个关键组件,如Alexandria索引系统、Ascorer排序系统和Superroot精炼系统。
  2. 排名因素不仅包括传统的内容相关性和链接分析,还高度依赖用户行为信号,如点击率和停留时间,尽管Google公开否认这一点。
  3. 搜索结果是动态的,会根据实时的搜索趋势和用户行为进行调整,这意味着排名可能会因外部因素而波动,而非仅仅由网页本身的质量决定。
  4. 对SEO从业者来说,重点应放在提供高质量、符合用户搜索意图的内容,改善整体用户体验,以及建立强大的品牌和域名认知度上,而不仅仅是技术性的页面优化。
  5. 理解Google排名机制的复杂性有助于我们更好地解释排名波动,并制定更全面、长期的SEO策略。

应该很清楚,Google 文档泄露和反垄断听证会的公开文件并不能真正告诉我们排名是如何运作的。

有机搜索结果的结构现在变得如此复杂 - 尤其是由于机器学习的使用 - 即使是负责排名算法的 Google 员工也表示他们无法再解释为什么某个结果排在第一位或第二位。我们不知道众多信号的权重和它们之间的确切相互作用。

尽管如此,了解搜索引擎的结构仍然很重要,这可以帮助我们理解为什么经过良好优化的页面无法排名,或者相反,为什么看似简短且未经优化的结果有时会出现在排名的顶部。最重要的一点是,你需要拓宽视野,看清什么才是真正重要的。

所有可用的信息清楚地表明了这一点。任何稍微涉及排名的人都应该将这些发现纳入自己的思维方式。你会从一个全新的角度看待你的网站,并将额外的指标纳入你的分析、规划和决策中。

老实说,要描绘出系统结构的真实图景是极其困难的。网上的信息在解释上存在很大差异,有时在术语上也有所不同,尽管指的是同一件事。

举个例子:负责构建优化空间使用的 SERP (搜索结果页面) 的系统叫做 Tangram。然而,在一些 Google 文档中,它也被称为 Tetris,这可能是对著名游戏的引用。

在数周的详细工作中,我查看、分析、结构化、舍弃并多次重新结构化了近100份文件。

本文并不打算面面俱到或严格准确。它代表了我最大的努力 (即"尽我所知所信"),以及一点柯伦坡警探式的调查精神。你在这里看到的就是结果。

An image to describe post

等待 Googlebot 访问的新文档

当你发布一个新网站时,它不会立即被索引。Google 必须首先意识到这个 URL 的存在。这通常通过更新的网站地图或从已知 URL 放置的链接实现。

经常访问的页面,如主页,自然会更快地将这些链接信息带到 Google 的注意力中。

trawler 系统会检索新内容,并跟踪何时重新访问 URL 以检查更新。这由一个称为调度程序的组件管理。存储服务器决定是转发 URL 还是将其放入沙盒中。

Google 否认存在这个沙盒,但最近的泄露表明,(疑似) 垃圾网站和低价值网站被放置在那里。值得一提的是,Google 显然会转发一些垃圾信息,可能是为了进一步分析以训练其算法。

我们假设的文档通过了这个障碍。从我们的文档中提取出站链接,并按内部或外部出站进行分类。其他系统主要使用这些信息进行链接分析和 PageRank 计算。(稍后会详细介绍。)

图片链接被转移到 ImageBot,它会调用它们,有时会有显著的延迟,然后将它们 (连同相同或相似的图片) 放入图片容器中。trawler 显然使用自己的 PageRank 来调整抓取频率。如果一个网站有更多流量,这个抓取频率就会增加 (ClientTrafficFraction)。

Alexandria: 伟大的图书馆

Google 的索引系统 Alexandria 为每一段内容分配一个唯一的 DocID。如果内容已经存在,例如在重复内容的情况下,不会创建新的 ID;相反,URL 会链接到现有的 DocID。

重要的是:Google 区分 URL 和文档。一个文档可以由多个包含相似内容的 URL 组成,包括不同的语言版本 (如果它们被正确标记的话)。其他域名的 URL 也在这里排序。所有这些 URL 的信号都通过共同的 DocID 应用。

对于重复内容,Google 选择规范版本,它会出现在搜索排名中。这也解释了为什么其他 URL 有时可能排名相似;对"原始" (规范) URL 的确定可能会随时间而改变。

An image to describe post

由于我们的文档在网上只有这一个版本,所以它被赋予了自己的 DocID。

我们网站的各个部分被搜索相关的关键词短语,并被推入搜索索引。在那里,"命中列表" (页面上所有重要的词) 首先被发送到直接索引,它总结了每页多次出现的关键词。

现在进行一个重要的步骤。个别关键词短语被整合到倒排索引 (词索引) 的词目录中。"铅笔"这个词和所有包含这个词的重要文档已经列在那里了。

简单来说,由于我们的文档多次突出包含"铅笔"这个词,它现在在词索引中以其 DocID 列在"铅笔"条目下。

DocID 被分配一个算法计算的 IR (信息检索) 分数用于"铅笔",稍后用于纳入发布列表。例如,在我们的文档中,"铅笔"这个词在文本中被标记为粗体,并包含在 H1 中 (存储在 AvrTermWeight 中)。这些和其他信号增加了 IR 分数。

Google 将被认为重要的文档移至所谓的 HiveMind,即主内存。Google 使用快速 SSD 和传统 HDD (称为 TeraGoogle) 来长期存储不需要快速访问的信息。文档和信号存储在主内存中。

值得注意的是,专家估计,在最近的 AI 热潮之前,世界上大约一半的网络服务器都托管在 Google。大量相互连接的集群允许数百万个主内存单元一起工作。一位 Google 工程师曾在一次会议上指出,从理论上讲,Google 的主内存可以存储整个网络。

有趣的是,存储在 HiveMind 中的链接 (包括反向链接) 似乎具有更大的权重。例如,来自重要文档的链接被赋予更大的重要性,而来自 TeraGoogle (HDD) 中 URL 的链接可能权重较低或可能根本不被考虑。

  • 提示: 为你的文档提供合理且一致的日期值。BylineDate (源代码中的日期)、syntaticDate (从 URL 和/或标题中提取的日期) 和 semanticDate (从可读内容中提取) 等都会被使用。
  • 通过更改日期来伪造时效性肯定会导致降级 (降低排名)。lastSignificantUpdate 属性记录了文档最后一次重大更改的时间。修复小细节或打字错误不会影响这个计数器。

每个 DocID 的附加信息和信号被动态存储在存储库 (PerDocData) 中。许多系统在后期调整相关性时会访问这些信息。值得注意的是,文档的最后20个版本都存储在那里 (通过 CrawlerChangerateURLHistory)。

Google 有能力评估和评定一段时间内的变化。如果你想完全改变文档的内容或主题,理论上你需要创建20个中间版本来覆盖旧的内容信号。这就是为什么重新启用一个过期域名 (之前活跃但后来因破产等原因被废弃或出售的域名) 不会带来任何排名优势。

如果一个域名的管理员联系人 (Admin-C) 发生变化,同时其主题内容也发生变化,机器在这一点上就可以轻易识别出来。Google 随后会将所有信号归零,所谓的有价值的旧域名不再比一个全新注册的域名有任何优势。

An image to describe post

QBST: 有人在搜索"铅笔"

当有人在 Google 中输入"铅笔"作为搜索词时,QBST 开始工作。搜索短语被分析,如果包含多个词,相关词会被发送到词索引进行检索。

术语权重的过程相当复杂,涉及 RankBrain、DeepRank (前身是 BERT) 和 RankEmbeddedBERT 等系统。相关术语,如"铅笔",然后被传递给 Ascorer 进行进一步处理。

Ascorer: "绿环"的创建

Ascorer 从倒排索引中检索"铅笔"的前1000个 DocID,按 IR 分数排序。根据内部文件,这个列表被称为"绿环"。在业内,它被称为发布列表。

Ascorer 是一个名为 Mustang 的排名系统的一部分,在那里通过诸如使用 SimHash (一种文档指纹) 进行去重、段落分析、识别原创和有帮助内容的系统等方法进行进一步过滤。目标是将1000个候选项精炼为"10个蓝色链接"或"蓝环"。

我们关于铅笔的文档在发布列表上,目前排在第132位。如果没有其他系统,这将是它的最终位置。

Superroot: 将1000变为10!

Superroot 系统负责重新排名,执行将"绿环" (1000个 DocID) 减少到只有10个结果的"蓝环"的精确工作。

Twiddlers 和 NavBoost 执行这项任务。这里可能还使用了其他系统,但由于信息模糊,它们的确切细节不清楚。

An image to describe post

  • Google Caffeine 不再以这种形式存在。只有名称保留了下来。
  • Google 现在使用无数的微服务,它们相互通信并为文档生成属性,这些属性被各种排名和重新排名系统用作信号,并用于训练神经网络进行预测。

一个接一个的过滤器: Twiddlers

各种文件表明,有数百个 Twiddler 系统在使用。可以将 Twiddler 想象成类似 WordPress 中的插件。

每个 Twiddler 都有自己特定的过滤目标。它们之所以这样设计,是因为它们相对容易创建,不需要对 Ascorer 中复杂的排名算法进行更改。

修改这些算法是具有挑战性的,由于潜在的副作用,会涉及大量的规划和编程。相比之下,Twiddlers 并行或顺序运行,不知道其他 Twiddlers 的活动。

基本上有两种类型的 Twiddlers。

  • PreDoc Twiddlers 可以处理整个几百个 DocID 的集合,因为它们几乎不需要或完全不需要额外的信息。
  • 相比之下,"Lazy"类型的 Twiddlers 需要更多信息,例如来自 PerDocData 数据库的信息。这需要相应更长的时间,也更复杂。

出于这个原因,PreDocs 首先将发布列表减少到明显更少的条目,然后开始使用更慢的过滤器。这节省了大量的计算能力和时间。

一些 Twiddlers 调整 IR 分数,可以是正面的也可以是负面的,而其他 Twiddlers 直接修改排名位置。由于我们的文档是索引中的新内容,一个旨在给予最近文档更好排名机会的 Twiddler 可能会将 IR 分数乘以1.7的系数。这种调整可能会将我们的文档从第132位提升到第81位。

另一个 Twiddler 通过贬低内容相似的文档来增强 SERP 中的多样性 (strideCategory)。结果,我们前面的几个文档失去了它们的位置,使我们的铅笔文档上升了12个位置到第69位。此外,一个限制特定查询的博客页面数量为三个的 Twiddler 将我们的排名提升到第61位。

An image to describe post

我们的页面在 CommercialScore 属性上得到了零分 (表示"是")。Mustang 系统在分析过程中识别出了销售意图。Google 可能知道搜索"铅笔"的人经常会进行诸如"购买铅笔"之类的精炼搜索,表明有商业或交易意图。一个设计用来考虑这种搜索意图的 Twiddler 添加了相关结果,并将我们的页面提升了20个位置,使我们上升到第41位。

另一个 Twiddler 发挥作用,实施"第三页惩罚",将被怀疑是垃圾信息的页面限制在最高第31位 (第3页)。文档的最佳位置由 BadURL-demoteindex 属性定义,它防止排名高于这个阈值。DemoteForContent、DemoteForForwardlinks 和 DemoteForBacklinks 等属性用于此目的。结果,我们上面的三个文档被降级,使我们的页面上升到第38位。

我们的文档本可能被贬值,但为了保持简单,我们假设它保持不变。让我们考虑最后一个 Twiddler,它根据嵌入评估我们的铅笔页面与我们的域名的相关性。由于我们的网站专门关注书写工具,这对我们有利,并对其他24个文档产生负面影响。

例如,想象一个主题多样的价格比较网站,但有一个关于铅笔的"好"页面。因为这个页面的主题与网站的整体重点有很大不同,它会被这个 Twiddler 贬值。

siteFocusScore 和 siteRadius 等属性反映了这种主题距离。结果,我们的 IR 分数再次得到提升,其他结果被降级,使我们上升到第14位。

如前所述,Twiddlers 服务于广泛的目的。开发人员可以尝试新的过滤器、乘数或特定的位置限制。甚至可以将一个结果专门排在另一个结果的前面或后面。

Google 一份泄露的内部文件警告说,某些 Twiddler 功能应该只由专家使用,并在咨询核心搜索团队后使用。

"如果你认为你理解它们是如何工作的,相信我们:你不理解。我们也不确定我们理解。"

还有一些 Twiddlers 只创建注释,并在通往 SERP 的途中将这些注释添加到 DocID。例如,图片然后出现在摘要中,或者标题和/或描述稍后被动态重写。

如果你在疫情期间想知道为什么你所在国家的国家卫生部门 (例如美国的卫生与公众服务部) 在 COVID-19 搜索中始终排名第一,那是因为有一个 Twiddler 根据语言和国家使用 queriesForWhichOfficial 来提升官方资源。

你几乎无法控制 Twiddler 如何重新排序你的结果,但了解其机制可以帮助你更好地解释排名波动或"无法解释的排名"。定期审查 SERP 并注意结果类型是很有价值的。

例如,即使使用不同的搜索短语,你是否只看到一定数量的论坛或博客帖子?有多少结果是交易性的、信息性的或导航性的?是否总是出现相同的域名,还是随着搜索短语的轻微变化而变化?

如果你注意到结果中只包含少数在线商店,试图用类似的网站排名可能效果不佳。相反,考虑专注于更多信息导向的内容。然而,现在不要下定论,因为我们稍后会讨论 NavBoost 系统。

Google 的质量评分员和 RankLab

全球有数千名质量评分员为 Google 工作,评估某些搜索结果并在"上线"之前测试新算法和/或过滤器。

Google 解释说,"他们的评分不会直接影响排名。"

这基本上是正确的,但这些评分确实对排名有重大的间接影响。

它是这样工作的:评分员从系统接收 URL 或搜索短语 (搜索结果),并回答预先确定的问题,通常在移动设备上进行评估。

例如,他们可能被问到,"是否清楚谁写了这个内容以及什么时候写的?作者在这个主题上是否有专业知识?"这些问题的答案被存储并用于训练机器学习算法。这些算法分析好的和可信页面与不太可靠的页面的特征。

这种方法意味着,算法不是依赖 Google 搜索团队成员创建排名标准,而是使用深度学习来识别基于人类评估者提供的培训的模式。

让我们考虑一个思想实验来说明这一点。想象一下,如果一个内容包含作者的照片、全名和 LinkedIn 简历链接,人们会直觉地将其评为可信。缺少这些特征的页面被认为不太可信。

如果神经网络在各种页面特征上与这些"是"或"否"的评分一起进行训练,它会将这个特征识别为一个关键因素。经过几次正面的测试运行 (通常至少持续30天) 后,网络可能开始使用这个特征作为一个排名信号。结果,带有作者图片、全名和 LinkedIn 链接的页面可能会获得排名提升,可能通过一个 Twiddler,而没有这些特征的页面可能会被贬值。

Google 官方不关注作者的立场可能与这个场景一致。然而,泄露的信息揭示了像 isAuthor 这样的属性和通过 AuthorVectors 属性进行"作者指纹识别"的概念,这使得作者的独特用语 (个人使用的术语和表述) 可以通过嵌入来区分或识别。

评分员的评估被汇编成一个"信息满意度" (IS) 分数。尽管许多评分员做出贡献,但 IS 分数只适用于一小部分 URL。对于具有相似模式的其他页面,这个分数被外推用于排名目的。

Google 指出,"许多文档没有点击但可能很重要。"当无法进行外推时,系统会自动将文档发送给评分员以生成分数。

与质量评分员相关的"golden"一词被提到,这表明某些文档或文档类型可能有一个黄金标准。可以推断,符合人类测试者期望的文档可能有助于达到这个黄金标准。此外,很可能有一个或多个 Twiddlers 可能会为被认为是"golden"的 DocIDs 提供显著的提升,可能将它们推入前10名。

质量评分员通常不是全职 Google 员工,可能通过外部公司工作。相比之下,Google 自己的专家在 RankLab 内工作,他们进行实验,开发新的 Twiddlers,并评估这些或改进的 Twiddlers 是否改善了结果质量或仅仅过滤掉垃圾信息。

经过验证和有效的 Twiddlers 随后被整合到 Mustang 系统中,在那里使用复杂的、计算密集的和相互关联的算法。

我们的铅笔文档还没有完全成功。在 Superroot 内,另一个核心系统 NavBoost 在确定搜索结果的顺序方面发挥着重要作用。NavBoost 使用"切片"来管理移动、桌面和本地搜索的不同数据集。

尽管 Google 官方否认使用用户点击数据进行排名,但 FTC 文件揭示了一封内部电子邮件,指示点击数据的处理必须保密。

这不应该被认为是 Google 的过错,因为否认使用点击数据涉及两个关键方面。首先,承认使用点击数据可能会引发媒体对隐私问题的愤怒,将 Google 描绘成跟踪我们在线活动的"数据章鱼"。然而,使用点击数据的目的是获得统计相关的指标,而不是监控个别用户。虽然数据保护倡导者可能会有不同看法,但这个角度有助于解释这种否认。

FTC 文件确认点击数据被用于排名目的,并经常提到 NavBoost 系统 (在2023年4月18日的听证会上提到54次)。2012年的一次官方听证会也揭示了点击数据影响排名。

An image to describe post

已经确定,搜索结果上的点击行为和网站或网页上的流量都会影响排名。Google 可以轻松地直接在 SERP 中评估搜索行为,包括搜索、点击、重复搜索和重复点击。

有人推测 Google 可以从 Google Analytics 推断域名移动数据,导致一些人避免使用这个系统。然而,这个理论有局限性。

首先,Google Analytics 不提供域名的所有交易数据访问。更重要的是,超过60%的人使用 Google Chrome 浏览器 (超过30亿用户),Google 收集了大量网络活动数据。

这使得 Chrome 成为分析网络移动的关键组件,正如听证会所强调的。此外,Core Web Vitals 信号官方通过 Chrome 收集,并汇总到"chromeInTotal"值中。

与"监控"相关的负面宣传是否认的一个原因,而另一个原因是担心评估点击和移动数据可能会鼓励垃圾邮件发送者和骗子使用机器人系统伪造流量来操纵排名。虽然这种否认可能令人沮丧,但其背后的原因至少是可以理解的。

  • 存储的一些指标包括 badClicks 和 goodClicks。搜索者在目标页面上停留的时间长短,以及他们在那里查看了多少其他页面和在什么时间查看的信息 (Chrome 数据) 很可能包含在这个评估中。
  • 快速浏览搜索结果并迅速返回搜索结果页面,然后进一步点击其他结果,可能会增加坏点击的数量。在搜索会话中有最后一次"好"点击的搜索结果被记录为 lastLongestClick。
  • 数据被压缩 (即浓缩),以便进行统计规范化,减少被操纵的可能性。
  • 如果一个页面、一组页面或域名的首页通常有良好的访客指标 (Chrome 数据),这会通过 NavBoost 产生积极影响。通过分析域名内或跨域名的移动模式,甚至可以确定导航的用户引导有多好。
  • 由于 Google 测量整个搜索会话,在极端情况下,理论上甚至可能认识到一个完全不同的文档被认为适合某个搜索查询。如果搜索者在搜索中离开他们在搜索结果中点击的域名,转到另一个域名 (可能是因为它甚至从那里链接),并在那里停留作为可识别的搜索结束,这个"结束"文档可能会在未来通过 NavBoost 被推到前面,前提是它在选择环集中可用。然而,这需要来自许多搜索者的强烈统计相关信号。

让我们首先检查搜索结果中的点击。SERP 中的每个排名位置都有一个平均预期点击率 (CTR),作为性能基准。例如,根据 Johannes Beus 在今年柏林 CAMPIXX 大会上展示的分析,有机排名第1位获得平均26.2%的点击,而第2位获得15.5%。

如果一个片段的实际 CTR 显著低于预期率,NavBoost 系统会记录这种差异,并相应调整 DocIDs 的排名。如果一个结果历史上产生的点击明显多于或少于预期,NavBoost 将根据需要上移或下移文档。
An image to describe post

这种方法是有道理的,因为点击本质上代表了用户根据标题、描述和域名对结果相关性的投票。这个概念甚至在官方文件中有详细说明。
An image to describe post

由于我们的铅笔文档还很新,目前还没有可用的 CTR 值。目前还不清楚对于没有数据的文档,CTR 偏差是否会被忽略,但这似乎是可能的,因为目标是纳入用户反馈。另一种可能是,CTR 最初可能会根据其他值进行估计,类似于 Google Ads 中处理质量因素的方式。

  • SEO 专家和数据分析师长期以来报告说,他们在全面监控自己的点击率时注意到以下现象:如果一个文档针对一个搜索查询新出现在前10名中,而 CTR 显著低于预期,你可以观察到几天内排名下降 (取决于搜索量)。
  • 相反,如果 CTR 相对于排名显著更高,排名通常会上升。如果 CTR 不佳,你只有很短的时间来反应并调整片段 (通常是通过优化标题和描述),以便收集更多点击。否则,位置会恶化,随后就不那么容易恢复了。人们认为这种现象背后是测试。如果一个文档证明了自己,它就可以保持。如果搜索者不喜欢它,它就会再次消失。这是否实际与 NavBoost 相关既不清楚也无法最终证明。

根据泄露的信息,似乎 Google 使用页面"环境"的大量数据来估计新的、未知页面的信号。

例如,NearestSeedversion 表明主页的 PageRank (HomePageRank_NS) 被转移到新页面,直到它们发展出自己的 PageRank。此外,pnavClicks 似乎用于估计和分配通过导航点击的概率。

计算和更新 PageRank 是耗时且计算密集的,这就是为什么可能使用 PageRank_NS 指标。"NS"代表"最近种子",意味着一组相关页面共享一个 PageRank 值,该值暂时或永久应用于新页面。

很可能其他关键信号的值也来自相邻页面,帮助新页面在没有显著流量或反向链接的情况下攀升排名。许多信号不是实时归因的,可能涉及明显的延迟。

  • Google 自己在听证会上为新鲜度树立了一个好榜样。例如,如果你搜索"斯坦利杯",搜索结果通常会显示著名的奖杯。然而,当斯坦利杯冰球比赛正在进行时,NavBoost 会调整结果,优先显示比赛信息,反映搜索和点击行为的变化。
  • 新鲜度并不是指新的 (即"新鲜的") 文档,而是指搜索行为的变化。根据 Google 的说法,SERP 中每天有超过10亿 (这不是打字错误) 个新行为!因此,每次搜索和每次点击都有助于 Google 的学习。认为 Google 知道一切关于季节性的假设可能是不正确的。Google 识别搜索意图的细微变化并不断调整系统 - 这创造了 Google 实际"理解"搜索者想要什么的错觉。

根据最新发现,文档的点击指标显然存储和评估期为13个月 (与前一年重叠一个月以进行比较)。

由于我们假设的域名具有强大的访客指标和来自广告的大量直接流量,作为一个知名品牌 (这是一个积极信号),我们的新铅笔文档从旧的成功页面的有利信号中受益。

结果,NavBoost 将我们的排名从第14位提升到第5位,使我们进入"蓝环"或前10名。这个前10名列表,包括我们的文档,然后与其他9个有机结果一起转发给 Google Web Server。

  • 与预期相反,Google 实际上并不提供许多个性化搜索结果。测试可能表明,模拟用户行为并进行更改比评估个别用户的个人偏好能提供更好的结果。
  • 这是值得注意的。通过神经网络的预测现在比我们自己的浏览和点击历史更适合我们。然而,个人偏好,如对视频内容的偏好,仍然包含在个人结果中。

好的,我将继续翻译文章的最后部分:

GWS: 一切终结和新的开始之处

Google Web Server (GWS) 负责组装和投放搜索结果页面 (SERP)。这包括10个蓝色链接,以及广告、图片、Google 地图视图、"人们还问"部分和其他元素。

Tangram 系统处理几何空间优化,计算每个元素需要多少空间以及可用的"框"中可以容纳多少结果。然后 Glue 系统将这些元素安排在适当的位置。

我们的铅笔文档,目前排在第5位,是有机结果的一部分。然而,CookBook 系统可能在最后一刻进行干预。这个系统包括 FreshnessNode、InstantGlue (在24小时内反应,延迟约10分钟) 和 InstantNavBoost。这些组件生成与时效性相关的额外信号,可以在页面显示之前的最后时刻调整排名。

假设一个关于 Faber-Castell 250周年和围绕"铅笔"一词的神话的德国电视节目开始播出。几分钟内,成千上万的观众拿起他们的智能手机或平板电脑在线搜索。这是一个典型场景。FreshnessNode 检测到"铅笔"搜索量的激增,并注意到用户正在寻找信息而不是购买,相应地调整排名。

在这种特殊情况下,InstantNavBoost 实时移除所有交易性结果,用信息性结果替换它们。InstantGlue 然后更新"蓝环",导致我们之前面向销售的文档从顶级排名中掉出,被更相关的结果取代。

An image to describe post

虽然这可能令人遗憾,但这个假设的排名之旅结束说明了一个重要观点:获得高排名不仅仅是拥有一个出色的文档或实施正确的 SEO 措施和高质量内容。

排名可能受到各种因素的影响,包括搜索行为的变化、其他文档的新信号和不断变化的环境。因此,重要的是要认识到,拥有一个出色的文档和做好 SEO 工作只是更广泛和更动态的排名环境中的一部分。

编制搜索结果的过程极其复杂,受到数千个信号的影响。SearchLab 使用 Twiddler 进行了大量实时测试,甚至你文档的反向链接也可能受到影响。

这些文档可能从 HiveMind 移动到不太关键的级别,如 SSD 或甚至 TeraGoogle,这可能会削弱或消除它们对排名的影响。即使你自己的文档没有任何变化,这也可能改变排名尺度。

Google 的 John Mueller 强调,排名下降通常并不意味着你做错了什么。用户行为或其他因素的变化可能会改变结果的表现。

例如,如果搜索者随着时间的推移开始更喜欢详细信息而不是较短的文本,NavBoost 会自动相应地调整排名。然而,Alexandria 系统或 Ascorer 中的 IR 分数保持不变。

一个关键的启示是,SEO 必须在更广泛的背景下理解。如果文档及其搜索意图不一致,优化标题或内容将不会有效。

Twiddlers 和 NavBoost 对排名的影响通常可能超过传统的页面内、站内或站外优化。如果这些系统限制了文档的可见性,额外的页面内改进将产生最小的效果。

然而,我们的旅程并不以低调结束。电视节目对铅笔的影响是暂时的。一旦搜索激增消退,FreshnessNode 将不再影响我们的排名,我们将重新回到第5位。

当我们重新开始收集点击数据时,第5位的预期 CTR 约为4% (基于 SISTRIX 的 Johannes Beus 的数据)。如果我们能保持这个 CTR,我们可以期待保持在前十名。一切都会好起来的。

SEO 主要要点

  1. 多样化流量来源:确保你从各种来源获得流量,不仅仅是搜索引擎。来自不太明显渠道的流量,如社交媒体平台,也很有价值。即使 Google 的爬虫无法访问某些页面,Google 仍然可以通过 Chrome 或直接 URL 跟踪有多少访问者来到你的网站。

  2. 建立品牌和域名认知度:始终致力于加强你的品牌或域名认知度。人们越熟悉你的名字,他们在搜索结果中点击你的网站的可能性就越大。为许多长尾关键词排名也能提升你的域名可见度。泄露的信息表明,"网站权威性"是一个排名信号,所以建立品牌声誉可以帮助提高搜索排名。

  3. 理解搜索意图:为了更好地满足访客需求,试图理解他们的搜索意图和旅程。使用像 Semrush 或 SimilarWeb 这样的工具来了解你的访客来自哪里,以及他们离开你的网站后去了哪里。分析这些域名 - 它们是否提供了你的落地页缺少的信息?逐渐添加这些缺失的内容,成为访客搜索旅程的"最终目的地"。记住,Google 跟踪相关的搜索会话,准确知道搜索者在寻找什么以及他们一直在搜索什么。

  4. 优化标题和描述以提高 CTR:从审查你当前的 CTR 开始,并进行调整以提高点击吸引力。将一些重要词语大写可以帮助它们在视觉上突出,可能会提高 CTR;测试这种方法看是否对你有效。标题在决定你的页面是否能为搜索短语排名良好方面起着关键作用,所以优化它应该是首要任务。

  5. 评估隐藏内容:如果你使用手风琴菜单来"隐藏"重要内容,需要点击才能显示,检查这些页面是否有高于平均水平的跳出率。当搜索者无法立即看到他们在正确的地方,需要多次点击时,产生负面点击信号的可能性会增加。

  6. 移除表现不佳的页面:如果没有人访问 (网络分析) 或长期无法获得良好排名的页面应该在必要时被移除。不良信号也会传递给相邻页面!如果你在一个"不良"页面集群中发布新文档,新页面几乎没有机会。"deltaPageQuality"显然实际测量了域名或集群中个别文档之间的质量差异。

  7. 改善页面结构:清晰的页面结构、简单的导航和强烈的第一印象对于获得顶级排名至关重要,这往往得益于 NavBoost。

  8. 最大化用户参与度:访客在你的网站上停留的时间越长,你的域名发送的信号就越好,这有利于你所有的子页面。通过提供他们需要的所有信息,使访客不必再去别处搜索,从而成为最终目的地。

  9. 扩展现有内容而不是不断创建新内容:更新和增强你当前的内容可能更有效。ContentEffortScore 衡量创建文档所付出的努力,高质量图片、视频、工具和独特内容等因素都有助于这个重要信号。

  10. 对齐标题与其介绍的内容:确保 (中间) 标题准确反映其后的文本块。主题分析,使用嵌入 (文本向量化) 等技术,比纯粹的词法方法更有效地识别标题和内容是否正确匹配。

  11. 利用网络分析:像 Google Analytics 这样的工具可以让你有效地跟踪访客参与度,并识别和解决任何差距。特别关注你的落地页的跳出率。如果跳出率太高,调查潜在原因并采取纠正措施。记住,Google 可以通过 Chrome 浏览器访问这些数据。

  12. 针对竞争较小的关键词:你也可以首先专注于为竞争较小的关键词排名,从而更容易建立积极的用户信号。

  13. 培养高质量的反向链接:专注于来自存储在 HiveMind 中的最近或高流量页面的链接,因为这些提供更有价值的信号。来自流量或参与度较低的页面的链接效果较差。此外,来自同一国家的页面和与你的内容主题相关的页面的反向链接更有益。请注意,"有毒"的反向链接确实存在,它们会对你的分数产生负面影响,应该避免。

  14. 注意链接周围的上下文:链接前后的文本,而不仅仅是锚文本本身,都被考虑在排名中。确保文本自然地围绕链接流动。避免使用像"点击这里"这样的通用短语,这种做法已经超过二十年无效了。

  15. 了解 Disavow 工具的局限性:用于使不良链接失效的 Disavow 工具在泄露的信息中完全没有提到。似乎算法不考虑它,它主要用于垃圾信息打击者的文档目的。

  16. 考虑作者专业知识:如果你使用作者引用,确保他们在其他网站上也被认可并展示相关专业知识。拥有较少但高度合格的作者比拥有许多不太可信的作者要好。根据一项专利,Google 可以根据作者的专业知识评估内容,区分专家和外行。

  17. 创建独特、有帮助、全面且结构良好的内容:这对关键页面尤其重要。展示你在该主题上的真正专业知识,如果可能的话,提供证据。虽然让某人写内容只是为了在页面上有些内容很容易,但如果没有真正的质量和专业知识,设定高排名期望可能不现实。

原文链接:https://searchengineland.com/how-google-search-ranking-works-445141