深度学习驱动智能搜索引擎，RankBrain革了SEO的命

by 氧分子 · 2016 年 06 月 07 日

想在谷歌或百度等搜索结果中排名靠前，除了广告（给钱），你还可以选择SEO（搜索引擎优化）：让网站符合算法的规则，提升在搜索引擎内的自然排名。但去年开始，谷歌使用以深度学习为基础的人工智能核心搜索算法RankBrain，本文认为这种越来越“类人化”的算法个性定制每个搜索结果，每个网站的排名都变得看似更加随机，在搜索引擎中“钻空子”难度将越来越大，SEO将持续极端技术化，只有把握好分析和大数据做SEO，才有望获得巨大收益。

RankBrain还是一种弱人工智能

如今，每个人都听说过谷歌的 RankBrain 算法了。这个新型人工智能机器学习算法是从加州山景城谷歌总部诞生出的最新、最重大的算法。然而，读者中的许多人大概还没意识到，RankBrain 将引起 SEO（搜索引擎优化）行业的快速转变。在本文中，我将带你去了解一些鲜明的事例，让你明白 SEO 的不少旧规则都不再适用了，并让你知道，要想领先于潮流以继续为你的业务提供 SEO 服务，你需要做什么。

那么，什么是人工智能呢？

一般来说有三种类型的人工智能：
1，弱人工智能: 这是为某个特殊目的服务的人工智能（例如，用于击败国际象棋世界冠军的人工智能）
2，强人工智能：这是那种任何事情都能做的人工智能。一旦人工智能能像人类一样行动，我们就认为它具有了强人工智能。
3，超人工智能（Artificial Superintelligence）：人工智能在做所有事情时都具有极高的水平（例如，具有超越单个人类的水平）。

当我们谈论谷歌的 RankBrain，以及谈论谷歌目前正在运行的那些机器学习算法时，我们谈的是弱人工智能。实际上，弱人工智能已经存在了一段时间了。你是否想过你的电子邮件服务中的垃圾过滤器是怎么工作的？是的，那就是弱人工智能的一种体现。我最喜欢的弱人工智能项目还有：谷歌翻译，IBM Watson，亚马逊的自动产品推荐，自动驾驶汽车以及我们亲爱的谷歌 RankBrain.

在弱人工智能界，有多种不同的实现方式。Pedro Domingos 曾在 MasterAlgorithm 一书中明确指出，那些试图实现完美人工智能的数据科学家可以被分为五个“派别”，它们是：

• 符号主义者
• 联结主义者
• 进化主义者
• 贝叶斯主义者
• 行为类比主义者（Analogizers）

谷歌的 RankBrain 属于联结主义派。联结主义者相信，我们所有的知识都被编码为我们大脑中的神经元联结。而 RankBrain 使用的具体方法是一种被专家称为“反向传播”的技术，这一路方法后来也被人们称之为深度学习。

联结主义者宣称，该方法能从原始数据中学习任何东西，因此它最终能够实现知识发现的自动化。谷歌显然也相信这一点。2014年 1月 26日，谷歌宣布收购深度学习公司Deepmind，显露了在这领域的雄心。

因此，当我们谈论 RankBrain 时，我们可以说它使用的是弱人工智能中的深度学习技术。那么，该领域目前发展如何呢？以及更重要的，它正在如何改变 SEO 业务呢？

2025 年左右实现强人工智能？

WaitButWhy.com 的 Tim Urban 在其文章《AI 革命：通向超级人工智能之路》中比任何人都更清楚地解释了这一技术的增长。

当你回顾历史时，该技术的进展是这样的：

不过，正如 Urban 所指出的，在现实中，你其实看不见你自己位置的右侧（即你的未来）。因此，当你站在图表的当下位置是，这是你实际感受到的样子：

这一图表所展现是的，当人类试图预测历史时，他们常常会低估未来的趋势。这是因为他们总是去看位于图的左侧的过去，而不是位于图的右侧的未来。

然而，现实是，随着时间演化，人类进步正在越来越快。Ray Kurzweil 将这称之为“加速循环定律”。Kurzweil 的理论背后的科学理由是：与过去的不够先进的社会相比，未来的更先进的社会有能力以更快的速度进步——因为那时的社会更先进。这一推理也可以运用到人工智能以及技术进步的增长速度方面。

在计算资源方面，我们已经看到了这一点。下面的图标可以让你看看，由于“加速循环定律”，事情进展得有多快：

正如你所看到的和我们都直观感受到的，处理器和计算机技术的增长都获益于加速循环定律。另一件令人震惊的事是：未来的某一天，一台简易电脑的处理能力将不仅超过单个的人，而且超过所有人类的总和。

实际上，看起来我们将在 2025 年左右实现强人工智能。技术显然正在越来越快地扩张，这想必会让我们大多数人感到惊讶。

从傻瓜到爱因斯坦

正如我上面解释的，谷歌的 RankBrain 只是弱人工智能的一个例子。这意味着，RankBrain 可以在某个特定领域中比一个人做得更好，但也仅此而已：它只是一种相对较弱形式的人工智能。然而，哪怕是这种“弱”人工智能，也会飞快地变成一种我们不知该怎么对付的东西。

你可以清楚地看到，谷歌的 RankBrain 尽管在特定任务上极其聪明，但在通用的智力尺度上仍然是失败的。然而，如果我们把加速循环定律应用在人工智能领域，将会发生什么呢？Tim Urban 进行了这样一个思想实验：

“当人工智能的智力越来越接近我们时，我们会看到它变得越来越聪明，像一个动物一样。之后，它将达到人类的最低水平——用 Nick Bostrom 的话说，是村里的傻瓜的水平——我们会说‘ 哇奥，它看起来像个人类傻瓜，真可爱!’ 然而重要的是，在所有智力水平构成的谱系中，从傻瓜到爱因斯坦的所有人类都只占了一个很小的区域——因此，在人工智能实现‘村中傻瓜’水平并具有强人工智能之后，它将突然变得比爱因斯坦更聪明，而我们不会知道那将是什么样。”

那么，这对 SEO 业务以及我们目前的人工智能来说意味着什么呢？

在我们去预测未来之前，让我们先看看 RankBrain 已经怎样改变了 SEO。我与卡耐基梅隆大学校友、Market Brew （一家为 Fortune 500 强的 SEO 团队提供搜索引擎模型的公司）的 CTO、联合创始人 Scott Stouffer 就这一问题进行了交流。作为一名搜索工程师，Stouffer 对过去几十年的发展具有一个大部分人都不具有的独特视角。

谷歌开始把主要精力放在人工智能后，SEO行业应如何应对？下面是他的一些建议。

回归分析是有严重缺陷

这是 SEO 行业中当前最大的缺陷。每当谷歌的排名发生巨大变化时，都会出现许多“大师”——来自本行业知名公司的一些数据科学家和 CTO 会宣称，他们知道为什么谷歌最近排名指数发生了变化。其实，他们最常用的方法是仔细分析几个月以来的排名数据，并去了解在所有类型的网站中排名情况是如何改变的。

按照目前的回归分析方法，这些数据科学家会指出一些受到了（正面或负面）影响的特定类型的网站，并十分肯定地认为谷歌最近的算法转变是针对这些网站共有的某类算法（内容或外链）而出现的。

然而，如今谷歌已经不这么干了。谷歌的 RankBrain 采用机器学习/深度学习方法，它的工作方式与过去十分不一样。

其实，谷歌内部已经存在许多核心算法。RankBrain 的任务是去学习这些核心算法以何种方式混合起来才能最佳地应用到每种类型的搜索结果中去。例如，在某些搜索结果中，RankBrain 可能学习到最关键的搜索信号是这些搜索结果中的元标题(Meta Title)。

为那些元标题匹配算法赋予更多的权重，这可能会带来更好的搜索体验。但在另一个搜索结果中，同样的元标题信号与良好的搜索体验之间可能却是负相关。因此，在那一类搜索中，诸如 PageRank 之类的其他算法可能会被赋予更多权重。

这意味着，在每个搜索结果中，谷歌都使用了完全不同的算法混合方式。现在，你就会明白，为什么“在缺乏搜索结果语境的情况下，对所有网站进行回归分析”这种方法是有严重缺陷的。

出于这些原因，现在的回归分析必须根据每一次的特定搜索来进行。Stouffer 最近谈到了一种可以用来测量谷歌算法改变程度的搜索模型方法。

首先，你可以截一张图，以确定搜索引擎模型在过去为某个具体关键词搜索而被校准到了什么程度。然后，当探测到排名方式发生了改变之后，你可以对搜索引擎模型进行重新校准，以展示出这两种搜索引擎模型设置之间的差异。通过这一方法，在经历了排名方式变化之后，你就可以看出哪些特定算法被增加或减少了权重。

知道了这一点后，我们就可以聚焦于如何提升网站对这些特定搜索结果的 SEO。但同样的方法并不适用于其他搜索结果。这是因为 RankBrain 是在搜索结果（或关键词）的水平上进行操作的。确切地说，RankBrain为每个搜索结果都进行算法的个性定制。

把握细分领域，避免错误分类

谷歌还发现，他们可以让 RankBrain 这个新型深度学习系统学会，“好”网站长什么样，“坏”网站长什么样。就像他们为每一个搜索结果进行不同的算法权重赋予一样，他们也发现每个垂直领域都有不同的“好”网站和“坏”网站实例。这无疑是因为不同的垂直领域具有不同的客户关系管理方式，不同的模板和数据结构类型。

当 RankBrain 运行时，它实际上在学习每种垂直环境中的正确“设定”是什么样的。你或许已经猜到，这些正确设定是什么完全取决于该设定所处于的垂直领域是什么样的。例如，在医疗产业中，谷歌知道像 WebMD.com 这样的网站声誉良好，并会把这样的网站放在其搜索索引的顶部位置。而任何结构上与 WebMD 网站相似的网站也会被归类到“好”网站的类别中。类似的，那些与已知的医疗领域垃圾网站结构相似的网站则会被归为“坏”网站的类别。

由于Rankbrain 使用深度学习能力同时对“好”网站和“坏”网站进行归类，如果你的网站中包含许多不同产业的信息，那将会怎样呢？

首先，我们必须再多讨论一下深度学习是如何工作的。在把所有网站都分为“好”“坏”两组之前，RankBrain 必须首先决定每个网站分别属于什么类别。像 Nike.com 和 WebMD.com 这样的网站很好归类。尽管这两个网站上都有很多不同的子类别，但它们都具有单一的一般类别。这类网站很容易被分类。

然而，那些包含了许多不同类别的网站呢？这类网站中的一个很好的例子是那些 How-To 型网站。这些网站通常拥有许多通用类别。面临这些网站，深度学习方法就会崩溃。那么，在面对这些网站时，谷歌使用什么样的训练数据呢？答案是：它可能是使用看起来随机的数据。它可能从众多类别中选择这个类别，也可能选择另一个类别。对于像 Wikipedia 这样的著名网站来说，谷歌可能完全不采取任何分类过程，以确保深度学习过程不会打扰用户既有的搜索体验（因为维基这样的大网站不太可能产生坏网页。）

然而，对那些不那么知名的网站来说，会发生什么呢？答案是，“谁知道呢？”或许，这个机器学习过程能自动地对每个网站进行分类，在此之后才会把它与其他网站进行比较。一个 How-To 型网站也许看起来和 WebMed 网站一个样。

如果系统的分类过程认为这个网站是关于鞋的，那么它就会把该网站与 Nike 网站结构进行比较，而不是与 WebMD 进行比较。也许，该网站的结构很像一家鞋类垃圾网站，而不像声誉良好的 WebMD 网站；如果是这样，这个内容过于一般化的网站就会被打上“垃圾”的标签。因此，如果这个 How-To 型网站具有不同的子领域，最好让每个子领域的样子都类似于该领域的最好网站。要把握住这些细分领域。

能辨认“好坏”的 RankBrain

让我们再看看这将如何影响外链。基于上面提到的分类过程，下面这一点将变得前所未有的重要：坚持只在你的邻近领域中进行外链。因为 RankBrain 能够知道，你的某些外链是不是与你所在的垂直领域同类网站的外链特征不同。

让我们仍使用刚才的例子。一家公司有一个关于鞋的网站。我们知道 RankBrain 的深度学习过程会试图把该网站的各个方面与鞋业领域的最佳和最差网站进行比较。因此，该网站的外链特征也将用来与同类的最佳和最差网站的外链特征进行比较。

假设，一个典型的声誉良好的鞋业网站拥有一下三个邻近领域的外链：

运动
健康
时尚

现在，假设该公司的 SEO 团队决定从这三个邻近领域中购买外链；此外，由于公司 CEO 和汽车产业有一些联系，他们决定使用汽车网站的免费外链。看起来这很“聪明”：他们使用了交叉营销方法，在汽车网站上展示“租车就送免费鞋”的页面，而这些页面将导向该公司的新鞋页面。看起来很不错，不是吗？

然而，RankBrain 会发现这一点，并发现该网站的外链特征与鞋业好网站的特征十分不同。更糟的是，它发现许多鞋业垃圾网站也拥有来自汽车网站的外链特征。

这样，尽管 RankBrain 并不知道什么是“正确”的外链特征，它却察觉出了对它的搜索引擎结果而言什么是“好”网站，什么是“坏”网站。这家鞋业网站将会被标记为“坏”，来自汽车网站的免费外链带来的将是访问量的暴跌。

你没法再钻空子了

从我们前面对加速循环定律的讨论中可以知道，RankBrain和其他人工智能未来都将会超越人脑。此刻，没有人知道这一技术将把我们带向何方。

不过，有一些事情是确定的：

每个有竞争力的关键词环境都需要被单独检验。
大多数网站都需要把握好对细分领域的处理。
每家网站都应该模仿该领域中声誉优良的顶级网站的结构和组成。