【谷歌 SEO】排查页面未索引问题：原因与解决方案

你在谷歌网站SEO优化时是否遇到以下情况？

为什么，即使我已经正确地编写了站点地图并将其链接到客户的网站，并且我已经检查了所有内容，但我是否在某些文章（不是所有文章）上遇到索引问题，即使在向 Google 和 Google Search Console 重复请求之后也是如此。

接下来我们跟着这个疑问来进行分析出现这种情况是什么情况导致以及我们如何来做优化。

它肯定没有索引吗？

首先要检查的是页面是否真的没有被索引，或者只是排名不好。

可能是该页面显示未编入索引，因为您找不到您认为的相关关键字的页面。但是，这并不意味着它没有索引。

出于这个问题的目的，我将就如何处理这两种情况提供建议。

可能是什么问题？

页面可能未被 Google 编入索引或未在 Google 上排名靠前的原因有很多。让我们讨论一下主要的。

技术问题

由于技术原因，包括错误和有意识的决定，可能会阻止 Googlebot 访问您的网页并将其编入索引。

机器人被阻止在 robots.txt 中

谷歌需要能够访问页面的内容，才能理解该页面的价值，并最终将其作为相关查询的搜索结果呈现。

如果谷歌爬虫（Googlebot）通过 robots.txt 文件被阻止访问这些页面，这可能就是它未对这些页面进行索引的原因。

从技术上讲，它仍然可以索引无法访问的页面，但无法确定页面的内容，因此必须依赖外部信号（如反向链接）来判断其相关性。

如果无法爬取页面，即使通过站点地图知道该页面存在，它仍会降低该页面排名的可能性。

页面无法呈现

以类似的方式，如果机器人可以爬网页面但无法呈现内容，它可能会选择不为它编制索引。它肯定不太可能对页面进行很好的排名，因为它无法读取页面的内容。

页面有无索引标签

一个明显但经常被忽视的问题是 noindex 标签已应用于页面。这实际上会指示 Googlebot 不要将页面编入索引。

这是一项指令，即 Googlebot 致力于颁布的指令。

服务器级机器人阻止

您的服务器级别可能存在问题，导致 Googlebot 无法抓取您的网页。

很可能在您的服务器或 CDN 级别设置了规则，导致 Googlebot 无法再次抓取您的网站并发现这些新网页。

当不精通 SEO 的团队负责网站的技术维护时，这可能是一个非常普遍的问题。

非 200 服务器响应代码

您添加到站点地图的页面很可能会返回一个服务器状态代码，这会让 Googlebot 感到困惑。

例如，如果某个网页返回 4XX 代码，尽管您能够看到该网页上的内容，但 Googlebot 可能会确定该网页不是实时网页，因此不会将其编入索引。

加载缓慢页面

可能是您的网页加载速度非常慢。因此，对其质量的感知可能会降低。

也可能是它们加载时间太长，以至于机器人不得不优先考虑它们抓取的页面，以至于您的新页面无法被抓取。

页面质量

网站本身的内容也存在问题，可能会阻止页面被索引。

低内部链接表明低价值页面

Google 确定某个页面是否值得排名靠前的方法之一是通过指向该页面的内部链接。您网站上页面之间的链接既可以表示所链接到的页面的内容，也可以表示该页面是否是您网站的重要组成部分。内部链接很少的页面可能看起来不够有价值，无法排名靠前。

页面不会增加价值

页面未被 Google 索引的主要原因之一是它被认为质量不够高。

谷歌不会尽可能抓取和索引每个页面。谷歌将优先考虑独特、引人入胜的内容。

如果您的页面很薄，或者没有真正为互联网增加价值，那么它们可能不会被索引，即使它们在技术上可以被索引。

它们是重复的或接近重复的

同样，如果 Google 认为您的页面与现有页面完全相同或非常接近重复版本，它很可能不会为您的新页面编制索引。

即使您已通过将网页包含在 XML 站点地图中并使用自引用规范标签来表明该网页是唯一的，Google 仍会自行评估某个网页是否值得编入索引。

手动操作

您的网页也可能因受到人工干预而未被谷歌收录。

例如，如果您试图让谷歌索引的页面被其视为“内容薄弱的联盟页面”，您可能无法为这些页面获得排名，因为它们可能受到了人工处罚。

人工干预相对罕见，通常会影响整个网站的更广泛区域，但建议您查看搜索控制台的“人工干预报告”以排除这一可能性。

确定问题

了解问题的原因只是成功的一半。让我们看看如何缩小问题范围，然后如何解决它。

检查 Bing 网站管理员工具

我的第一个建议是检查您的页面是否在 Bing 中编入索引。

您可能在 SEO 策略中不太关注 Bing，但这是一种快速确定这是否是以 Google 为中心的问题，例如手动作或排名不佳，而不是您网站上阻止页面被索引的内容。

转到 Bing 网站管理员工具并在其 URL 检查工具中输入页面。从这里，您将看到 Bing 是否正在为页面编入索引。如果是，那么您就知道这只会影响 Google。

查看 Google Search Console 的“页面”报告

接下来，转到 Google Search Console。检查页面，看看它是否真的被标记为未编入索引。如果它没有被索引，谷歌应该解释原因。

例如，页面可能是：

被“Noindex”排除

如果 Google 在网页上检测到 noindex 标记，则不会将其编入索引。在网址检查工具结果下，它会告诉您“网页未编入索引：被’noindex’标签排除”

如果您的网页得到此结果，下一步就是移除 noindex 标记，然后重新提交要由 Googlebot 抓取的网页。

Discovered – Currently Not Indexed

检查工具可能会告诉您“page is not indexed: Currently not indexed”。

如果是这种情况，您肯定知道这是一个索引问题，而不是排名不佳的问题，它导致您的页面没有出现在 Google 搜索中。

谷歌解释说，显示为“Discovered – Currently Not Indexed”的 URL 是：

“The page was found by Google, but not crawled yet. Typically, Google wanted to crawl the URL but this was expected to overload the site; therefore Google rescheduled the crawl. This is why the last crawl date is empty on the report.”

如果您看到此状态，则 Google 很可能已经查看了您网站上的其他页面，并认为它们不值得添加到索引中，因此，它不会花费资源抓取它所知道的这些其他页面，因为它希望它们的质量很低。

要解决此问题，您需要表明网页的质量以及与 Googlebot 的相关性。是时候批判性地审视您的网站并确定 Google 是否认为您的页面质量低的原因了。

Crawled – Currently Not Indexed

如果您检查的网页返回“Crawled – Currently Not Indexed”状态，则表示 Google 知道该网页，已抓取该网页，但认为将其添加到索引中没有价值。

如果您收到此状态代码，您最好寻找提高页面质量的方法。

重复，Google 选择的规范与用户不同

您可能会看到已检查的网页的提醒，告知您此网页是“重复，Google 选择的规范与用户不同”。

这意味着它会将 URL 视为现有页面的紧密重复项，并且它选择要在 SERP 中显示的另一个页面而不是被检查的页面，尽管您已经正确设置了规范标签。

鼓励 Google 在 SERP 中显示这两个页面的方法是确保它们是唯一的，有足够的内容，以便对读者有用。

从本质上讲，您需要给 Google 一个将这两个页面都编入索引的理由。

解决问题

尽管您的页面可能由于一种或多种原因而未被索引，但修复方法都非常相似。

网站可能存在技术问题，例如错误的规范标签或robots.txt块，导致无法正确抓取和索引页面。

或者，页面的质量存在问题，这导致 Google 认为它没有足够的价值来编入索引。

首先查看潜在的技术原因。这些将帮助您快速确定这是否是您或您的开发人员可以更改的“快速”修复程序。

一旦排除了技术问题，您很可能正在关注质量问题。

根据您现在认为导致页面未出现在 SERP 中的原因，可能是页面本身存在质量问题，或者您网站的大部分存在质量问题。

如果是前者，请考虑 E-E-A-T、页面在互联网范围内的独特性，以及如何表示页面的重要性，例如通过相关的反向链接。

如果是后者，您可能希望运行内容审核，以帮助您缩小提高整个网站质量的整体感知的方法。

总结

需要进行一些调查来确定您的页面是否真的没有被索引，或者 Google 是否只是选择不对您认为相关的查询进行高排名。

一旦确定了这一点，您就可以开始了解影响您的页面的是技术问题还是质量问题。

这是一个令人沮丧的问题，但修复是非常合乎逻辑的，调查应该有望揭示更多改进网站抓取和索引的方法。