当你面对大型网站可能遇到的数千个潜在问题时,你从哪里开始?这是我们在重建Web爬行时试图解决的问题。答案几乎完全取决于你的网站,可能需要深入了解它的历史和目标,但我想概述一个SEO过程,可以帮助你减少噪音并开始使用它。简单的操作有时是危险的。为什么?在此之前,我们尝试将网站开头的每个问题标记为高、中、低优先级。这个简单的方法可能有用,但我们发现不可能做到这一点,您可能想知道我们为什么要放弃它。
首先,网站优化元素的优先级取决于你的意图。如果搜索引擎正在搜索网站,误解你的意图可能会导致糟糕的结果,从混乱到灾难性的结果。例如,我们在moz上雇佣了一个全新的seoer,发现了以下问题:站点上同时有将近35000个noindex标签?如果我们使用搜索引擎优化工具快速删除这些标签,那么网站本身就会受到很大的伤害,而不是意识到大多数这些指令都是故意的。我们可以使我们的系统更智能,但他们不理解,所以我们需要对错误警报保持谨慎。
其次,优先级问题并不能帮助您了解这些问题的性质或如何解决它们。我们现在将Web爬行分为四种描述类型:历史数据问题重定向问题元数据问题内容问题按类型分类可以使您获得更多的SEO技术。
最终帮助你发现问题只是第一步。我们希望能更好地帮助你解决这个问题。从爬行动物的严重问题开始,这并不意味着一切都是主观的。有些问题会阻止爬虫(不仅仅是我们的,还有搜索引擎)到达您的页面。我们将这些“关键爬虫问题”分为第一类,目前包括5xx个错误、4xx个错误和重定向到4xx。如果您突然出现5xx错误,您需要知道很少有人故意将其重定向到404。在整个网络爬虫界面中,您将看到一个突出显示的严重爬虫问题:找到红色警报图标以快速找到关键问题。
首先,解决这些问题。如果你不能抓取页面,那么其他所有的抓取程序的问题都无法解决,这对SEO来说是非常糟糕的。2。在解决你的技术SEO问题中,平衡问题的流行度,我们也必须平衡问题的严重性和数量。如果不了解您的网站,我会说404错误可能值得在复制内容之前解决-但是如果您有11个404和17843重复页呢?你的优先事项突然变得很不一样了。我们已经为您做了一些SEO数据分析,以通过问题的普遍性提高紧迫性。这需要一些关于优先权的假设,但是如果您的时间有限,我们希望为您提供解决几个关键问题的至少一个快速起点。
解决多页问题的另一个优势是解决大容量问题。在许多情况下,您可以一次修复数百(甚至数千)页。这是一个更战术的方法来节省你很多时间和金钱。
因此,我们可以通过URL过滤来解决网络爬行的问题:我可以很快看到这些页面占392页,我缺乏描述,高达43%。如果我担心这个问题,也许我可以通过一个相当简单的CMS页面来解决它,用几行代码消除数百个问题。在不久的将来,我们希望为您做一些分析,但是如果过滤不能做到这一点,您也可以将任何问题列表导出到csv。然后,旋转并过滤你心脏的内容。
通过PA和爬行深度进入页面。如果你找不到清晰的模式,或者你已经解决了一些主要问题,下一步是什么?如果您知道这些URL很重要,那么一次解决数千个问题是值得的。幸运的是,您现在可以按照页面权限(PA)和Web爬行中的爬行深度进行排序。PA是我们排名能力的内部指标(主要由链接权重决定),爬行深度是页面和主页之间的距离:在这里,我可以看到我们的Mozbar网站中的重定向链,这是一个非常高的特权页面。这可能是一个值得解决的问题,即使它不是一个明显的、更大的组织的一部分。