OTTO 是荷兰最大的在线百货商店之一。OTTO 拥有超过 160,000 种商品,包括 women、男装、童装、多媒体、家居、家用和花园用具,顾客几乎可以在 OTTO 找到家里和周围的一切。 OTTO.

由于产品种类繁多,必须随时更新,因此 data 的结构合理和所有流程的顺畅运行至关重要。OTTO 在其网站上提供的信息不断变化,这会影响搜索引擎的有机搜索结果。因此,网站的变更可能会对搜索引擎优化得分产生巨大但也是灾难性的影响。为了获得竞争优势,必须对准确的产品描述、库存、价格等进行良好监督,以确保 OTTO 在有机搜索关键字上继续保持良好的得分。.

为了跟踪网站的健康状况并及早发现与搜索引擎优化相关的问题,OTTO 希望有一个内部监控系统来长期跟踪信息。带着这个问题,他们找到了 Artefact。.

我们监测系统的先决条件

在与 OTTO 讨论了这一挑战之后,我们对监控系统提出了几项要求。它必须

  • 能够每周检索最新的 data;;
  • 可自动运行;;
  • 能够处理大量 data 文件;;
  • 防 GDPR 和安全存储 data;;
  • 对 data 的检索对象、检索内容、检索地点和检索时间以及 data 的访问权限进行全面控制;;
  • 一个清晰的仪表盘,可为搜索引擎优化专家和普通人显示即时变化;;
  • 检测到重大错误时,能够显示推送通知。.

如果监测系统能满足所有这些要求,最终就能将网站错误率从 10% 降至 5%。.

解决方案:内部爬虫

我们很快发现,爬虫是满足我们需求的最佳解决方案。爬虫是一种对网站技术健康状况进行自动研究(即爬行)的算法。爬行的结果会以清晰的仪表盘显示出来,可以作为一种战略工具来监控和改进技术方面以及网站内容。尽管 OTTO 已经使用了爬虫,但现有的爬虫并不能满足我们的所有要求。因此,我们决定建立自己的爬虫,完全由 OTTO 负责,为我们提供最新的见解,帮助提高搜索引擎优化得分。该爬虫必须绘制网站上出现错误(4XX 和 5XX 状态代码)的位置,以便快速跟踪和处理这些错误。.

要优化网站的可抓取性,就必须迅速获知错误。爬虫每周的自动审核有助于识别和纠正死链接和缺失页面等错误,其中自动化是最重要的部分。自动化工具和脚本可以快速解决问题,而这是人工无法实现的。此外,它还能节省 OTTO 的时间和成本。.

实施步骤

我们采取了几个步骤来构建爬虫,其中一些步骤非常有用,而另一些步骤则不太有用。我们将重点介绍其中最重要的几个步骤:

  • 第一步是让整个搜索引擎优化团队获得谷歌颁发的 ‘谷歌云认证云数字领导者 ’证书。.

  • 获得认证后,我们深入谷歌云,测试了不同的服务器配置(大量存储+较少内存,或较少存储+大量内存)和界面(图形用户界面、无头),以优化效率。.

  • 第一次工作验证完成后,我们开始测试 BigQuery 连接,以便在 LookerStudio 中创建仪表盘。第一次测试很成功,但在可扩展性方面还需要改进和提高。我们与 Data Engineering 和 Data Analytics 团队一起建立了一个概念验证,以检查建立我们自己的爬虫的可行性。其中最重要的因素是 data 的可扩展性和精确性。.

  • 接下来,我们在 data 中添加了类别过滤器和额外字段,以便生成易于理解和下载的概览,供搜索引擎优化专家和非专业人士使用。.

  • 最后,我们基于 Screaming Frog 模板建立了一个清晰的仪表盘。.

在几分钟内改善点击率和网站错误率

该爬虫刚刚在 OTTO 网站上发布,并开始收集 data 数据。尽管爬虫运行时间不长,但我们还是有一些初步结果可以与大家分享。.

取得的成果

  • 检测出约 130.000 个错误/遗漏/过短或过长的元标题和描述,解决这些问题后,点击率得以提高;;
  • 50% 减少 4XX 页;;
  • 404 URL 的百分比从 6.6% 降至 3%;;
  • 深度≥6 的无索引 URL 数量已从 6200 减少到 0。.

预期成果

  • 改进网站地图;;
  • 通过规范标签和内部链接减少竞争 URL 的数量;;
  • 减少正在进行规范化的索引 URL 的数量;;
  • 改进内部链接结构;;
  • 优化标题长度,防止同一页面上出现重复或多个标题;;
  • 网页速度优化;;
  • 孤页优化。.

为爬行器设定的先决条件已全部满足。该爬虫的最大优势在于,它完全归 OTTO 所有,data 不再需要人工批量检索,从而节省了大量时间。此外,我们还可以完全控制爬虫的工作内容、访问权限以及 data 的存储位置,以符合 GDPR 要求。.