什么是重复内容

重复的内容:SEO优化实践中应该避免的问题

重复内容的定义是指与其他地方的内容完全一样的内容。然而,重复内容一词也可以指几乎完全相同的内容(例如只是换了一个产品、品牌名称或地点名称)。

仅仅换掉几个字并不一定能使一个页面免于被视为重复内容,作为回应,你的有机搜索表现会出现负面效果。

重复内容也是指在你的网站上的多个网页或在两个或多个独立网站上的内容是相同的。然而,有许多方法可以防止或尽量减少重复内容的影响,可以通过技术修复来处理。

在本指南中,我将深入研究重复内容的原因,避免重复内容的最佳方法,以及如何确保竞争对手无法复制你的内容并声称自己是原创者。

重复内容的影响

用重复内容创建的页面可能会在搜索引擎结果中导致几个后果,有时甚至会受到惩罚。最常见的重复内容问题包括:

  • 在SERP中显示错误版本的页面
  • 关键页面在SERP中意外表现不佳或遇到索引问题。
  • 核心网站指标(流量、排名位置或E-A-T标准)的波动或下降。
  • 搜索引擎因混淆优先级信号而产生的其他意外行为。

虽然没有人知道哪些内容元素会被谷歌优先考虑和取消,但搜索引擎巨头一直建议站长和内容创建者’主要为用户而不是为搜索引擎制作页面’。

考虑到这一点,任何站长或SEO的出发点应该是创造独特的内容,为用户带来独特的价值。然而,这并不总是容易的,甚至是不可能的。诸如模板内容、搜索功能、UTM标签、信息共享或内容聚合等因素都可能充满了重复的风险。

要确保自己的网站不存在内容重复的风险,就需要结合清晰的架构、定期维护和技术理解,尽可能地打击重复内容的产生。

防止重复内容的方法

有许多不同的方法和策略来防止在你自己的网站上创建重复的内容,并防止其他网站从复制你的内容中获益。

分类法

作为一个起点,明智的做法是对你的网站的分类法做一个大致的了解。无论你有一个新的、现有的或修订的文档,从抓取中映射出页面,并分配一个独特的H1和焦点关键词是一个很好的开始。在主题群中组织你的内容可以帮助你制定一个深思熟虑的策略,限制重复。

规范标签

在打击自己网站上或多个网站上的内容重复方面,最重要的元素可能是Canonical标签。

rel=canonical元素是一段HTML代码,它向Google表明,即使在其他地方可以找到内容,发布者也拥有该内容。这些标签向搜索引擎表示一个页面的哪个版本是 “主版本”。

canonical标签可用于内容的印刷版与网页版、移动版和桌面版页面,或多个位置目标页面。它也可以用于任何其他存在源于主版本页面的重复页面的情况。

有两种类型的canonical标签,一种是指向一个页面的标签,另一种是指向远离一个页面的标签。那些指向另一个页面的,告诉搜索引擎,该页面的另一个版本是 “主版本”。

另一种是那些承认自己是主版本的,也称为自引用规范标签。引用规范标签是识别和消除重复内容的重要组成部分,自引用规范标签是一个良好的实践问题。

元标签

在分析网站上重复内容的风险时,另一个有用的技术项目是Meta robots和你目前从你的页面向搜索引擎发送的信号。

如果你想排除某个或某些页面被Google索引,并且不希望它们出现在搜索结果中,那么元机器人标签就很有用。

通过在页面的HTML代码中添加 “无索引 ”元机器人标签,你有效地告诉谷歌你不希望它显示在SERP上。这是比Robots.txt封锁更可取的方法,因为这种方法可以更精细地封锁特定的页面或文件,而Robots.txt通常是一个更大规模的工作。

虽然这个指令可以出于很多原因,但搜索引擎会理解这个指令,并且应该将重复的页面从SERP中排除。

参数处理

URL参数表示如何有效和高效地抓取网站给搜索引擎。参数经常会造成内容重复,因为它们的使用会创建一个页面的副本。例如,如果同一产品有几个不同的产品页面,就会被Google认为是重复内容。

然而,参数处理有利于更有效、更高效地抓取网站。对搜索引擎的好处是经过验证的,他们避免产生重复内容的决议也很简单。特别是对于大型网站和具有集成搜索功能的网站,通过Google Search Console和Bing Webmaster Tools采用参数化处理非常重要。

通过在相应的工具中标明参数化的页面,并向Google发出信号,可以让搜索引擎清楚地知道这些页面不应该被抓取,以及如果有的话,应该采取什么额外的行动。

重复的URL

一些结构性的URL元素会导致网站上的重复问题。其中很多是由于搜索引擎对URL的认知方式造成的。如果没有其他指令或指示,不同的URL总是意味着不同的页面。

这种不清晰或无意的错误信号如果不解决,会造成网站核心指标(流量、排名位置或E-A-T标准)的波动或下降。正如我们已经介绍过的,由搜索功能、跟踪代码和其他第三方元素引起的URL参数会导致一个页面的多个版本被创建。

URL重复版本最常见的方式包括。网页的HTTP和HTTPS版本,www.和非www,以及带尾部斜杠和不带斜杠的网页。

在www.与非www.以及尾部斜线与非尾部斜线的情况下,你需要确定网站上最常用的版本,并在所有页面上坚持使用这个版本,以避免重复的风险。此外,应该设置重定向,直接指向应该被索引的页面版本,消除重复的风险,例如,mysite.com > www.mysite.com.

另一方面,HTTP URL代表了一个安全问题,因为HTTPS版本的页面会使用加密(SSL),使页面安全。

重定向

重定向对于消除重复的内容非常有用。从另一个页面重复的页面可以被重定向并反馈到页面的主版本。

如果你的网站上有一些流量大或链接价值高的页面与另一个页面重复,重定向可能是解决这个问题的一个可行的选择。

当使用重定向删除重复内容时,有两件重要的事情要记住:始终重定向到性能较高的页面,以限制对网站性能的影响,如果可能的话,使用301重定向。如果你想了解更多关于实施哪些重定向的信息,请查看我们的301重定向指南。

如果我的内容被违背我的意愿复制了怎么办?

如果你的内容被复制,而你没有使用规范标签来表示你的内容是原创的,你应该怎么做?

使用 Search Console 来确定你的网站被索引的频率。

联系负责复制你的内容的网站的站长,要求认证或删除。

在所有创建的新内容上使用自引用规范标签,以确保您的内容被认可为信息的 “真正来源”。

重复内容审查

避免重复内容,首先要注重为你的网站创造独特的优质内容;然而,避免别人抄袭你的风险的做法可能会更复杂。避免重复内容问题最安全的方法是仔细思考网站结构,并将用户及其旅程集中在网站上。当由于技术因素而发生内容重复时,所涉及的策略应该可以减轻你的网站的风险。

在考虑重复内容的风险时,重要的是向谷歌发出正确的信号,将你的内容标记为原始来源。特别是当你的内容被联合起来,或者你发现你的内容之前已经被其他来源复制时,更是如此。

根据重复的方式,你可以采用一种或多种策略来确定内容具有原始来源,并将其他版本识别为重复。