搜索引擎都喜欢原创内容,Google也是这样,然而没有谁能保证网站里头的资讯全都是原创文章,而且没有和别人存在重复的可能性,很多人就开始担心网站会被Google降权、惩罚。
重复内容是互联网上常态
首先互联网的世界就是充责着很多很多的重复内容。有些针对重复内容研究说 20% – 30% 左右。例如:
·当某网页引用其他网站的内容时,不免会重复对方网页上的一些内容。
·又例如:当 Donald Trump 赢出成为美国总统,很多媒体都可能是直接抄袭引用官方的生平简介。
·网店很多时候亦会出现重复内容。例如:相同的产品描述出现在该产品页和产品分类下的该产品页。只要 URL 网址不同搜寻引擎就可能看成不同的页面。
·更普遍的例子是同一网站支援加密连线 HTTPS 和非加密连线 HTTP , 由于 HTTP 和 HTTPS 被搜寻引擎看作不同网址,所以亦可看作重复内容。
什么是搜索引擎惩罚
搜寻引擎是不会简单对有重复内容的网页惩罚处理。
所谓的惩罚是指搜索引擎将网站页面从索引资料库抽走,导致搜索用户不可能从搜索查询结果中找到该页面。
再进一步,搜索引擎可能将网站的全部页面从索引资料库里抽走,导致用户无法找到该网站的任何网页。
搜索引擎发现网页或网站涉及不当的认为操控搜索排名,而将网页原因有的排名下调,亦一般被视作搜索引擎惩罚。
内容有重复但是没有被惩罚是不是就没事了?
Google没有惩罚并不代表它们喜欢重复内容。搜索引擎的作用是给用户提供多样性的搜索结果,重复的内容对Google给搜索用户提出的查询给出相同的答案,只是网址不同,内容却几乎类似。
所以搜索引擎只会从相同答案中选择各方面综合最好的一个网址放在搜索排名结果页面,其他相同的答案被筛走,而这个筛走的结果尝尝被误解为搜索引擎惩罚。
一般只有当网站的内容都是大量简单搬运其他网站的,而对于用户毫无价值并且目标是操控SEO排名时,搜索引擎才会引入惩罚。
重复内容,可以出现在网内或外部网站
网站内重复内容更多情况是影响搜寻排名的质量评分。搜寻引擎亦会对搜寻排名结果进行就质量进行过滤,这是以前 Panda 搜寻算法更生做的工作,自Panda 4.2 已经整合在搜寻引擎的算法内。可视作为搜寻引擎认为:Query Deserves Quality.所以如果将相同一段内容在同一网页上重复很多次,质量评分和用户体验都自然下降,不利搜寻排名。
网站内重复内容最大的伤害是:如果是本身网站内的网页内容重复,你希望就目标关键字是用网页 A 排名,而搜寻引擎可能觉得重复内容网页 B更适合,并使用网页 B 在 SERP 结果。这就是 cannibalization 问题。
检查重复内容
网站太多重复内容不利搜寻排名。搜寻引擎会觉得网站质量不好。有些工具例如:siteliner 可以帮助检查重复内容。
其他网站抄袭内容
重复内容最大的伤害更多时候是其他网站抄袭你的内容而导致搜寻引擎因为 QDD 筛走你的原创内容而不是抄袭者的内容。
你当然可以通过 DMAC 请求 Google 采取行动,例如:将抄袭者的网页从索引资料库中移走或者将抄袭者的网页资量大幅降分。
了解搜寻引擎从一篮子相同内容但不同网址中以什麽条件筛选最好网页,可能有助你跳过冗长 DMAC 上诉程序将抄袭者击败。
其中一个条件当然是网站权威性。原创性不是搜寻引擎的主要考虑,所以发布日期更先者不一定被筛选出来,有可能是因为搜寻引擎认为后发布者可能对内容有所改进而值得被筛选出来。