Google的XML Sitemap错误是什么?

发布时间:2个月前热度: 208 ℃评论数:

Google的XML Sitemap错误是什么?


这个问题与Google如何处理和验证XML站点地图文件有关,特别是那些通过ping机制提交的文件。


站点地图可以通过robots.txt文件中的条目直接提交到Google Search Console,也可以通过将站点地图URL发送到Google提供的特殊端点来“ping”它们。


对于GSC和robots.txt条目,由于您已进入域的GSC或robots.txt文件,这些显然被认证为真正的,但对于ping网址,Google似乎仅仅通过查看域中的域名来决定它们是否值得信赖您发送的网址。


问题是,如果此网址重定向到其他地方,甚至是不同的网域,Google仍然会将其视为属于该原始网址。


因此,举例来说,我可能会提交apples.com/sitemap.xml的网站地图网址,但该网址可能会重定向到oranges.com/sitemap.xml,但Google仍然会将该XML网站地图关联为属于apples.com。


什么是开放重定向?

许多网站屈服于一种称为“开放重定向”的操作形式,攻击者可以欺骗网站将其重定向到他们选择的位置。


一个例子可能是具有登录机制的网站,其格式为apples.com/login.php?continue=/shop,可能被操纵为apples.com/logout.php?continue=http://evil.com /。


在我的研究中,我发现在Facebook,LinkedIn,Tesco和其他一些网站(我已经报道了所有这些,许多已经修复)的开放重定向。


为了说明它们的广泛程度,Google的漏洞奖励计划明确排除了开放的重定向,作为符合条件的奖励(实际上Google已知有公开的重定向)。


这使得有机会通过合法站点上的开放重定向来ping站点地图,该站点将重定向到攻击者站点上托管的XML文件。


例如,通过在网址apples.com/logout.php?continue=http://evil.com/sitemap.xml中提交站点地图,Google会将其视为apples.com的真实站点地图,但它实际上会在evil.com上托管。


此时,evil.com可以提交apples.com的站点地图,并通过在这些站点地图中包含hreflang条目,它可以利用apples.com的权益(PageRank)对搜索结果进行排名,但它没有合法的权利。


你是受害者,现在是否超过?

自消息公开以来,我有不少地方的搜索引擎优化专业人士向我询问,要求我回顾一下他们的案例,担心他们可能是此事的受害者,或者询问这是否是竞争对手能够超越的原因他们。


我当然可以理解为什么。


尝试理解为什么其他网站对你的排名非常好,或者为什么你的网站突然在性能上出现低谷,有时会让人感到非常沮丧。


对这些边缘案例进行解释肯定是有吸引力的。


到目前为止,我还没有看到任何让我相信这个bug在野外被利用的东西。


谷歌是一个复杂的野兽,可能有各种解释为什么某些网站排名的方式,但目前我仍然相信,这个错误是其中之一。


如果您担心这是您的受害者,那么它唯一留下的真正足迹就是您的服务器日志中的一条记录,显示Googlebot来到您的网站以收集站点地图并将3xx重定向到另一个域(JavaScript和元刷新重定向将不起作用)。


这是你可以检查的最好的东西。


在我的实验中,我经常重新检查站点地图,但即使没有重复,我相信Google总是会通过开放式重定向进行访问,所以您应该在服务器日志中看到条目。


这会改变关于XML站点地图的任何内容吗?

是。当hreflang条目将被使用时它会改变。


Google将不再关注“未验证的站点地图”中的hreflang条目,我相信这意味着通过ping网址提交的条目。


那些在Google Search Console或robots.txt文件中提交的内容仍然可以像以往一样运行,并且ping这些站点地图中的一个以提示从Google重新抓取也会按预期工作。


我预计这种变化会影响很少的网站,但您应该意识到这一点。


结论

我的推荐:通过GSC界面提交站点地图,并将其包含在您的robots.txt中。


如果您是一个特别受到刮板攻击的网站,无论出于何种原因,那么您可能希望从robots.txt文件中排除站点地图条目,以便恶劣行为者无法找到它们并使用它们来加速其工作。

浏阳网络推广

手机扫码访问