Google: Alterar URLs em sites maiores leva tempo para ser processado

Alguém no Reddit fez uma pergunta sobre como fazer uma alteração em todo o site no código relacionado a um site com dez idiomas. John Mueller, do Google, ofereceu conselhos gerais sobre as armadilhas das alterações em todo o site e falou sobre a complexidade (implicando o valor da simplicidade).

A pergunta estava relacionada com hreflang, mas a resposta de Mueller, por ser de carácter geral, tinha um valor mais alargado para SEO.

Aqui está a pergunta que foi feita:

“Estou a trabalhar num sítio Web que contém 10 línguas e 20 códigos de cultura. Digamos que o blog-abc foi publicado em todas as línguas. As etiquetas hreflang em todas as línguas estão a apontar para a versão do blog-abc com base na língua. Para en, pode ser en/blog-abc

Fizeram uma atualização da página em inglês e o URL foi atualizado para blog-def. A etiqueta hreflang na página do blogue em inglês para en será actualizada para en/blog-def. No entanto, isto não será atualizado dinamicamente no código fonte de outras línguas. Eles continuarão a apontar para en/blog-abc. Para atualizar as etiquetas hreflang noutras línguas, teremos de as republicar também.

Como estamos a tentar tornar as páginas tão estáticas quanto possível, pode não ser uma opção atualizar as etiquetas hreflang dinamicamente. As opções que temos são atualizar as etiquetas hreflang periodicamente (digamos, uma vez por mês) ou mover as etiquetas hreflang para o mapa do sítio.

Se achar que existe outra opção, isso também será útil.”

Alterações em todo o site levam muito tempo para serem processadas

Recentemente, li uma coisa interessante num artigo de investigação que me fez lembrar as coisas que John Mueller disse sobre o tempo que o Google demora a perceber que as páginas actualizadas se relacionam com o resto da Internet.

O artigo de investigação mencionava como as páginas Web actualizadas exigiam o recálculo do semântica dos significados semânticos das páginas Web (os embeddings) e depois faça o mesmo para o resto dos documentos.

Eis o que o documento de investigação (PDF) fala de passagem sobre a adição de novas páginas a um índice de pesquisa:

“Considere o cenário realista em que novos documentos são continuamente adicionados ao corpus indexado. A atualização do índice em métodos baseados em codificadores duplos requer a computação de embeddings para novos documentos, seguida da re-indexação de todos os embeddings de documentos.

Em contrapartida, a construção de índices utilizando um DSI envolve a formação de um modelo de transformador. Por conseguinte, o modelo tem de ser novamente treinado a partir do zero sempre que o corpus subjacente é atualizado, incorrendo assim em custos computacionais proibitivamente elevados em comparação com os codificadores duplos.”

Menciono esta passagem porque em 2021 John Mueller disse-o pode levar meses para o Google avaliar a qualidade e a relevância de um site e mencionou como o Google tenta compreender a forma como um sítio Web se enquadra no resto da Web.

Eis o que ele disse em 2021:

“Penso que é muito mais complicado quando se trata de questões relacionadas com a qualidade em geral, em que avaliar a qualidade global e a relevância de um sítio Web não é muito fácil.

Demora muito tempo a perceber como é que um sítio Web se enquadra em relação ao resto da Internet.

E isso é algo que pode facilmente levar, sei lá, alguns meses, meio ano, às vezes até mais de meio ano, para reconhecermos mudanças significativas na qualidade geral do sítio.

Porque, essencialmente, estamos atentos a … como é que este sítio Web se enquadra no contexto da Web em geral e isso leva muito tempo.

Por isso, eu diria que, em comparação com as questões técnicas, demora muito mais tempo a atualizar as coisas nesse aspeto.”

Essa parte sobre a avaliação de como um sítio Web se enquadra no contexto da Web em geral é uma declaração curiosa e invulgar.

O que ele disse sobre o enquadramento no contexto da Web global soou surpreendentemente semelhante ao que o documento de investigação disse sobre como o índice de pesquisa “requer o cálculo de embeddings para novos documentos, seguido da re-indexação de todos os embeddings de documentos.”

Aqui está Resposta de John Mueller no Reddit sobre o problema de atualizar muitos URLs:

“Em geral, alterar URLs em um site maior levará tempo para ser processado (e é por isso que gosto de recomendar URLs estáveis… alguém disse uma vez que URLs legais não mudam; acho que não se referiam a SEO, mas também para SEO). Não creio que nenhuma destas abordagens altere significativamente esse facto.”

O que é que Mueller quer dizer quando afirma que as grandes mudanças levam tempo a ser processadas? Poderá ser semelhante ao que disse em 2021 sobre a avaliação do sítio Web novamente em termos de qualidade e relevância. Essa parte da relevância também pode ser semelhante ao que o documento de investigação diz sobre computing embeddings”, que está relacionado com a criação de representações vectoriais das palavras numa página Web como parte da compreensão do significado semântico.

Veja também: Pesquisa Vetorial: Otimização para a mente humana com aprendizagem automática

A complexidade tem custos a longo prazo

John Mueller continuou a sua resposta:

“Uma questão mais metafórica pode ser se está a ver resultados suficientes desta configuração algo complexa para merecer gastar tempo a mantê-la desta forma, se pode abandonar a configuração hreflang ou se pode mesmo abandonar as versões de país e simplificar ainda mais.

A complexidade nem sempre agrega valor e traz consigo um custo a longo prazo.”

Criar sítios com o máximo de simplicidade possível é algo que faço há mais de vinte anos. Mueller tem razão. Torna as actualizações e renovações muito mais fáceis.

Imagem em destaque por Shutterstock/hvostik