Sites de spam com IA superam a atualização de spam de março de 2024 do Google

Enquanto os sítios Web honestos sofreram os altos e baixos da atualização de março de 2024 do Google, os SEO e os bloggers de receitas repararam que os sítios de spam com IA subiram ao topo dos resultados de pesquisa. Um exemplo, ontem, foi classificado para mais de 217 mil consultas, 14,9 mil das quais estão entre as 10 primeiras – e esse número aumentou um dia depois. Isto é o que se está a passar e como os spammers continuam a vencer o Google.

Surto em março de 2024

O site que está a ser classificado é um subdomínio. O domínio principal existe desde o verão de 2020. O subdomínio com spam foi detectado pela primeira vez pelo Internet Archive em 30 de novembro de 2022, coincidentemente a data de lançamento do ChatGPT. O subdomínio estava meio acabado e essencialmente adormecido até março de 2024, altura em que se expandiu rapidamente e começou imediatamente a classificar-se para milhares de consultas de pesquisa.

Na quarta-feira, 20 de março, o sítio estava classificado em 14,9 mil consultas de pesquisa no top 10. Quinta-feira, 21 de março, o site tinha 15,6 mil no top 10. Embora o Google tenha acabado de concluir a sua atualização de spam, este site em particular (e outros semelhantes) continua a ser classificado para milhares de consultas de pesquisa e o Google parece impotente para os impedir.

Escritor de comida reage ao spam de IA

Escritora de gastronomia e autora de livros de receitas, Robin Donovan (Instagram), chamou-me a atenção para o site de IA, dizendo-me que outras pessoas num grupo privado do Facebook estavam furiosas com o facto de os sites de IA estarem a surgir nas pesquisas de receitas.

É muito óbvio que o conteúdo é gerado por IAaté as imagens que acompanham os artigos são 100% de IA. Por isso, é especialmente doloroso para aqueles que têm experiência, conhecimentos e autoridade verem conteúdos obviamente gerados por IA ultrapassarem-nos.

Robin ficou compreensivelmente aborrecida:

“Como é que isto é o melhor conteúdo? E, entretanto, os bloguistas que são chefes com formação profissional, criadores de receitas, autores de livros de cozinha e outros com décadas de formação e experiência estão a ver os seus sites serem dizimados com estas actualizações. Sites que passaram anos a construir com artigos bem pesquisados e bem escritos (escritos por humanos!), receitas que foram desenvolvidas profissionalmente e cuidadosamente testadas, fotografias que passaram horas a preparar e a fotografar.

Fizeram tudo o que o Google lhes disse para fazer durante anos – escrever o seu próprio conteúdo, tirar as suas próprias fotografias, desenvolver receitas únicas e de alta qualidade, ser um especialista na sua área temática e ter credenciais para o demonstrar, não tentar enganar o sistema, ser genuíno, criar conteúdo ÚTIL. Para quê?”

Detalhes sobre os sites de spam

1. Hospedado no Squarespace

O site de spam está num subdomínio e tanto o subdomínio como o site principal estão alojados no Squarespace. Porquê o Squarespace? É só um palpite, mas talvez essa infraestrutura tenda a parecer legítima para o Google (ou pode não ter importância).

2. Todas as imagens são coloridas e simples

Todas as imagens são geradas por IA, criadas num estilo plano e colorido semelhante ao que pode ser visto numa infografia, indicando que foi utilizado um modelo para criar os milhares de imagens que acompanham os artigos.

As imagens são um componente importante dos artigos. Cada artigo apresenta cerca de sete imagens relacionadas com o tópico geral do artigo. Cada artigo contém um arco-íris de cores. Não sei se as imagens são intencionalmente brilhantes e coloridas, mas a utilização de cores fortes é uma boa escolha estratégica para as imagens, porque se destacam nos SERPs, Google Discover e em Google SGE.

Carreguei uma das imagens para o ChatGPT e pedi-lhe que gerasse um pedido baseado na imagem para criar uma nova imagem no mesmo estilo.

Aqui está um exemplo de uma imagem gerada por IA no mesmo estilo dos sítios de spam com IA:

Exemplo de uma imagem gerada por IA utilizada por um sítio de spam

Relacionado: Para além da SEO: John Mueller sobre imagens geradas por IA

3. Todos os artigos seguem um modelo rígido

Os artigos seguem uma estrutura de modelo, que varia consoante o tipo de artigo. Os tópicos dos artigos vão desde comparações, viagens a destinos locais, estilo de vida, receitas, benefícios para a saúde de determinados alimentos, etc.

Os artigos relacionados com a saúde seguem esta estrutura de modelo:

a. Introdução
Introduza o conceito de tópico que está a ser discutido e a sua relevância para um tópico específico relacionado com a saúde. O tópico concetual pode ser um alimento específico, um tipo de dieta, etc.

b. Benefícios para a saúde
Após a introdução, cada um discute os benefícios para a saúde associados ao tópico concetual.

c. Fundamentos
Esta secção aborda os conceitos básicos do tópico de saúde que está a ser focado (saúde oral, diabetes…), a importância da nutrição e os problemas ou doenças comuns associados ao tópico de saúde.

d. Orientação nutricional e nutrientes-chave

e. Escolhas alimentares e impacto na saúde

f. Dicas e conselhos sobre o estilo de vida

g. Um resumo dos benefícios

4. Motivo subjacente aos artigos gerados por IA

Eu estava curioso para saber como seria um prompt que gerasse esse conteúdo, então pedi ao ChatGPT para criar um.

Este é um prompt generalizado que poderia ter sido usado para criar os artigos sobre saúde e dieta:

“Escreva um artigo que explore a ligação entre [concept of dietary choice] e [specific health focus], seguindo o modelo abaixo:

a. Introdução: Comece por introduzir o conceito de [concept of dietary choice], a sua definição e porque é que é relevante para [specific health focus].
Discuta a sua crescente popularidade e a forma como se alinha com as tendências actuais em matéria de saúde e estilo de vida.

b. Benefícios para a saúde:

Explique os benefícios gerais para a saúde associados a [concept of dietary choice], centrando-se no seu potencial para melhorar [specific health focus].

c. Fundamentos de [Health Topic]:

Forneça um historial sobre o [specific health focus], incluindo a anatomia essencial, o significado da nutrição e as condições prevalecentes que afectam este aspeto da saúde.

d. Nutrientes-chave e seu impacto:

Detalhe os nutrientes cruciais que desempenham um papel significativo em [specific health focus], incluindo as suas fontes e os benefícios para a saúde que oferecem. Destaque a importância de certas vitaminas, minerais e outros compostos.

e. Influência das escolhas alimentares:

Analise de que forma as escolhas dietéticas específicas são influenciadas por [concept of dietary choice] podem ter impacto [specific health focus], positiva ou negativamente. Recomende alimentos benéficos e desaconselhe certos tipos que podem ser prejudiciais [specific health focus].

f. Conselhos práticos sobre alimentação e estilo de vida:

Ofereça sugestões práticas para integrar alimentos benéficos na sua dieta e fazer ajustes no estilo de vida para apoiar [specific health focus]. Isto pode incluir dicas sobre a preparação de refeições, controlo de porções e equilíbrio de diferentes tipos de alimentos.

g. Um prompt para usar para gerar uma conclusão:

Conclua o artigo resumindo como adotar [concept of dietary choice] pode contribuir para melhorar [specific health focus].
Sublinhe o equilíbrio e a variedade de nutrientes que esta abordagem proporciona e os seus potenciais benefícios para além de [specific health focus]. Assegure-se de que o artigo fornece uma visão geral abrangente que é simultaneamente informativa e cativante, atendendo aos leitores interessados em compreender a relação entre [concept of dietary choice] e [specific health focus].”

5. Conteúdo testado por ferramentas de verificação de IA

O que é estranho nestes artigos é que todos os artigos que testei com Detetor de conteúdo GPTZero AI obteve 100% de resultados gerados por IA. O Verificador de conteúdos Originality.AI apresentou resultados semelhantes.

Captura de ecrã da pontuação do GPTZero

Captura de ecrã da pontuação do Originality.AI

Os modelos do Squarespace são profissionais e os artigos em si têm um estilo seco que é informativo, mas carece de sinais de autoria humana, como expressões de perceção ou experiência e uma ausência completa de coloquialismos. Todos os artigos testados falharam nos testes de deteção de IA.

Relacionado: Software de deteção de conteúdos gerados por IA: Conseguem detetar o ChatGPT?

6. Como é que os sites de spam com IA são classificados?

A minha hipótese é que a razão pela qual estes sites de spam são classificados é que estão a tirar partido de uma lacuna nos algoritmos do Google que permite que novos conteúdos recebam um impulso inicial, o que John Mueller, do Google, descreveu como o Google a testar o site ou as páginas web. Isto acontece a toda a hora e entusiasma as pessoas quando publicam um novo site e o vêem a ser classificado quase de imediato.

O que está a acontecer com este sítio Web gerado por IA é que está a publicar grandes quantidades de páginas Web todos os dias e essas páginas recebem um impulso para o topo das páginas de resultados dos motores de busca (SERPs) durante as primeiras 24 a 48 horas. Depois, começam a descer para as dez primeiras e, eventualmente, para as segundas páginas das SERPs, mas, nessa altura, há novas páginas a começar essa viagem desde o impulso inicial, todos os dias. Esta é uma estratégia clássica da velha escola conhecida como “churn and burn”.

John Mueller comentou no passado sobre por que razão o Google classifica os novos sítios Web no topo dos resultados de pesquisa.

Ele explicou:

“Em particular, no caso de sítios Web completamente novos, uma das dificuldades que temos é o facto de podermos não ter muitos sinais para esses sítios, pelo que temos de fazer estimativas.

E, dependendo da forma como fazemos as estimativas, isso pode por vezes significar que, no início, mostramos este sítio Web de forma um pouco mais visível do que aquilo que os sinais nos dizem no final.

… Mas isso pode acontecer nos dois sentidos. Pode ir no sentido de lhe ser mostrado de forma muito visível no início.

E também pode ser que talvez seja mostrado de forma menos visível no início e, à medida que compreendemos o seu sítio Web e a forma como se enquadra no resto da Web, podemos ajustar isso.

… Por vezes, são também novos sítios Web que aparecem e que tentamos identificar muito rapidamente”.

7. O spam de IA é um problema antigo do Google

O Google tem um problema de longa data com sites gerados por IA que dominam certos resultados de pesquisa e esta não é a primeira vez que Google foi dominado por spam. Este sítio de spam não é o único e não é um caso isolado.

Suspeito que a correção das lacunas que permitem a ocorrência deste spam tem provavelmente consequências indesejadas que afectam negativamente os sítios não spam e é por isso que o Google ainda não as fechou ao longo de todos estes anos.

Mas a Google tem de fazer algo a este respeito, porque afecta os autores especializados quando os seus sites são ultrapassados por conteúdos não humanos que carecem de conhecimentos e experiência. Se não for para o bem dos editores, será para o seu próprio bem, porque o público em geral já tem a perceção de que o Google não consegue resolver o seu problema de spam.

O que torna este exemplo digno de nota é o facto de ter sido publicado em simultâneo com a atualização de spam do Google e de ter passado incólume por ela, mostrando o seu nariz ao Google. É uma experiência humilhante e desmoralizadora para os milhares de blogueiros que fazem a coisa certa, apenas para ver os trapaceiros serem recompensados mais uma vez.

Veja também: O algoritmo do Google odeia conteúdos com IA? Como fazer com que o Google o adore

Imagem em destaque por Shutterstock/ViDI Studio