Porque é que o Google SGE está preso no Google Labs e o que se segue

A Experiência Generativa de Pesquisa do Google (SGE) estava programada para expirar como uma experiência do Google Labs no final de 2023, mas o seu tempo como experiência foi discretamente prolongado, deixando claro que a SGE não vai chegar à pesquisa num futuro próximo. Surpreendentemente, deixar a Microsoft assumir a liderança pode ter sido a melhor abordagem, talvez não intencional, para a Google.

A Google anunciou a extensão do SGE quase como uma reflexão tardia no final de uma publicação no blogue sobre as novas funcionalidades de IA que estão a ser adicionadas à pesquisa.

Este é o menção nua e crua do SGE:

“O lançamento desta semana de informações baseadas em IA para pesquisas múltiplas é o resultado dos testes que iniciámos no ano passado para ver como a IA gen pode tornar a pesquisa radicalmente mais útil, com o SGE in Search Labs. Recebemos muitos comentários úteis de pessoas que optaram por participar nesta experiência e continuaremos a oferecer o SGE in Labs como um banco de ensaio para novas ideias arrojadas.”

Esta declaração foi seguida de um incentivo para experimentar a SGE.

Ficou por explicar porque é que a Google não coloca a IA em primeiro plano, permitindo que a Microsoft e a seis empresas de pesquisa com IA financiadas por capital de risco para assumir a liderança na criação da próxima geração de pesquisa. Hoje, esse mistério está resolvido e podemos agora compreender por que razão a Google está a atrasar-se na pesquisa de IA.

A estratégia de IA da Google para a pesquisa

A decisão da Google de manter o SGE como um projeto do Google Labs enquadra-se na tendência mais ampla da história da Google de preferir integrar a IA em segundo plano.

A presença da IA nem sempre é evidente, mas faz parte da Pesquisa Google em segundo plano há mais tempo do que a maioria das pessoas imagina.

1. RankBrain 2015

A primeira utilização da IA na pesquisa foi como parte do algoritmo de classificação do Google, um sistema conhecido como RankBrain. O RankBrain ajudou os algoritmos de classificação a compreender como as palavras nas consultas de pesquisa se relacionam com conceitos do mundo real.

De acordo com o Google:

“Quando lançámos o RankBrain em 2015, foi o primeiro sistema de aprendizagem profunda implementado na Pesquisa. Na altura, foi inovador… O RankBrain (como o nome sugere) é utilizado para ajudar a classificar – ou decidir a melhor ordem para – os principais resultados de pesquisa.”

2. Correspondência Neural 2018

Outra implementação foi Correspondência Neural que ajudou os algoritmos do Google a compreender conceitos mais amplos em consultas de pesquisa e páginas Web.

3. SpamBrain 2018

SpamBrain, a IA de combate ao spam da Google é provavelmente uma das mais importantes implementações de IA como parte do algoritmo de pesquisa da Google, porque ajuda a eliminar sítios de baixa qualidade.

4. Google MUM 2021

E um dos sistemas de IA mais conhecidos que a Google lançou é o Multitask Unified Model, também conhecido como Google MUM. O MUM é um sistema de IA multimodal que engloba a compreensão de imagens e texto e é capaz de os colocar nos contextos escritos numa frase ou numa consulta de pesquisa.

Conclusão: A Google implementou a IA em segundo plano

Todos estes são exemplos da abordagem da Google à utilização da IA em segundo plano para resolver diferentes problemas na pesquisa como funcionalidades, por vezes como parte do Algoritmo Principal.

É provável que a Google tenha continuado a utilizar a IA em segundo plano até que os modelos de linguagem de grande porte (LLMs) baseados em transformadores pudessem passar para o primeiro plano.

Mas a Microsoft integração do ChatGPT no Bing forçou a Google a tomar medidas para adicionar a IA de uma forma mais visível com a sua Experiência Geradora de Pesquisa (SGE).

Porque é que a SGE ainda não está pronta para sair do Google Labs?

Considerando que a Microsoft integrou o ChatGPT no Bing, pode parecer curioso que a Google não tenha dado um passo semelhante e esteja a manter o SGE no Google Labs. Há boas razões para a abordagem da Google.

Um dos princípios orientadores da Google para a utilização da IA é utilizá-la apenas quando a tecnologia tiver provado ser bem sucedida e for implementada de uma forma em que se possa confiar para ser responsável, e estas são duas coisas de que a IA generativa não é capaz atualmente.

Há pelo menos três grandes problemas que têm de ser resolvidos antes de a IA poder ser integrada com êxito no primeiro plano da pesquisa:

  1. As LLM não podem ser utilizadas como um sistema de recuperação de informação, porque precisam de ser completamente reconvertidas para poderem acrescentar novos dados. .
  2. A arquitetura do transformador é ineficiente e dispendiosa.
  3. A IA generativa tende a criar factos errados, um fenómeno conhecido como alucinação.

Porque é que a Google mantém o SGE no Google Labs

A Google creditou o feedback que recebeu sobre o SGE no Google Labs pela introdução de duas novas funcionalidades baseadas em IA. Nesta altura, o SGE tem valor para a Google como forma de testar novas funcionalidades, mas não como um ensaio para uma nova versão da pesquisa.

Há vários problemas difíceis de resolver que explicam por que razão a SGE, na sua forma atual, não pode ser a próxima geração de pesquisa de IA.

Porque é que a IA não pode ser utilizada como motor de pesquisa

Um dos problemas mais importantes a resolver antes de a IA poder ser utilizada como backend e frontend de um motor de pesquisa é o facto de os LLM não poderem funcionar como um índice de pesquisa onde são continuamente adicionados novos dados.

Em termos simples, o que acontece é que, num motor de pesquisa normal, a adição de novas páginas Web é um processo em que o motor de pesquisa calcula o significado semântico das palavras e frases no texto (um processo chamado “incorporação”), o que as torna pesquisáveis e prontas para serem integradas no índice.

Posteriormente, o motor de busca tem de atualizar todo o índice para compreender (por assim dizer) onde as novas páginas Web se encaixam no índice de pesquisa global.

A adição de novas páginas Web pode alterar a forma como o motor de busca entende e relaciona todas as outras páginas Web que conhece, pelo que percorre todas as páginas Web no seu índice e actualiza as suas relações entre si, se necessário. Esta é uma simplificação para comunicar o sentido geral do que significa adicionar novas páginas Web a um índice de pesquisa.

Em contraste com a tecnologia de pesquisa atual, os LLM não podem acrescentar novas páginas Web a um índice, porque o ato de acrescentar novos dados exige uma reciclagem completa de todo o LLM.

A Google está a investigar a forma de resolver este problema para criar um motor de pesquisa LLM baseado em transformadores, mas o problema não está resolvido, nem de perto.

Para compreender por que razão isto acontece, é útil dar uma olhadela rápida a um documento de investigação recente da Google que tem como co-autores Marc Najork e Donald Metzler (e vários outros co-autores). Menciono os seus nomes porque ambos os investigadores estão quase sempre associados a alguns dos trabalhos de investigação mais importantes da Google. Por isso, se tiver o nome de algum deles, então a investigação é provavelmente muito importante.

Na explicação que se segue, o índice de pesquisa é referido como memória porque um índice de pesquisa é uma memória do que foi indexado.

O documento de investigação tem o título: “DSI++: Atualização da memória do transformador com novos documentos” (PDF)

A utilização de LLMs como motores de pesquisa é um processo que utiliza uma tecnologia designada por Índices de Pesquisa Diferenciáveis (DSIs). A atual tecnologia de índices de pesquisa é referenciada como um codificador duplo.

O documento de investigação explica:

“… a construção de índices utilizando um DSI envolve o treino de um modelo Transformer. Por conseguinte, o modelo tem de ser novamente treinado a partir do zero sempre que o corpus subjacente é atualizado, incorrendo assim em custos computacionais proibitivamente elevados em comparação com os codificadores duplos.”

O documento continua a explorar formas de resolver o problema dos LLMs que “esquecem”, mas no final do estudo afirmam que apenas fizeram progressos no sentido de compreender melhor o que precisa de ser resolvido em investigação futura.

Concluem:

“Neste estudo, exploramos o fenómeno do esquecimento em relação à adição de documentos novos e distintos no indexador. É importante notar que quando um novo documento refuta ou modifica um documento previamente indexado, o comportamento do modelo torna-se imprevisível, exigindo uma análise mais aprofundada.

Além disso, examinamos a eficácia do nosso método proposto num conjunto de dados maior, como o conjunto de dados MS MARCO completo. No entanto, vale a pena notar que, com este conjunto de dados maior, o método apresenta um esquecimento significativo. Como resultado, é necessária investigação adicional para melhorar o desempenho do modelo, particularmente quando se lida com conjuntos de dados de maior escala.”

Os LLMs não podem verificar os seus próprios factos

A Google e muitas outras empresas estão também a investigar várias formas de fazer com que a IA verifique os factos por si própria, de modo a evitar dar informações falsas (designadas por alucinações). Mas, até agora, essa investigação não está a fazer progressos significativos.

A experiência do Bing com a IA em primeiro plano

O Bing seguiu um caminho diferente ao incorporar a IA diretamente na sua interface de pesquisa numa abordagem híbrida que juntou um motor de pesquisa tradicional com um frontend de IA. Este novo tipo de motor de pesquisa renovou a experiência de pesquisa e diferenciou o Bing na competição pelos utilizadores de motores de pesquisa.

A integração da IA do Bing criou inicialmente um burburinho significativo, atraindo utilizadores intrigados com a novidade de uma interface de pesquisa orientada para a IA. Isto resultou num aumento do envolvimento dos utilizadores do Bing.

No entanto, após quase um ano de agitação, a quota de mercado do Bing registou apenas um aumento marginal. Relatórios recentes, incluindo um da Boston Globeindicam um crescimento inferior a 1% na quota de mercado desde a introdução do Bing Chat.

A estratégia da Google é validada em retrospetiva

A experiência do Bing sugere que a IA no primeiro plano de um motor de busca pode não ser tão eficaz como se esperava. O modesto aumento da quota de mercado levanta questões sobre a viabilidade a longo prazo de um motor de pesquisa baseado em conversação e valida a abordagem cautelosa da Google de utilizar a IA em segundo plano.

O facto de a Google privilegiar a IA como pano de fundo da pesquisa é justificado à luz do fracasso do Bing em fazer com que os utilizadores abandonem o Google pelo Bing.

A estratégia de manter a IA em segundo plano, onde neste momento funciona melhor, permitiu à Google manter os utilizadores enquanto a tecnologia de pesquisa com IA amadurece no Google Labs, onde deve estar.

A abordagem do Bing de utilizar a IA em primeiro plano serve agora quase como um conto de advertência sobre as armadilhas de apressar o lançamento de uma tecnologia antes de os benefícios serem totalmente compreendidos, fornecendo informações sobre as limitações dessa abordagem.

Ironicamente, a Microsoft está a encontrar melhores formas de integrar a IA como tecnologia de fundo, sob a forma de funcionalidades úteis adicionadas aos seus produtos de escritório baseados na nuvem.

Futuro da IA na pesquisa

O estado atual da tecnologia de IA sugere que esta é mais eficaz como ferramenta de apoio às funções de um motor de pesquisa do que como back e front ends completos de um motor de pesquisa ou mesmo como uma abordagem híbrida que os utilizadores se recusaram a adotar.

A estratégia da Google de lançar novas tecnologias apenas depois de terem sido completamente testadas explica porque é que a Experiência Geradora de Pesquisa pertence ao Google Labs.

É certo que a IA irá assumir um papel mais arrojado na pesquisa, mas esse dia não é definitivamente hoje. Espere ver a Google a adicionar mais funcionalidades baseadas em IA a mais dos seus produtos e não será surpreendente ver a Microsoft a continuar nesse caminho também.

Veja também: Google SGE e IA generativa na pesquisa: O que esperar em 2024

Imagem em destaque por Shutterstock/ProStockStudio