A Experiência Generativa de Pesquisa do Google (SGE) estava programada para expirar como uma experiência do Google Labs no final de 2023, mas o seu tempo como experiência foi discretamente prolongado, deixando claro que a SGE não vai chegar à pesquisa num futuro próximo. Surpreendentemente, deixar a Microsoft assumir a liderança pode ter sido a melhor abordagem, talvez não intencional, para a Google.
A Google anunciou a extensão do SGE quase como uma reflexão tardia no final de uma publicação no blogue sobre as novas funcionalidades de IA que estão a ser adicionadas à pesquisa.
Este é o menção nua e crua do SGE:
“O lançamento desta semana de informações baseadas em IA para pesquisas múltiplas é o resultado dos testes que iniciámos no ano passado para ver como a IA gen pode tornar a pesquisa radicalmente mais útil, com o SGE in Search Labs. Recebemos muitos comentários úteis de pessoas que optaram por participar nesta experiência e continuaremos a oferecer o SGE in Labs como um banco de ensaio para novas ideias arrojadas.”
Esta declaração foi seguida de um incentivo para experimentar a SGE.
Ficou por explicar porque é que a Google não coloca a IA em primeiro plano, permitindo que a Microsoft e a seis empresas de pesquisa com IA financiadas por capital de risco para assumir a liderança na criação da próxima geração de pesquisa. Hoje, esse mistério está resolvido e podemos agora compreender por que razão a Google está a atrasar-se na pesquisa de IA.
A estratégia de IA da Google para a pesquisa
A decisão da Google de manter o SGE como um projeto do Google Labs enquadra-se na tendência mais ampla da história da Google de preferir integrar a IA em segundo plano.
A presença da IA nem sempre é evidente, mas faz parte da Pesquisa Google em segundo plano há mais tempo do que a maioria das pessoas imagina.
1. RankBrain 2015
A primeira utilização da IA na pesquisa foi como parte do algoritmo de classificação do Google, um sistema conhecido como RankBrain. O RankBrain ajudou os algoritmos de classificação a compreender como as palavras nas consultas de pesquisa se relacionam com conceitos do mundo real.
“Quando lançámos o RankBrain em 2015, foi o primeiro sistema de aprendizagem profunda implementado na Pesquisa. Na altura, foi inovador… O RankBrain (como o nome sugere) é utilizado para ajudar a classificar – ou decidir a melhor ordem para – os principais resultados de pesquisa.”
2. Correspondência Neural 2018
Outra implementação foi Correspondência Neural que ajudou os algoritmos do Google a compreender conceitos mais amplos em consultas de pesquisa e páginas Web.
3. SpamBrain 2018
SpamBrain, a IA de combate ao spam da Google é provavelmente uma das mais importantes implementações de IA como parte do algoritmo de pesquisa da Google, porque ajuda a eliminar sítios de baixa qualidade.
4. Google MUM 2021
E um dos sistemas de IA mais conhecidos que a Google lançou é o Multitask Unified Model, também conhecido como Google MUM. O MUM é um sistema de IA multimodal que engloba a compreensão de imagens e texto e é capaz de os colocar nos contextos escritos numa frase ou numa consulta de pesquisa.
Conclusão: A Google implementou a IA em segundo plano
Todos estes são exemplos da abordagem da Google à utilização da IA em segundo plano para resolver diferentes problemas na pesquisa como funcionalidades, por vezes como parte do Algoritmo Principal.
É provável que a Google tenha continuado a utilizar a IA em segundo plano até que os modelos de linguagem de grande porte (LLMs) baseados em transformadores pudessem passar para o primeiro plano.
Mas a Microsoft integração do ChatGPT no Bing forçou a Google a tomar medidas para adicionar a IA de uma forma mais visível com a sua Experiência Geradora de Pesquisa (SGE).
Porque é que a SGE ainda não está pronta para sair do Google Labs?
Considerando que a Microsoft integrou o ChatGPT no Bing, pode parecer curioso que a Google não tenha dado um passo semelhante e esteja a manter o SGE no Google Labs. Há boas razões para a abordagem da Google.
Um dos princípios orientadores da Google para a utilização da IA é utilizá-la apenas quando a tecnologia tiver provado ser bem sucedida e for implementada de uma forma em que se possa confiar para ser responsável, e estas são duas coisas de que a IA generativa não é capaz atualmente.
Há pelo menos três grandes problemas que têm de ser resolvidos antes de a IA poder ser integrada com êxito no primeiro plano da pesquisa:
- As LLM não podem ser utilizadas como um sistema de recuperação de informação, porque precisam de ser completamente reconvertidas para poderem acrescentar novos dados. .
- A arquitetura do transformador é ineficiente e dispendiosa.
- A IA generativa tende a criar factos errados, um fenómeno conhecido como alucinação.
Porque é que a Google mantém o SGE no Google Labs
A Google creditou o feedback que recebeu sobre o SGE no Google Labs pela introdução de duas novas funcionalidades baseadas em IA. Nesta altura, o SGE tem valor para a Google como forma de testar novas funcionalidades, mas não como um ensaio para uma nova versão da pesquisa.
Há vários problemas difíceis de resolver que explicam por que razão a SGE, na sua forma atual, não pode ser a próxima geração de pesquisa de IA.
Porque é que a IA não pode ser utilizada como motor de pesquisa
Um dos problemas mais importantes a resolver antes de a IA poder ser utilizada como backend e frontend de um motor de pesquisa é o facto de os LLM não poderem funcionar como um índice de pesquisa onde são continuamente adicionados novos dados.
Em termos simples, o que acontece é que, num motor de pesquisa normal, a adição de novas páginas Web é um processo em que o motor de pesquisa calcula o significado semântico das palavras e frases no texto (um processo chamado “incorporação”), o que as torna pesquisáveis e prontas para serem integradas no índice.
Posteriormente, o motor de busca tem de atualizar todo o índice para compreender (por assim dizer) onde as novas páginas Web se encaixam no índice de pesquisa global.
A adição de novas páginas Web pode alterar a forma como o motor de busca entende e relaciona todas as outras páginas Web que conhece, pelo que percorre todas as páginas Web no seu índice e actualiza as suas relações entre si, se necessário. Esta é uma simplificação para comunicar o sentido geral do que significa adicionar novas páginas Web a um índice de pesquisa.
Em contraste com a tecnologia de pesquisa atual, os LLM não podem acrescentar novas páginas Web a um índice, porque o ato de acrescentar novos dados exige uma reciclagem completa de todo o LLM.
A Google está a investigar a forma de resolver este problema para criar um motor de pesquisa LLM baseado em transformadores, mas o problema não está resolvido, nem de perto.
Para compreender por que razão isto acontece, é útil dar uma olhadela rápida a um documento de investigação recente da Google que tem como co-autores Marc Najork e Donald Metzler (e vários outros co-autores). Menciono os seus nomes porque ambos os investigadores estão quase sempre associados a alguns dos trabalhos de investigação mais importantes da Google. Por isso, se tiver o nome de algum deles, então a investigação é provavelmente muito importante.
Na explicação que se segue, o índice de pesquisa é referido como memória porque um índice de pesquisa é uma memória do que foi indexado.
O documento de investigação tem o título: “DSI++: Atualização da memória do transformador com novos documentos” (PDF)
A utilização de LLMs como motores de pesquisa é um processo que utiliza uma tecnologia designada por Índices de Pesquisa Diferenciáveis (DSIs). A atual tecnologia de índices de pesquisa é referenciada como um codificador duplo.
O documento de investigação explica:
“… a construção de índices utilizando um DSI envolve o treino de um modelo Transformer. Por conseguinte, o modelo tem de ser novamente treinado a partir do zero sempre que o corpus subjacente é atualizado, incorrendo assim em custos computacionais proibitivamente elevados em comparação com os codificadores duplos.”
O documento continua a explorar formas de resolver o problema dos LLMs que “esquecem”, mas no final do estudo afirmam que apenas fizeram progressos no sentido de compreender melhor o que precisa de ser resolvido em investigação futura.
Concluem:
“Neste estudo, exploramos o fenómeno do esquecimento em relação à adição de documentos novos e distintos no indexador. É importante notar que quando um novo documento refuta ou modifica um documento previamente indexado, o comportamento do modelo torna-se imprevisível, exigindo uma análise mais aprofundada.
Além disso, examinamos a eficácia do nosso método proposto num conjunto de dados maior, como o conjunto de dados MS MARCO completo. No entanto, vale a pena notar que, com este conjunto de dados maior, o método apresenta um esquecimento significativo. Como resultado, é necessária investigação adicional para melhorar o desempenho do modelo, particularmente quando se lida com conjuntos de dados de maior escala.”
Os LLMs não podem verificar os seus próprios factos
A Google e muitas outras empresas estão também a investigar várias formas de fazer com que a IA verifique os factos por si própria, de modo a evitar dar informações falsas (designadas por alucinações). Mas, até agora, essa investigação não está a fazer progressos significativos.
A experiência do Bing com a IA em primeiro plano
O Bing seguiu um caminho diferente ao incorporar a IA diretamente na sua interface de pesquisa numa abordagem híbrida que juntou um motor de pesquisa tradicional com um frontend de IA. Este novo tipo de motor de pesquisa renovou a experiência de pesquisa e diferenciou o Bing na competição pelos utilizadores de motores de pesquisa.
A integração da IA do Bing criou inicialmente um burburinho significativo, atraindo utilizadores intrigados com a novidade de uma interface de pesquisa orientada para a IA. Isto resultou num aumento do envolvimento dos utilizadores do Bing.
No entanto, após quase um ano de agitação, a quota de mercado do Bing registou apenas um aumento marginal. Relatórios recentes, incluindo um da Boston Globeindicam um crescimento inferior a 1% na quota de mercado desde a introdução do Bing Chat.
A estratégia da Google é validada em retrospetiva
A experiência do Bing sugere que a IA no primeiro plano de um motor de busca pode não ser tão eficaz como se esperava. O modesto aumento da quota de mercado levanta questões sobre a viabilidade a longo prazo de um motor de pesquisa baseado em conversação e valida a abordagem cautelosa da Google de utilizar a IA em segundo plano.
O facto de a Google privilegiar a IA como pano de fundo da pesquisa é justificado à luz do fracasso do Bing em fazer com que os utilizadores abandonem o Google pelo Bing.
A estratégia de manter a IA em segundo plano, onde neste momento funciona melhor, permitiu à Google manter os utilizadores enquanto a tecnologia de pesquisa com IA amadurece no Google Labs, onde deve estar.
A abordagem do Bing de utilizar a IA em primeiro plano serve agora quase como um conto de advertência sobre as armadilhas de apressar o lançamento de uma tecnologia antes de os benefícios serem totalmente compreendidos, fornecendo informações sobre as limitações dessa abordagem.
Ironicamente, a Microsoft está a encontrar melhores formas de integrar a IA como tecnologia de fundo, sob a forma de funcionalidades úteis adicionadas aos seus produtos de escritório baseados na nuvem.
Futuro da IA na pesquisa
O estado atual da tecnologia de IA sugere que esta é mais eficaz como ferramenta de apoio às funções de um motor de pesquisa do que como back e front ends completos de um motor de pesquisa ou mesmo como uma abordagem híbrida que os utilizadores se recusaram a adotar.
A estratégia da Google de lançar novas tecnologias apenas depois de terem sido completamente testadas explica porque é que a Experiência Geradora de Pesquisa pertence ao Google Labs.
É certo que a IA irá assumir um papel mais arrojado na pesquisa, mas esse dia não é definitivamente hoje. Espere ver a Google a adicionar mais funcionalidades baseadas em IA a mais dos seus produtos e não será surpreendente ver a Microsoft a continuar nesse caminho também.
Veja também: Google SGE e IA generativa na pesquisa: O que esperar em 2024
Imagem em destaque por Shutterstock/ProStockStudio