O Google está usando uma tecnologia de aprendizagem de máquinas chamada RankBrain para ajudar a entregar os resultados das suas pesquisas

Surgiram notícias ontem de que o Google estava usando um sistema de inteligência artificial de aprendizagem da máquina chamado “RankBrain”, que o ajuda a classificar os resultados das suas pesquisas. Quer saber como isto funciona e como ele se encaixa no principal sistema de classificação do Google? Aqui está o que sabemos até o momento sobre o RankBrain.
As informações abordadas abaixo vêm de três fontes. A primeira fonte vem da Bloomberg story, que deu em outubro a notícia sobre o RankBrain. A segunda fonte são as informações adicionais que o Google forneceu diretamente ao Search Engine Land. A terceira fonte é do nosso próprio conhecimento e das melhores hipóteses de onde o Google não está fornecendo as respostas. Quando for necessário deixaremos claro onde cada uma destas fontes são utilizadas, além das informações genéricas.

O que é o RankBrain?

O RankBrain é o nome dado pelo Google para um sistema de inteligência artificial de aprendizagem da máquina, o qual é usado para ajudar a processar os resultados das suas pesquisas, como reportado pela Bloomberg e também confirmado pelo Google.

O que é uma Máquina que Aprende?

Uma Máquina que Aprende (Machine Learning) é identificada quando o computador ensina a si mesmo como fazer alguma coisa, em vez de ser instruído por humanos ou por programação detalhada.

O que é Inteligência Artificial?

A verdadeira Inteligência Artificial, ou IA, está onde o computador pode ser tão inteligente como os humanos são, pelo menos no senso de adquirir conhecimento por aprendizagem e por desenvolver o que já conhece, além de fazer novas conexões.
É claro que a verdadeira inteligência artificial existe apenas na ficção científica. Na prática a IA é utilizada para se referir a sistemas de computador que são desenhados para aprender e fazer conexões.
Qual a diferença entre a IA e a Máquina que Aprende? Nos termos do RankBrain, nos parece que são praticamente sinônimos. Você pode ouvir que ambos são usados sem distinção, ou você pode ouvir que a máquina que aprende é usada para descrever um tipo de método empregado pela inteligência artificial.

Então o RankBrain é a nova maneira do Google classificar os resultados das pesquisas?

Não. O RankBrain é parte do principal algoritmo de pesquisa do Google, um programa de computador que é usado para classificar as bilhões de páginas que ele conhece e de encontrar aquelas consideradas mais relevantes para pesquisas específicas.

Qual é o nome do algoritmo de pesquisa do Google?

faq2
Ele é chamado de Hummingbird, como reportado no passado. Por anos, este principal algoritmo não tinha um nome formal. Mas em meados de 2013 o Google reformulou aquele principal algoritmo e lhe atribuiu um nome, Hummingbird.

Então o RankBrain é parte do Hummingbird, o algoritmo de pesquisas do Google?

Este é o entendimento. O Hummingbird é o principal algoritmo de pesquisa, assim como um carro tem uma mecânica geral. A mecânica em si pode ser composta por várias partes, como o filtro do óleo, a bomba de gasolina, o radiador e por aí vai. Da mesma forma, o Hummingbird engloba várias partes, com o RankBrain sendo uma das suas mais recentes.
Nós sabemos em particular que o RankBrain é parte do algoritmo Hummingbird, porque o artigo da Bloomberg deixa claro que o RankBrain não supre todas as pesquisas, como apenas o algoritmo principal faria.
O Hummingbird também contém outras partes com nomes familiares àqueles da área do SEO, como o Panda, o Penguin e o Payday, que foram desenhados para lutarem contra spams; o Pigeon, que foi desenhado para melhorar as pesquisas locais; o Top Heavy, que foi desenhado para rebaixar as páginas com anúncios pesados; o Mobile Friendly, que foi desenhado para recompensar páginas amigáveis a mobile; e o Pirate, que foi desenhado para combater infrações contra direitos autorais.

Eu pensava que o algoritmo do Google se chamava “PageRank”

O PageRank é mais uma parte do algoritmo Hummingbird, o qual abrange um meio específico de atribuir créditos às páginas baseado nos apontamentos de links que outras páginas fazem a elas.
O PageRank é especial porque é o primeiro nome que o Google deu para uma das partes do seu algoritmo de classificação, de volta ao momento em que o mecanismo de pesquisa começou, em 1998.

E sobre estes ‘’sinais’’ que o Google usa para classificar?

Os sinais são as coisas que o Google usa para ajudar a determinar como classificar as páginas da Web. Por exemplo, ele lerá as palavras em uma página Web, então as palavras são um sinal. Se algumas palavras estiverem em negrito, isto pode ser outro sinal a ser notado. Os cálculos usados como parte do PageRank dão à página um ponto do PageRank que são usados como um sinal. Se uma página é notada como sendo amigável à mobiles, este é um outro sinal a ser registrado.
Todos esses sinais são processados por várias partes dentro do algoritmo Hummingbird para descobrir em análise quais as páginas que o Google mostra em resposta às várias pesquisas.

Quantos sinais existem?

O Google tem constantemente falado em possuir e avaliar mais de “200 sinais majoritários de classificação”, e que, por sua vez, podem ter até 10000 variações ou sub-sinais. É mais comum apenas dizer ‘’centenas’’ de fatores, como foi dito ontem no artigo da Bloomberg.
Se você quer um guia mais visual das classificações dos sinais, veja a Tabela Periódica dos Fatores de Sucesso do SEO:

faq3
Clique para ver ampliada. A Tabela Periódica dos Fatores de Sucesso do SEO. Conteúdo da Search Engine Land e Design da Column Five.

É um guia muito bom para os pontos gerais que os mecanismos de pesquisas como o Google usam para ajudar a classificar as páginas Web.

E o RankBrain é o terceiro sinal mais importante?

Isso mesmo. Do nada, este novo sistema se tornou o que o Google diz ser o terceiro fator mais importante para a classificação das páginas da Web. Do artigo da Bloomberg:
“O RankBrain é uma das “centenas” de sinais que entram em um algoritmo que determina quais resultados aparecerão nas pesquisas das páginas do Google e onde elas serão classificadas, diz Corrado. Isto foi implementado a poucos meses e o RankBrain se tornou o terceiro sinal mais importante, contribuindo para o resultado de uma pesquisa específica, diz ele.”

Quais são o Primeiro e o Segundo sinais mais importantes?

O Google não nos dirá quais são eles. E O Search Engine Land diz ter perguntado duas vezes.
O Google não explicará os dois mais importantes, o que é chato e sem dúvida um pouco ilusório. O artigo da Bloomberg não foi acidente. O Google quer uma certa fofoca sobre o que considera ser o seu avanço da máquina que aprende.
Mas para realmente estimar o seu avanço, seria útil conhecer os outros fatores mais importantes que o Google usa atualmente, assim como foi feito na sequência pelo RankBrain. É por isso que o Google deveria explicá-los.
A propósito, a opinião do Search Engine Land é que os links continuam sendo o sinal de maior importância; é a maneira encontrada pelo Google para contar os links na forma de votos. Isto também é um sistema terrivelmente velho, como foi defendido no artigo anterior do autor: Links: A ultrapassada  “urna de votos” usada pelo Google & Bing
Para o segundo sinal mais importante acredita-se que poderiam ser as “palavras”, onde elas abrangeriam tudo, desde as palavras na página, à como o Google as interpretaria quando as pessoas as introduzissem na caixa de pesquisa que excede o âmbito da análise do RankBrain.

O que exatamente o RankBrain faz?

Trocando e-mails com o Google, o Search Engine Land concluiu que o RankBrain é usado principalmente como uma maneira de interpretar as pesquisas que as pessoas enviam para encontrar páginas que podem não conter as mesmas palavras que foram pesquisadas.

O Google já não tinha maneiras de encontrar páginas além da pesquisa exata?

Sim, há muito que uma pesquisa no Google recupera páginas que excedem o âmbito dos termos usados. Por exemplo, a muitos e muitos anos atrás, se você pesquisasse algo como “sapato”, o Google não poderia encontrar páginas que dissessem “sapatos”, porque tecnicamente elas são duas palavras diferentes. Mas a “decorrência” permitiu que o Google ficasse mais inteligente, entendendo que sapatos é uma variação de sapato, assim como “correndo” é uma variação de “correr”.
O Google também adquiriu sinônimos mais inteligentes, se você procurasse por “tênis”, ele pode entender que você quis dizer “tênis de corrida”. Ele ainda adquiriu alguns conceitos, tal qual para entender que existem páginas sobre a companhia tecnológica “Apple” e sobre a fruta “apple”.

E sobre o Gráfico do Conhecimento?

O Gráfico do Conhecimento, lançado em 2012, foi uma maneira do Google crescer e ficar ainda mais inteligente em relação as conexões entre as palavras. Mais importante é que ele aprendeu a como procurar pelo “o que é pedido e não por sequências de letras”, como o Google descreveu.
Sequências de letras” significa simplesmente procurar por sequências de letras, assim como as páginas que correspondem a ortografia de “Obama”. Já “o que é pedido” quer dizer que o Google entende que quando alguém procura por “Obama” está provavelmente se referindo ao Barack Obama, presidente dos EUA, uma pessoa real que tem conexões com outras pessoas, lugares e pertences.
O Gráfico do Conhecimento é um banco de dados dos fatos sobre “o que é pedido” no mundo e em como elas se relacionam entre si. É por isso que você pode pesquisar “quando foi que a esposa do Obama nasceu” e receber a respostas sobre a Michele Obama como abaixo, sem ao menos usar o nome dela:
faq4

Como o RankBrain ajuda a refinar as pesquisas?

Os métodos que o Google já usa para refinar as pesquisas genéricas são o retorno de algum ser humano fazendo o seu trabalho em algum lugar, mesmo tendo criado listas de decorrências ou listas de sinônimos ou um banco de dados de conexões entre o que é pedido. Claro que tem uma certa automação envolvida. Mas no todo isso depende do trabalho humano.
O problema é que o Google processa três bilhões de pesquisas por dia. Em 2007, o Google disse que as pesquisas que nunca foram vistas estavam entre 20% e 25%. Em 2013, este número abaixou para 15%, o qual foi usado novamente em outubro no artigo da Bloomberg e que o Google confirmou em seguida. Mas ainda sim, 15% de três bilhões é um número gigantesco de pesquisas, o qual nunca antes foram pesquisadas por nenhum pesquisador humano – 450 milhões por dia.
Entre elas podem haver as complexas: pesquisas de palavras múltiplas, também chamadas pesquisas de “cauda longa”. O RankBrain foi desenhado para ajudar a melhorar a interpretação dessas pesquisas e traduzi-las de forma eficaz. Na prática, é uma maneira de encontrar as melhores páginas para o pesquisador.
O Google nos disse que pode ver padrões entre pesquisas complexas e aparentemente sem ligações, para entender como elas são similares umas às outras. Este aprendizado permite um melhor entendimento futuro das pesquisas complexas e se elas estão relacionadas a tópicos particulares. Do que o Google nos disse, o mais importante é que isso pode ser associado a esses grupos de pesquisas com os resultados que ele acredita serem os que os pesquisadores mais gostarão.
O Google não forneceu nem exemplos de grupos de pesquisas e nem detalhes de como o RankBrain adivinha quais são as melhores páginas. Mas o mais recente é que ele provavelmente pode traduzir uma pesquisa ambígua em algo mais específico, trazendo melhores resultados.

Que tal um exemplo?

Embora o Google não tenha fornecido os grupos das pesquisas, o artigo da Bloomberg tinha um exemplo simples de uma pesquisa que o RankBrain estava supostamente ajudando. Aqui está:
Qual o nome do consumidor de maior nível da cadeia alimentar
Para um leigo, como eu, “consumidor” soa como uma referência de alguém que compra algo. Contudo, ele também é um termo científico para algo que consome comida. Também existem níveis de consumidores na cadeia alimentar. Qual é aquele consumidor do topo? O título – o nome – é “predador”.
Inserindo aquela pesquisa no Google, ele providencia boas respostas, mesmo a pesquisa soando estranha:
faq5
Agora considere como os resultados são similares para uma pesquisa como “o maior nível da cadeia alimentar”, como mostrado abaixo:
faq6
Imagine que o RankBrain está conectando àquela longa e complicada pesquisa original para esta bem menor, o que provavelmente é mais comumente feito. Ele entende que elas são bem similares. Como consequência, o Google pode aproveitar tudo o que ele sabe sobre a obtenção de respostas para as pesquisas mais comuns e ajudar a melhorar o fornecimento das respostas menos comuns.
É necessário enfatizar que eu não existe a certeza se o RankBrain está conectando aquelas duas pesquisas. Apenas que o Google deu o primeiro exemplo. Esta é uma simples ilustração de como o RankBrain pode ser usado para conectar uma pesquisa incomum a uma mais comum, como forma de melhorar as coisas.

O Bing também pode fazer isso com o RankNet?

De volta a 2005, a Microsoft começou a usar o seu próprio sistema de aprendizagem da máquina, chamado RankNet, como parte do que se tornou hoje o motor de pesquisa Bing. De fato, o chefe de pesquisas e criador do RankNet foi recentemente premiado. Mas através dos anos a Microsoft quase não falou sobre o RankNet.
Você pode apostar que isto provavelmente mudará. Também é interessante que quando colocamos a pesquisa acima no Bing, a exemplo de como o RankBrain do Google é formidável, o Bing retorna bons resultados, incluindo uma listagem que o Google também retornou:
faq7
Uma pesquisa não significa que o RankNet do Bing é tão bom quanto o RankBrain do Google ou vice e versa. Infelizmente é realmente difícil chegar a uma lista dessas para fazer este tipo de comparação.

Mais algum exemplo?

O Google nos deu um exemplo fresco: “Quantas colheres de sopa vai em um copo?” O Google disse que o RankBrain recomendou resultados diferentes na Austrália em relação aos Estados Unidos para aquela pesquisa porque as medidas são diferentes em cada país, apesar do nome similar.
Ao testar pesquisando pelo Google.com e pelo Google Austrália. Não vimos muita diferença. Mesmo sem o RankBrain, os resultados seriam diferentes nessa pesquisa por causa do meio “antiquado” de favorecimento de conhecidas páginas australianas para os pesquisadores que usam o Google Austrália.

O RankBrain realmente ajuda?

Apesar dos dois exemplos acima serem nada menos do que o testemunho convincente da grandeza do RankBrain, ele provavelmente está ocasionando um grande impacto, como o Google alegou. A companhia é bastante conservadora com o que acontece dentro do algoritmo de classificação. Ela faz pequenos testes a todo o momento. Mas ela apenas faz grandes mudanças quando tem um grande nível de confiança.
Integrar o RankBrain ao nível que é supostamente o sinal de terceira maior importância é uma grande mudança. Acredita-se que o Google não faria isso sem que ele realmente acreditasse que isto estivesse ajudando.

Quando o RankBrain começou?

O Google diz que houve um lançamento gradual do RankBrain no início de 2015 e que ele tem sido totalmente ativo e global de alguns meses para cá.

Quais são as pesquisas impactadas?

O Google disse a Bloomberg que uma “fração muito grande” de pesquisas estão sendo processadas pelo RankBrain. O Search Engine Land pediu por uma descrição mais específica, mas nos foi dada a mesma afirmação da grande fração.

O RankBrain está sempre aprendendo?

O Google diz que tudo o que o RankBrain aprende é offline. São lhe dados lotes de pesquisas do histórico e ele aprende a fazer predições a partir delas.
Essas predições são testadas e se se provarem boas, então ativas na interpretação mais recente do RankBrain. Então o ciclo de aprender-e-testar-offline se repete.

O RankBrain faz mais que refinar pesquisas?

Normalmente, uma pesquisa é refinada como – estar entre decorrência, sinônimo ou agora o RankBrain – não sendo considerada um fator ou sinal de classificação.
Sinais são fatores típicos que estão amarrados ao conteúdo, como as palavras em uma página, os links que apontam à uma página, se a página está em um servidor seguro e por aí vai. Eles também podem estar amarrados a um usuário, como o local que o pesquisador está ou o seu histórico de pesquisa e navegação.
Então quando o Google diz que o RankBrain é o terceiro sinal de maior importância, isso significa que ele é um sinal de classificação? Sim. O Google confirmou que existe um componente onde o RankBrain está de alguma forma contribuindo para decidir a classificação de uma página.
Exatamente como? Existe algum tipo de “pontuação do RankBrain” que pode avaliar a qualidade? Talvez, mas parece que o RankBrain é muito mais algo que ajuda o Google a classificar melhor as páginas baseadas no conteúdo que elas têm. O RankBrain pode estar capacitado a resumir melhor uma página do que os sistemas já existentes do Google têm feito até então.
Ou não. O Google não diz nada além de que existe um componente de classificação envolvido.

Como aprender mais sobre o RankBrain?

O Google disse ao Search Engine Land quem quiser aprender mais sobre palavras “em vetor” – a forma em que as palavras e frases podem ser matematicamente conectadas – deveria checar este post do Google Open Source Blog – Learning the meaning behind words, que fala sobre como o sistema (que não é chamado de RankBrain no post) aprendeu o conceito de capitais de países apenas explorando as notícias dos artigos:
faq8
Existe um longo trabalho de pesquisa sobre isso aqui neste material em PDF: Distributed Representations of Words and Phrases and their Compositionality.
Você ainda pode brincar com seu próprio projeto de Máquina que Aprende usando a ferramenta do Google word2vec. Em adição o Google tem uma área inteira de documentos sobre a IA e a Máquina que Aprende, assim como a Microsoft.
Este texto foi traduzido do Search Engine Land.

Author

Uma pessoa curiosa. Nerd. Designer. Conheci o mercado de marketing digital a pouco mais de um ano e me apaixonei perdidamente pela área. Busco cada vez mais informações e formas de me aperfeiçoar na área, levando os meus conhecimentos de design e de programação para me tornar, cada vez mais, um profissional híbrido.

8 Comments

  1. Luiz, parabéns! Esse foi um excelente post. É difícil visualizar o tamanho de toda essa engenharia por trás dos motores de buscas (isso pq, acredito, nós, simples espectadores e usuários das tecnologias de pesquisa, só conseguimos “arranhar” o assunto, visto a quantidade de pesquisas e segredos sobre o desenvolvimento de novas tecnicas)

    • Luiz Felipe Reply

      Leandro, agradeço pelo comentário, o Google realmente é algo fascinante, mas bem misterioso, por isso acredito que disponibilizar este tipo de informação pode contribuir e muito para as pessoas que se dedicam à área.

  2. Excelente artigo. Mostra o tamanho do esforço dos gurus do SEO para colocar um site ou portal na primeira página. Mas para mim, ainda, o principal sinal do buscador é: “aquele site tem muitas pesquisas e visitas, precisamos tirá-lo dos resultados para que ele anuncie” (rs).
    Já fiz alguma pesquisas e no resultado a primeira posição era um site completamente sem conteúdo com a palavra chave no domíno.
    Acho que vale um artigo falando sobre qual o ponto máximo que as práticas de SEO atuais podem trazer retornos concretos e colocar seu site na primeira página.

    • Luiz Felipe Reply

      Olá Luiz, agradeço pelo comentário.
      Realmente é difícil de mensurar qual é o ponto máximo que podemos atingir com o SEO. O Google muda constantemente e nem sempre revela as suas informações. O que podemos fazer é ficarmos antenados às mudanças e continuar a testar, assim como trocar informações úteis com o pessoal que trabalha na área.
      Mas é válida a sua colocação do artigo, vou dar uma olhada.

  3. Excelente texto.. embora seja traduzido como fala… O trabalho de trazer para o português merece todo reconhecimento por que são informações muito relevantes..
    Parabens!!

    • Luiz Felipe Reply

      Olá Alejandro.
      Agradeço pelo reconhecimento, é realmente uma informação muito útil.
      Na tradução achei melhor manter o padrão de linguagem coloquial do autor do texto.
      Agradeço novamente

  4. Luiz,
    Quando falamos de inteligência, estamos tratando de um conceito fugidio, difícil de ser apreendido, difícil de ser definido, inclusive dentro da literatura científica da área neuropsicológica.
    No entanto, penso que o melhor que encontrei até o momento tem a ver com a simplificação da complexidade, na transformação do emaranhado de nós de rede em uma linha o mais reta possível.
    Acredito – e adianto que não sou da área de SEO, mas apenas um curioso de outra área de conhecimento – que no emaranhado de fatores que envolvem a qualidade de um site, do ponto de vista do usuário (e penso que este seja um dos principais objetivos estratégicos do Google – entregar valor aos usuários) a satisfação do usuário diante do conteúdo é fator-chave. E como se mede isto? Comentários vinculados ao conteúdo – como este que estou fazendo -, compartilhamento do conteúdo, backlinks coerentes, etc.. E isto tudo eu resumiria em algo como “nível social”, “socialização”, etc..
    Viajei demais? =)
    Luiz, meu caro, tenha certeza que teu artigo foi inspirador, você me fez pensar sobre SEO.
    Obrigado.

  5. Luiz Felipe Reply

    Olá João,
    Fico contente que tenha gostado. Foi um comentário bem interessante, me colocou a pensar também. Até onde podemos dizer que algo é inteligente? Acredito que esta resposta tenha diferentes pontos de vistas com diversas facetas de verdades.
    Sem dúvida nenhuma, o Google busca entregar conteúdo útil para os seus pesquisadores e obviamente que ele percebe quando um conteúdo é bom através da rede interação que os usuários dão a determinada página.
    Também viajo de vez quando hehe
    Agradeço pelo comentário

Write A Comment

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.