Um artigo de pesquisa recente do Google sobre respostas a perguntas longas ilustra como é difícil responder a perguntas que precisam de respostas mais longas e diferenciadas. Embora os pesquisadores tenham conseguido melhorar o estado da arte desse tipo de resposta a perguntas, eles também admitiram que seus resultados precisavam de melhorias significativas.

Eu li este artigo de pesquisa no mês passado, quando foi publicado e tenho sido quero compartilhá-lo porque ele se concentra em resolver uma lacuna na pesquisa que não é muito discutida.

Espero que você ache isso tão fascinante quanto eu!

O que os motores de busca acertam

Esta pesquisa se concentra em Resposta a perguntas de domínio aberto em formato longo , uma área em que o processamento de linguagem natural continua a ver melhorias.

Os mecanismos de pesquisa em que são bons é chamado de Resposta Factoid a Perguntas de Domínio Aberto ou simplesmente Resposta a Perguntas de Domínio Aberto.

Publicidade

Continue lendo abaixo

A resposta a perguntas de domínio aberto é uma tarefa em que um algoritmo responde com uma resposta para uma pergunta na lingua natural ge.

Qual é a cor do céu? O céu está azul.

Resposta a perguntas de formato longo (LFQA)

O documento de pesquisa afirma que formato longo A resposta a perguntas (LFQA) é importante, mas um desafio e o progresso em ser capaz de alcançar esse tipo de resposta a perguntas não está tão longe quanto a resposta a perguntas de domínio aberto.

De acordo com o artigo de pesquisa:

“A resposta de perguntas de formato longo de domínio aberto (LFQA) é um desafio fundamental no processamento de linguagem natural (PNL) que envolve a recuperação de documentos relevantes para um dada pergunta e usando-as para gerar uma resposta elaborada com o comprimento de um parágrafo.

Embora tenha havido um progresso recente notável na resposta a perguntas de domínio aberto (QA), onde uma frase curta ou entidade é suficiente para responder a pergunta, muito menos trabalho foi feito na área de resposta a perguntas de formato longo.

O LFQA é, no entanto, uma tarefa importante, especialmente porque fornece um ambiente de teste para medir a f atualidade dos modelos de texto generativos. Mas, os benchmarks atuais e as métricas de avaliação são realmente adequados para fazer progresso no LFQA? ”

Publicidade

Continue lendo abaixo

Respostas às perguntas do mecanismo de pesquisa

Respostas às perguntas por mecanismos de pesquisa normalmente consiste em um pesquisador fazendo uma pergunta e o mecanismo de pesquisa retornando um texto relativamente curto de informações.

Perguntas como “ Qual é o número de telefone da loja XYZ? ” é um exemplo de pergunta típica que os mecanismos de pesquisa são bons em responder, especialmente porque a resposta é objetiva e não subjetiva.

Responder a perguntas de formato longo é mais difícil porque as perguntas exigem respostas na forma de parágrafos, não curtas textos.

O Facebook também está trabalhando em respostas de perguntas de formato longo e apresentou soluções interessantes, como usar um subreddit de perguntas e respostas chamado Explain Like I’m 5 (um conjunto de dados chamado ELI5). O Facebook também admite que há mais trabalho a fazer. ( Apresentando respostas a perguntas de formato longo )

Exemplos de perguntas longas

Depois de ler esses exemplos de perguntas longas, ficará mais claro como fomos treinados pelos mecanismos de pesquisa para fazer um conjunto limitado de consultas. Pode até parecer chocante como nossas perguntas são quase infantis em comparação com as perguntas de formato longo.

O artigo de pesquisa do Google oferece estes exemplos de perguntas de formato longo:

  • O que se passa naquelas torres altas de propriedade de grandes bancos?
  • O que exatamente é fogo, em detalhes? Como a luz e o calor podem vir de algo que não podemos realmente tocar?
  • Por que a Grã-Bretanha e outros países do império inglês ainda se curvam aos monarcas? A que propósito real a rainha serve?

O Facebook oferece estes exemplos de perguntas longas:

  • Por que alguns restaurantes são melhores do que outros, se eles servem basicamente a mesma comida?
  • Quais são as diferenças entre corpos d’água como lagos, rios e mares?
  • Por que nos sentimos mais com o jet lag quando viajamos para o leste ?

Os pesquisadores são treinados para fazer perguntas curtas para Factoids?

O Google (e o Bing) têm dificuldade em responder a esses tipos de perguntas longas. Isso pode afetar sua capacidade de revelar conteúdo que fornece respostas complexas para perguntas complexas.

Talvez as pessoas não façam essas perguntas porque foram treinadas para não fazê-lo devido às respostas insatisfatórias. Mas se os mecanismos de pesquisa fossem capazes de responder a esses tipos de perguntas, as pessoas começariam a perguntar.

Publicidade

Continue lendo abaixo

É um vasto mundo de perguntas e respostas que faltam em nossa experiência de pesquisa.

Se eu encurtar a frase “ Por que alguns restaurantes são melhores do que outros se eles servem basicamente a mesma comida? ” para “ Por que alguns restaurantes são melhores do que outros? ”O Google e o Bing ainda não fornecem uma resposta adequada.

O principal resultado de pesquisa do Google para essa pergunta vem do blog (HTTP inseguro) de um índio canadense.

O Google cita esta seção do restaurante indiano no SERP:

“As pessoas pagam pela experiência geral e não apenas pela comida e é por isso que alguns restaurantes cobrar muito mais do que outros. Os clientes do restaurante esperam que os preços reflitam o tipo de comida, o nível de serviço e a atmosfera geral do restaurante. ”

E se a pessoa tivesse Popeye’s Fried Chicken versus KFC em mente quando eles fizeram essa pergunta?

Há uma certa subjetividade que pode se infiltrar na resposta a esses tipos de perguntas que exigem uma resposta longa e coerente.

Publicidade

Continue lendo abaixo

Não consigo deixar de pensar que existe uma resposta melhor em algum lugar. Mas o Google e o Bing não conseguem exibir esse tipo de conteúdo.

Google usa sinais para identificar conteúdo de alta qualidade

Em um explicador de como funciona a pesquisa, publicado pelo Google em Setembro de 2020, o Google admite que não usa o conteúdo em si para identificar se ele é confiável ou confiável.

O Google explica que usa sinais em uma postagem de blog intitulada “ Como o Google fornece informações confiáveis ​​na pesquisa .”

“… quando se trata de informações confiáveis ​​e de alta qualidade… Muitas vezes não podemos dizer apenas pelas palavras ou imagens se algo é exagerado, incorreto, de baixa qualidade ou inútil.

Em vez disso, os mecanismos de pesquisa entendem amplamente a qualidade do conteúdo por meio do que é comumente chamado de”sinais”. Você pode pensar nisso como pistas sobre as características de uma página que se alinham com o que os humanos podem interpretar como alta qualidade ou confiável.

Por exemplo, o número de páginas de qualidade vinculadas a uma página específica é um sinal que uma página pode ser uma fonte confiável de informações sobre um tópico. ”

Publicidade

Continue lendo abaixo

Infelizmente, essa parte do algoritmo do Google é incapaz de fornecer uma resposta correta para esses tipos de formato longo perguntas.

E esse é um fato interessante e importante de entender porque ajuda a estar ciente de quais são os limites da tecnologia de pesquisa hoje.

E quanto à classificação de passagens ?

A classificação de passagem é sobre a classificação de páginas da web longas que contêm as respostas curtas para consultas curtas normais que precisam de uma resposta objetiva.

Martin Splitt usou o exemplo de encontrar uma resposta relevante sobre tomates em uma página da web t Isso é principalmente sobre jardinagem em geral.

A classificação de passagem não pode resolver as questões difíceis que o Google atualmente não consegue responder.

Tanto o Google quanto o Bing geralmente falham em responder às perguntas do tipo LFQA porque esta é uma área que os mecanismos de pesquisa ainda precisam melhorar.

Barreiras para progredir

O próprio artigo de pesquisa reconhece essa lacuna no título:

Obstáculos ao progresso na resposta a perguntas de formato longo

O documento de pesquisa conclui afirmando que sua abordagem para resolver essa tarefa “alcança um desempenho de ponta”, mas ainda há problemas para resolver e mais pesquisas precisam ser feitas.

Publicidade

Continue lendo abaixo

Assim é como o papel conclui:

“Apresentamos um sistema de geração de“ recuperação aumentada ” que atinge o desempenho de última geração no conjunto de dados de resposta a perguntas de formato longo ELI5. No entanto, uma análise aprofundada revela vários problemas não apenas com nosso modelo, mas também com o conjunto de dados ELI5 e as métricas de avaliação. Esperamos que a comunidade trabalhe para resolver esses problemas para que possamos escalar as colinas certas e fazer um progresso significativo. ”

Perguntas e especulações

Não é possível fornecer uma resposta definitiva, mas é preciso saber se há páginas da web que estão perdendo tráfego porque o Google e o Bing não são capazes de revelar seu conteúdo extenso em resposta a perguntas extensas.

Além disso, alguns editores sobrescrevem por engano seus artigos em uma tentativa de se tornarem oficiais. É possível que esses editores estejam se substituindo no tráfego de pesquisa de consultas que exigem respostas mais curtas, já que os mecanismos de pesquisa não podem fornecer respostas diferenciadas disponíveis em documentos mais longos?

Publicidade

Continue lendo abaixo

Não há como sabendo essas respostas com certeza.

Mas uma coisa que este documento de pesquisa deixa claro é que responder a perguntas de formato longo é uma deficiência nos mecanismos de pesquisa hoje.

Citações

Postagem do blog do Google AI
Progresso e desafios em respostas a perguntas de domínio aberto em formato longo

Versão em PDF de Artigo de pesquisa
Obstáculos para o progresso em respostas a perguntas de formato longo

Página da web do Facebook sobre LFQA
Apresentando respostas a perguntas de formato longo

Source link

Categories: Wordpress