Pensamos em web scraping como uma ferramenta usada para coletar conteúdo da web para fins de análise de informações, às vezes em detrimento do proprietário do site. Por exemplo, alguém pode fazer o scraping na web de todas as páginas de produtos do site de varejo de um concorrente para colher informações sobre os produtos oferecidos e os preços atuais para tentar obter uma vantagem competitiva.

O scraping na Web pode ser usado para coletar dados de marketing , como identificar boas palavras-chave para campanhas publicitárias, identificar tópicos de tendência para postagens de blog ou identificar influenciadores em blogs e sites de notícias importantes. Os fabricantes podem vasculhar os sites de varejo para garantir que o M fabricante A anunciado P precificação ( MAP ) está sendo cumprido , e os auditores de segurança podem vasculhar sites em busca de vulnerabilidades ou violações nas políticas de privacidade. E, claro, os scrapers podem vasculhar seu site para procurar vulnerabilidades de segurança ou detalhes de contatos ou leads de vendas expostos. Nenhuma dessas atividades resultaria na republicação ou entrega do conteúdo copiado aos usuários finais.

Há situações, entretanto, em que o conteúdo copiado da página da web é entregue como uma página diretamente aos visitantes. Como veremos a seguir, isso pode ser feito por razões benignas ou não tão benignas. Na pior das hipóteses, esses podem ser verdadeiros domínios impostores, que buscam se envolver com usuários reais sem reconhecer a verdadeira fonte de seu conteúdo . Mesmo em casos de uso benignos, no entanto, você perde algum controle sobre a experiência do visitante. Quando seu conteúdo é entregue por outros meios, de outros servidores ou plataformas, isso pode colocar em risco a experiência do usuário e o relacionamento comercial que você construiu com seus usuários.

Como você pode identificar, rastrear e gerenciar esse risco para o seu negócio? Exploramos como você pode usar análise da web ou dados reais de medição do usuário em seu site para obter informações sobre quaisquer domínios impostores que republicam seu trabalho. Também descrevemos os tipos mais comuns de republicação de conteúdo que vemos em dados do mundo real que coletamos no Akamai mPulse, tanto benignos quanto problemáticos, para que você saiba o que procurar em seus dados.

Como rastrear atividades suspeitas

Se você está começando a se perguntar se alguém pode publicar novamente o seu conteúdo da web, a coisa mais fácil a fazer é uma pesquisa no Google. Copie uma frase de dez ou doze palavras de uma página de interesse em seu site para a barra de pesquisa do Google, coloque-a entre aspas duplas e clique em Pesquisar. Esperamos que você veja o seu próprio site nos resultados da pesquisa, mas se você encontrar a correspondência exata da frase em outros sites, você pode ser vítima de uma nova publicação . Essa abordagem é obviamente um pouco ad-hoc. Você poderia talvez criar um script de algumas pesquisas do Google para executar esses tipos de verificações periodicamente. Mas quantas páginas você verifica? Como você pode escolher com segurança o conteúdo das páginas que a republicação não vai modificar? E se as visualizações de página republicadas nunca chegarem aos resultados de pesquisa do Google?

Uma abordagem melhor é usar os dados que você já está coletando com sua análise da web ou R eal Serviços de medição U ser M ( RUM ). Esses serviços variam consideravelmente em seus recursos e na profundidade dos dados coletados. Todos eles geralmente são instrumentados como processos JavaScript que são carregados nas páginas da web do seu site por meio de uma tag ou snippet de código do carregador. Quando o serviço determina que uma visualização de página (e/ou alguma outra atividade do usuário de interesse) foi concluída, ele envia um”farol”de dados de volta para um sistema de coleta, onde os dados são posteriormente processados, agregados e armazenados para futuro análise.

Para ajudar a identificar a republicação de páginas da web por domínios impostores, o que você deseja é um serviço que:

Colete dados para cada exibição de página no local (idealmente); Coleta o URL completo da página base recurso HTML da visualização da página; Aceita beacons mesmo se o nome do host no URL da página base não for aquele em que seu site foi publicado; Permite a você consultar os dados coletados e/ou já tem consultas de dados projetadas para encontrar “domínios impostores”. O que acontece quando uma página da Web é republicada?

Quando uma página da web é copiada com a intenção de ser entregue como uma visualização de página completa a um usuário final, o raspador pode modificar o conteúdo. As modificações podem ser extensas. Modificar algum conteúdo é mais fácil do que outros e, embora um domínio impostor possa alterar o texto ou as imagens, modificar o JavaScript pode ser uma proposta mais desafiadora. Tentativas de modificações em JavaScript podem quebrar a funcionalidade da página, inibir a renderização adequada ou apresentar outros problemas.

A boa notícia para nós é que rastreadores de análise da web ou serviços reais de medição de usuário são instrumentados como JavaScript e muitos domínios impostores são improváveis tentar modificar o conteúdo para removê-los devido ao risco de quebrar a página. Se o raspador não remover intencionalmente o código do snippet do carregador ou tag de sua análise da web ou serviço RUM, de modo geral, eles serão carregados com êxito e gerarão um beacon para a visualização da página- fornecendo evidências da atividade do domínio impostor .

Esta é a chave para rastrear domínios impostores com análise da web ou dados RUM. Mesmo que nenhum conteúdo da página seja entregue a partir de sua plataforma ou servidores, desde que o código JavaScript que você está usando para análises ou rastreamento de desempenho seja carregado, você ainda pode obter dados sobre a visualização da página.

Transformando os dados em informações

Agora que você tem dados, pode minerá-los em busca de evidências de domínios impostores. No mais básico, esta é uma consulta de banco de dados que conta o número de visualizações de página por cada nome de host no URL da página, algo como este pseudocódigo:

resultados=consulta (“””selecionar host, contar (*) como contagem de $ (tableName) onde timestamp entre’$ (startTime)’e’$ (endTime)’e url diferente de’file:%’agrupar por 1 ordem por 2 desc”””);

Qualquer nome de host nos resultados que não seja usado por seu site é um domínio impostor e vale a pena investigar. Para o monitoramento contínuo dos dados, você provavelmente desejará categorizar os domínios impostores que você vê nos dados e identificou.

Por exemplo, alguns domínios usados ​​pelos serviços de tradução de linguagem natural que republicam páginas da web inteiras podem ter a seguinte aparência:

# Domínios de tradução translationDomains=[“convertlanguage.com”,”dichtienghoa.com”,”dict.longdo.com”,”motionpoint.com”,”motionpoint.net”,”opentrad.com”,”papago.naver.net”,”rewordify.com”,”trans.hiragana.jp”,”translate.baiducontent.com”,”translate.goog”,”translate.googleusercontent.com”,”translate.sogoucdn.com”,”translate.weblio.jp”,”translatetheweb.com”,”translateuser-int.com”,”transperfect.com”,”webtrans.yodao.com”,”webtranslate.tilde.com”,”worldlingo.com”]

Dependendo das suas necessidades, você pode criar matrizes de domínios“ aceitáveis ​​”e“ problemáticos ”ou categorizar os domínios impostores por função ou tipo. Abaixo estão os tipos mais comuns de domínios impostores que você pode ver em dados do mundo real.

Republicação benigna

Nem todas as páginas da web copiadas entregues de um domínio de terceiros serão maliciosas. Com base na análise dos dados do Akamai mPulse em um amplo espectro de clientes, a maioria das visualizações de página de domínios impostores são, na verdade, serviços que um visitante do site está escolhendo intencionalmente para usar. Um visitante do site pode desfrutar do conteúdo da página que consideraria inacessível. Em alguns casos, os serviços provavelmente estão sendo usados ​​pelos funcionários do próprio proprietário do site.

As principais categorias descritas aqui não são de forma alguma exaustivas.

Tradução de linguagem natural

Os domínios impostores mais comuns são aqueles usados ​​por serviços de tradução de linguagem natural. Esses serviços podem raspar uma página da web, traduzir o texto codificado na página para outro idioma e entregar esse conteúdo modificado ao usuário final.

A página que o usuário final vê terá um URL do domínio de nível superior do serviço de tradução (como traduzir.goog , Translator-int.com ou translate.weblio.jp entre muitos outros). rewordify.com altera o texto em inglês em uma página em frases mais simples para falantes de inglês iniciantes. Embora você não tenha controle sobre a qualidade das traduções ou o desempenho da experiência da página entregue, é seguro presumir que a maioria dos proprietários de sites não consideraria isso um risco ou preocupação para o negócio.

Resultados armazenados em cache do mecanismo de pesquisa e arquivo da Web

Outra categoria comum de domínios impostores são os domínios usados ​​pelos mecanismos de pesquisa para fornecer resultados armazenados em cache ou versões arquivadas de visualizações de páginas. Normalmente, seriam páginas que podem não estar mais disponíveis no site, mas estão disponíveis em arquivos de terceiros.

Você pode querer saber sobre a frequência dessas visualizações de página e uma análise mais profunda poderia determinar as especificações do que os usuários finais estavam procurando nos caches e arquivos online. Com o URL completo de cada solicitação feita aos caches e arquivos online, você deve ser capaz de identificar palavras-chave ou tópicos que aparecem com mais frequência nesses tipos de visualizações de página.

Ferramentas de desenvolvedor

Esses serviços normalmente serão usados ​​por seus próprios funcionários como parte do negócio natural de desenvolver e administrar seu site. Uma ferramenta típica de desenvolvedor pode raspar uma página da web inteira, analisá-la em busca de erros de sintaxe em JavaScript, XML, HTML ou CSS e exibir uma versão marcada da página para o desenvolvedor explorar.

Além dos erros de sintaxe, as ferramentas também podem avaliar um site quanto à conformidade com acessibilidade ou outros padrões exigidos por lei. Alguns serviços de exemplo vistos no mundo real incluem codebeautify.org, webaim.org e jsonformatter.org.

Ferramentas de publicação de conteúdo

Muito semelhantes às ferramentas de desenvolvedor são ferramentas que você pode usar para gerenciar suas necessidades de publicação de conteúdo. O exemplo mais comumente visto é a Google Ads Preview ferramenta, que busca uma página, modifica-a para incluir uma tag de anúncio e conteúdo de anúncio do Google e exibe para o proprietário do site para ver como ficaria o resultado se publicado.

Outro tipo de ferramenta de publicação de conteúdo é um serviço que busca uma página da web, verifica-a em bancos de dados para qualquer violação de direitos autorais ou plágio em potencial e exibe a página com marcação para identificar qualquer conteúdo potencialmente ofensivo.

Domínios do transcodificador

Alguns serviços fornecem uma página da web em forma alterada para desempenho aprimorado ou características de exibição aprimoradas. O serviço mais comum desse tipo é Google Web Light . Disponível em um número limitado de países em dispositivos Android OS com conexões de rede móvel lentas, o Google Web Light transcodifica a página da web para fornecer até 80% menos bytes , preservando a”maioria do conteúdo relevante”todos em nome de entregar o conteúdo ao navegador Android Mobile com muito mais rapidez.

Outros serviços de transcodificador modificam o conteúdo da página para alterar sua apresentação, por exemplo, printwhatyoulike.com remove elementos de publicidade na preparação para impressão em papel e marker.to permite um usuário”marca”uma página da web com um marcador amarelo virtual e compartilha a página com outras pessoas. Embora os serviços do transcodificador possam ser bem intencionados, há potencial para abuso (remoção de publicidade) e possíveis questões de integridade de conteúdo que você, como proprietário de site, precisa estar ciente.

Cópias salvas localmente de Páginas da web

Embora não seja comum, vemos beacons nos dados do Akamai mPulse com páginas servidas a partir de URLs file://. Estas são visualizações de páginas carregadas de uma página da web visualizada anteriormente que foi salva no armazenamento local do dispositivo. Como cada dispositivo pode ter uma estrutura de sistema de arquivos diferente , resultando em um número infinito de”domínios”nos dados de URL, geralmente não faz sentido tentar agregá-los para obter os padrões. É seguro presumir que os proprietários de sites não considerariam isso um risco ou preocupação para os negócios.

Serviços de proxy da Web

Outra categoria de domínios impostores que podem ser aceitáveis ​​são aqueles usados ​​por serviços de proxy da web. Existem duas grandes subcategorias de serviços de proxy supostamente benignos. Um são os proxies institucionais , como um sistema de biblioteca universitária que assina uma publicação de notícias online para conceder acesso ao seu corpo discente. Quando um aluno visualiza o site, a página pode ser fornecida a partir de um nome de host no domínio de nível superior da universidade.

É seguro presumir que a maioria dos editores não consideraria isso um risco ou preocupação para os negócios se faz parte de seu modelo de negócios. O outro tipo principal de proxies benignos são sites que visam oferecer anonimato para que os visitantes possam consumir o conteúdo de um site sem serem rastreados ou identificados. O exemplo mais comum dessa última subcategoria é o anonymousbrowser. org serviço. Os usuários desses serviços podem ou não ser bem-intencionados.

Republicação maliciosa

Embora tenhamos visto que pode haver razões benignas para uma página da web ser copiada e entregue a partir de um domínio alternativo ( e, de fato, a pesquisa mostra que os casos de uso benignos são de longe os mais comumente vistos nos dados de medição do usuário real do Akamai mPulse), certamente há casos em que as intenções dos raspadores são maliciosas. O conteúdo copiado pode ser usado para gerar receita de várias maneiras, desde simplesmente passar conteúdo roubado como se fosse seu até tentar roubar credenciais ou outros segredos. Casos de uso malicioso podem prejudicar o proprietário do site e/ou o visitante do site.

Ad Scraping

Na indústria de publicação, a receita de anúncios é crítica para o sucesso comercial ou o fracasso dos sites. Obviamente, a venda de anúncios requer conteúdo que os visitantes queiram consumir, e alguns malfeitores podem achar mais fácil roubar esse conteúdo do que criá-lo eles próprios. Os raspadores de anúncios podem coletar artigos inteiros de um site e publicá-los novamente em um domínio de nível superior diferente com tags de publicidade completamente novas. Se o raspador não for sofisticado o suficiente para separar totalmente o conteúdo da estrutura da página e, por exemplo, incluir o código JavaScript da página principal, incluindo o snippet do carregador para sua análise da web ou serviço RUM, você pode obter beacons de dados para essas visualizações de página.

Phishing

Phishing é uma tentativa fraudulenta de fazer com que os usuários revelem informações confidenciais ou privadas, como credenciais de acesso, números de cartão de crédito, números de previdência social ou outros dados, falsificando a identidade de um site confiável. Para parecer o mais autêntico possível, os sites de phishing geralmente são criados roubando o site legítimo que pretendem falsificar . Novamente, se o raspador não for sofisticado o suficiente para separar totalmente o conteúdo da estrutura da página e, por exemplo, incluir o código da página principal, incluindo o snippet do carregador para sua análise da web ou serviço RUM, você pode obter beacons para essas visualizações de página no mPulse.

Navegador ou sequestro de pesquisa

Uma página da web pode ser copiada e republicada com JavaScript adicional que contém código de ataque de sequestro de navegador ou pesquisa. Ao contrário do phishing, que tenta os usuários a entregar dados valiosos, esse tipo de ataque tenta fazer alterações nas configurações do navegador . Simplesmente alterar o mecanismo de pesquisa padrão do navegador para apontar para aquele do qual o invasor obtém receita de resultado de pesquisa de afiliado pode ser lucrativo para um mau ator. Se o raspador não for sofisticado, injetando um novo código de ataque, mas não alterando o código da página principal pré-existente, incluindo o fragmento do carregador para sua análise da web ou serviço RUM, você pode obter beacons para essas visualizações de página no mPulse.

Paywall ou proxy de bypass de assinatura

Alguns serviços afirmam ajudar os usuários finais a acessar páginas em sites que exigem assinaturas para visualização sem ter um login válido. Para alguns editores de conteúdo, as taxas de assinatura podem ser uma parte muito significativa da receita do site. Para outros, pode ser necessário que os logins permaneçam em conformidade legal para que os usuários consumam conteúdo restrito por idade, cidadania, residência ou outros critérios.

Serviços de proxy que ignoram (ou tentam ignorar) esse acesso restrições representam riscos financeiros e jurídicos para o seu negócio . Subjetivamente, muitos desses serviços parecem estar focados especificamente em sites de pornografia, mas todos os proprietários de sites devem estar atentos a esses atores mal-intencionados.

Desinformação

p> Além de tentar lucrar com web scraping, alguns domínios impostores podem ser usados ​​para fornecer conteúdo que foi modificado de forma a espalhar informações incorretas intencionalmente, prejudicar reputações ou para fins políticos ou outros.

Gerenciando os resultados

Agora que você tem uma maneira de identificar e rastrear quando domínios impostores estão republicando seu site, quais são as próximas etapas? As ferramentas são tão valiosas quanto a nossa capacidade de usá-las com eficácia, então é importante desenvolver uma estratégia para usar uma solução de rastreamento de domínio impostor como parte de seus processos de negócios. Em um alto nível, acho que isso se reduz a tomar decisões sobre um processo de gerenciamento de três etapas:

Identifique a ameaça, Priorize a ameaça , Corrija a ameaça .

1. Identificação de ameaças por meio de relatórios regulares

Depois de desenvolver as consultas do banco de dados para extrair dados de domínio impostor potencial de sua análise da web ou dados de medição do usuário real, você precisa examinar os dados regularmente.

Como ponto de partida, recomendo um relatório semanal que pode ser verificado rapidamente em busca de qualquer nova atividade. Um relatório semanal parece ser a melhor cadência para detectar problemas antes que se tornem muito graves. Um relatório diário pode parecer tedioso e se tornar algo fácil de ignorar depois de um tempo. Os números diários também podem ser mais difíceis de interpretar, pois você pode observar um número muito pequeno de visualizações de página que podem ou não representar uma tendência preocupante.

Por outro lado, os relatórios mensais podem resultar em problemas acontecendo por muito tempo antes de ser pego. Um relatório semanal parece o equilíbrio certo para a maioria dos sites e é provavelmente a melhor cadência inicial para relatórios regulares.

2. Categorização da ameaça potencial

Como consideramos acima, nem todos os domínios impostores que republicam o conteúdo do seu site são necessariamente maliciosos por natureza ou uma preocupação para os seus negócios. Conforme você ganha experiência com o panorama dos dados de seu próprio site, pode aprimorar seus relatórios regulares codificando por cores ou separando domínios que você conhece e considera não maliciosos para ajudá-lo a se concentrar nos domínios com problemas desconhecidos, novos ou conhecidos que é o que mais importa.

Dependendo das suas necessidades, você pode criar matrizes de domínios”aceitáveis”e”problemáticos”ou categorizar os domínios impostores por sua função ou tipo (como como as categorias de “tradução de linguagem natural” ou “ferramentas de publicação de conteúdo” descritas acima). Cada site terá necessidades diferentes, mas o objetivo é separar os domínios problemáticos dos domínios que não são preocupantes.

3. Tome medidas contra os maus atores

Para cada uma das categorias problemáticas que você identificar, determine os parâmetros que deseja usar ao decidir como responder à ameaça:

Qual é a página mínima contagem de visualizações antes de agirmos? Qual é o primeiro ponto de escalonamento e quem é responsável por ele? Quais partes interessadas dentro da empresa precisam estar cientes da atividade maliciosa e quando? As ações a serem tomadas são documentadas e revisadas por todas as partes interessadas (executivos, jurídico, etc.) regularmente? Quando ações são tomadas (como preencher um aviso de “remoção de DMCA” com o infrator ou seu provedor de serviços ou atualizar as regras de firewall de aplicativo da web para tentar limitar o acesso aos ladrões de conteúdo) são os resultados dessas ações rastreado e reconhecido? Como a eficácia dessas ações será resumida aos líderes executivos de negócios ao longo do tempo?

Mesmo se você não tiver sucesso em reprimir todas as republicações maliciosas do conteúdo do seu site, você ainda deve criar um processo sólido em vigor para gerenciar os riscos como qualquer outro risco para a empresa. Isso gerará confiança e autoridade com seus parceiros de negócios, investidores, funcionários e colaboradores.

Conclusão

Nas circunstâncias certas, sua análise da web ou dados reais de medição do usuário podem oferecer visibilidade no mundo dos domínios impostores, usados por web scrapers para republicar o conteúdo do seu site em seus servidores. Muitos desses domínios impostores são, na verdade, serviços benignos que ajudam os usuários finais ou ajudam você de várias maneiras produtivas.

Em outros casos, os domínios impostores têm motivos maliciosos, seja para roubar conteúdo para lucro ou para manipular de uma forma que cause danos à sua empresa ou ao visitante do seu site. A análise da web ou dados RUM são a sua arma secreta para ajudar a identificar quaisquer domínios impostores potencialmente maliciosos que requerem ação imediata , bem como para compreender melhor a prevalência dos domínios mais benignos. Os dados que você coleta aproveitam a análise da web ou a posição do serviço RUM como um observador no próprio navegador do visitante para ver o que suas ferramentas de monitoramento e relatório de plataforma não conseguem.

Analisando os dados ao longo do tempo, você pode aprender mais e mais sobre domínios impostores e suas intenções para informar melhor sua empresa sobre os riscos que representam para sua reputação e experiências dos visitantes e desenvolver e aplicar mecanismos para proteger sua propriedade intelectual.

Leituras adicionais sobre Smashing Revista

Protegendo seu site com política de recursos Torne seus sites rápidos, acessíveis e seguros com a ajuda do Google O que você precisa saber sobre OAuth2 e como fazer login no Facebook Política de segurança de conteúdo, seu futuro melhor amigo Rejeitando a violação de privacidade na Web

Categories: Wordpress