Cada ferramenta de backlink armazenará links diferentes.
Ao construir um índice da web, as empresas precisam fazer muitas escolhas quanto ao rastreamento, análise e indexação de dados. Embora haja muita sobreposição entre os índices, também haverá algumas diferenças dependendo das decisões de cada empresa.
Em nome da transparência, queremos que as pessoas saibam mais sobre o índice de links do Ahrefs.
Links levam os usuários de uma página da web para outra quando clicados. Há muitas maneiras de criá-los, sendo o método mais comum o elemento clássico HTML
com um atributo href.
No entanto, é possível criar links com outros elementos, incluindo:
- Onclick
- Botton
- Ng-click
- Option/value
- E mais…
Em um mundo ideal, qualquer coisa que funcione como um link seria armazenado. Infelizmente, não vivemos em um mundo ideal. Nem o Ahrefs nem o Google armazenam todos os tipos de links porque não é um processo eficiente carregar cada página e clicar em cada link. Isso é exatamente o que você precisa fazer se quiser encontrar todos os links que funcionam para os usuários.
Em vez disso, os rastreadores normalmente buscam páginas, possivelmente as renderizam e, em seguida, extraem e armazenam vários tipos de links. Todos os rastreadores funcionam de maneira diferente, então vamos falar sobre como fazemos as coisas aqui no Ahrefs.
Links que armazenamos
Aqui estão os tipos de links que armazenamos em nosso índice.
Links externos
Links de um site para outro criado usando o elemento HTML
clássico com um atributo href.
Links internos
Links de uma página em um site para outra página no mesmo site. Existem 22,21 trilhões de backlinks internos em nosso índice. Isso é muito mais extenso do que nossa contagem de links externos ao vivo. Somos a única ferramenta de SEO onde você pode acessar esses dados sem um rastreamento de site personalizado. Usamos os dados do link interno no URL Cálculo de avaliação ( UR ) , semelhante a como o Google usaria em seu cálculo do PageRank .
Se quiser saber quando rastreamos pela primeira vez e pela última vez um URL , você pode verificar o“ Relatório Best by links ”em Site Explorer . Existem guias para links externos e internos.
Links que podemos armazenar
Aqui estão todos os links que armazenamos em algumas circunstâncias.
Links inseridos com JavaScript
Como o Google renderiza todas as páginas, eles podem contar os links inseridos com JavaScript, mas não estão no código HTML . Renderizar em escala requer muito mais recursos do que apenas baixar o HTML das páginas. No Ahrefs, processamos cerca de 80 milhões de páginas por dia. É por isso que teremos alguns desses links inseridos por JavaScript, mas não todos eles. Atualmente, somos a única ferramenta de SEO que é renderizada durante nosso rastreamento regular da web, portanto, temos alguns dados de link que outras ferramentas não têm.
No entanto, só contamos links inseridos com JavaScript se eles estiverem no formato de um elemento HTML
com um atributo href. Você verá esses links marcados no relatório de backlinks como “ JS ,” assim:
Links de páginas com parâmetros de URL
Os parâmetros são adições a um URL like? tag=something. Você pode ver alguns desses URLs em nosso índice, mas geralmente são parâmetros que mostram conteúdos diferentes. Em muitos casos, as páginas com parâmetros podem mostrar o mesmo conteúdo. Temos muitos sistemas implementados para consolidar URLs para versões canônicas e proteção adicional para caminhos de rastreamento infinitos. Outras ferramentas podem não tomar as mesmas decisões ou ter as mesmas proteções em vigor. Como resultado, eles podem contar essencialmente o mesmo link muitas vezes.
Links que tentamos não armazenar
Aqui estão os links que fazemos o possível para não armazenar.
Links de páginas com Parâmetros de URL
Conforme mencionado acima, existem tipos de parâmetros bons e ruins. Tentamos não armazenar aqueles que estão duplicados.
Links de páginas em caminhos de rastreamento infinitos
Esses caminhos criam um número infinito de URLs possíveis. Os parâmetros são uma maneira pela qual eles podem se formar, mas também o são os filtros, o conteúdo dinâmico e os caminhos relativos quebrados para links. Conforme mencionado antes, temos muitas proteções em vigor para links nesses tipos de página, para que sejam menos propensos a aparecer em nossos relatórios. O respeito à canonização e a maneira como priorizamos o rastreamento de páginas são apenas duas dessas proteções. Cada índice terá que lidar com esses espaços infinitos, mas há potencial para essas páginas aumentarem a contagem de links.
Links que não armazenamos
Aqui estão todos os links que nunca armazenamos.
Links em PDFs ou outros documentos
Google converte muitos formatos de documento em HTML e os indexa como fariam com qualquer outra página. Isso significa que eles contam links nesses documentos. Não acredito que qualquer ferramenta de SEO indexe esses links atualmente, mas provavelmente deveríamos. Acho que um dia o faremos, mas também estou preocupado que o esforço e os recursos necessários para isso não valham a pena. De acordo com o analista de tendências do Google para webmasters, John Mueller, links em PDFs não têm nenhum efeito prático em pesquisa na web .
Links em iframes
Os iframes permitem que outra página seja exibida dentro de uma página. Por isso, o Ahrefs não conta links em iframes. No entanto, eles são mostrados aos usuários, portanto, outras ferramentas podem contá-los, mesmo que o conteúdo tecnicamente pertença a uma página diferente. O Google pode ou não contar esses links.
Links de páginas não indexadas
Nós descartamos esses links. Há mensagens contraditórias de representantes do Google sobre se eles usam isso nos cálculos de links ou não. Ferramentas diferentes podem tomar decisões diferentes.
algo com noindex nunca alcançará o índice de veiculação, mas teremos a cópia buscada para coisas como cálculo de gráfico de link.— Gary 鯨 理 / 경리 Illyes (@methode) 17 de dezembro de 2020
Mesmos links de vários IPs
Um fato engraçado sobre a web é que os sites podem servir a mesma página de várias endereços IP . Se for esse o caso, um índice de link pode contar o mesmo link várias vezes. Nós não fazemos isso. Nós associamos os links às páginas em que eles estão.
Vários links de uma única página para a mesma página
Atualmente, registramos apenas uma versão de um link em uma página. Se você criar um link para uma página do menu e novamente para o conteúdo do corpo, contaremos apenas com um desses links. Podemos mudar isso no futuro para fornecer aos usuários mais dados, mas este é o estado atual. O Google contará todas as versões de links para aprovação no PageRank , mas só pode usar o anchor text .
Outros itens relacionados a links que afetam o índice
Entender como contamos links é uma coisa, mas muitas outras coisas podem afetar o que é ou não contado.
Número de links por página
Não acredito que tenhamos um limite para o número de links que contamos por página, mas temos um limite de tamanho de página que pode afetar o número de links que vemos. O Google recomenda não mais do que alguns milhares de links por página .
Redirecionado ou canonicalizado
No Ahrefs, nós confiamos em todos os redirecionamentos e tags canônicas e consolidar links onde os sites nos dizem para fazer. Para o Google, isso é mais complicado, pois eles têm muitos sinais de canonização que determinam qual página é a líder em um cluster canônico. Mantemos as coisas simples porque é impossível saber como o Google vê cada situação e confundiria nossos usuários se tratássemos os canônicos e os redirecionamentos de maneira diferente a cada vez.
Esses links são marcados em nossos relatórios com”301″, “302” ou “Canônico”, como:
No Ahrefs, temos o relatório Domínios de referência que mostra todos os domínios com links para um site ou página da web.
Mas como exatamente contamos os domínios?
Você pensaria que essa seria uma pergunta fácil de responder. É apenas domain.com, certo? Infelizmente, as coisas são um pouco mais complexas, pois existem muitas maneiras de contar domínios. Uma opção é tratar cada domínio registrado como um domínio-o que parece ser como o Google os agrega no Google Search Console . Outra é tratar cada subdomínio como um domínio diferente. Você também pode agregar algumas seções de um site e não outras (o que o Google faz), passar por cada seção em uma pilha de tecnologia diferente, etc. Existem muitas opções.
No Ahrefs, temos cerca de 175 milhões domínios pós-verificação. O processo de verificação inclui a remoção de domínios de spam e a divisão de alguns subdomínios onde determinamos que diferentes usuários controlam as diferentes áreas. Usamos uma lista personalizada para isso, mas há uma lista pública semelhante em https://publicsuffix.org/list/.
É importante observar que domínio diferente as definições podem resultar em grandes variações de domínios de referência. Aqui estão alguns exemplos de coisas que outros, não Ahrefs, podem contar como domínios separados:
- Subdomínios de versões para celular (m.domain.com, mobile.domain.com , etc.)
- Subdomínios de país/idioma (en.domain.com, fr.domain.com, de.domain.com, jp.domain.com, etc). Pode haver exceções em nosso índice, como wikipedia.org, mas esta não é uma prática padrão.
- Subdomínios aleatórios (support.domain.com, images.domain. com, etc.)
Outra decisão que os provedores de ferramentas de backlink devem tomar é se eles devem contar algumas subpastas como domínios diferentes. Por exemplo, acho que a maioria dos índices de link contaria blogs diferentes em plataformas conhecidas (por exemplo, user1.blogspot.com, user2.blogspot.com) como domínios diferentes porque diferentes usuários os controlam. Mas por que não fazer o mesmo para sites como medium.com/user1 ou github.com/user1? No Ahrefs, não fazemos isso no momento, mas há uma chance de que possamos no futuro, onde sabemos que diferentes pessoas controlam cada subpasta em um site.
A questão aqui é que há muitas maneiras de contar domínios. Isso é óbvio quando você olha para os números variáveis de empresas que contam sites na Internet. De acordo com a Verisign , existem 370,7 milhões domínios registrados em Q3 2020 em todos os TLDs. De acordo com a Netcraft , existem 1.229.948.224 sites em 263.787.870 domínios exclusivos com 193,8 milhões de sites ativos em novembro de 2020. De acordo com Internet Live Stats , existem cerca de 1,8 bilhões de sites com menos de 200 milhões ativos atualmente. Cada empresa tem claramente uma metodologia diferente para contar domínios.
Para recapitular, o que fazemos no Ahrefs é pegar todos os sites que conhecemos e remover muitos domínios inativos e de spam e adicionar alguns para subdomínios em sites como blogspot.com. É assim que chegamos à nossa contagem total de domínios de aproximadamente 175 milhões. Outros índices podem fazer isso de maneira diferente e apresentar contagens diferentes.
À medida que encontramos backlinks rastreando a web, só podemos fazer isso em sites que podemos rastrear. Se os proprietários do site bloquearem o AhrefsBot em seu arquivo robots.txt , não poderemos rastrear o site. Por exemplo, se você obtiver um backlink de website.com e website.com bloqueia o AhrefsBot, não podemos rastrear o site deles e seu backlink não aparecerá no Ahrefs. Blocos de IP , bloqueios de agente de usuário de servidores (diferente de robots.txt), tempos limite de servidor, proteção de bot e muitas outras coisas também podem afetar nossa capacidade de rastrear alguns sites. Rastrear a web em grande escala não é fácil.
Temos vários índices de links
Cada ferramenta deve tomar decisões sobre armazenamento e recuperação de dados. No Ahrefs, dividimos nossos dados em vários índices.
- Ao vivo -os links que vemos que ainda estão ativos na web. Isso representa melhor o estado atual da web e é o que muitos de nossos usuários acharão mais útil.
- Recentes -links que vimos ativos na web no passado 3– 4 meses.
- Histórico -todos os links que já vimos. Esta será a lista mais abrangente, mas com muitos links que não existem mais.
Você pode alternar entre os índices em nosso backlink e relatórios de domínio de referência.
Outros índices podem escolher mostrar todos os dados que eles já vi, e embora isso signifique que eles possam mostrar muitos links, muitos desses links podem não existir mais.
Considerações finais
Queríamos que vocês, nossos usuários, tivessem mais informações sobre nosso índice para que você possa tomar decisões informadas. Também queremos que você nos informe se acha que devemos mudar as coisas e por quê.
Se você estiver comparando índices de links ou tiver dúvidas sobre nossos dados, sinta-se à vontade para entrar em contato conosco em caso de dúvidas ou para esclarecimentos.