Conteúdo Duplicado e Semelhança de Conteúdo

O que é conteúdo duplicado

Conteúdo duplicado geralmente se refere a blocos substanciais de texto dentro de um mesmo domínio ou em domínios diferentes que correspondem completamente entre si ou são consideravelmente semelhantes.

É crucial entender que, se em 2020, como Webmaster, você republicar postagens, press releases, notícias ou descrições de produtos encontradas em outros sites, suas páginas definitivamente vão ter dificuldade para ganhar força nos Google’s SERPs (páginas de resultados do mecanismo de pesquisa).

O Google não gosta de usar a palavra “penalidade”, mas se todo o seu site for composto inteiramente de conteúdo republicado o Google não vai classificá-lo acima de outros que fornecem mais valor agregado.

Tudo se resume a como um mecanismo de pesquisa filtra o conteúdo duplicado encontrado em outros sites – e a experiência que o Google pretende oferecer para seus usuários – e seus concorrentes.

Uma boa regra geral é: não espere ter uma classificação alta no Google com conteúdo encontrado em outros sites mais confiáveis e não espere ter uma classificação se tudo que você estiver usando for páginas geradas automaticamente sem “valor agregado”.

Embora haja exceções à regra (e o Google certamente trate seu próprio conteúdo duplicado em seu próprio site de maneira diferente), sua melhor aposta na classificação em 2020 é ter uma única versão (canônica) do conteúdo em seu site com texto rico e exclusivo, produzido especificamente para essa página.

O Google deseja recompensar conteúdo rico, único, relevante, informativo e destacável em suas listagens orgânicas – e elevou o parâmetro de qualidade nos últimos anos. Se você deseja obter uma classificação alta no Google com palavras-chave valiosas e por muito tempo, é melhor ter um bom conteúdo original para começar.

A relação mais importante é quanto conteúdo de qualidade você tem em comparação com conteúdo de baixa qualidade. Isso indica que o Google está olhando para essa proporção para identificar quais páginas são de alta qualidade, quais são de menor qualidade, para que as páginas que são indexadas sejam realmente as de alta qualidade.

O que significa conteúdo duplicado? Conteúdo copiado de outros sites ou conteúdo original duplicado em um site? Qual deles evitar mais? Um site pode ser rebaixado se o conteúdo original duplicar nas páginas do site?

Essas são perguntas complicadas, na verdade. Portanto, temos diferentes tipos de conteúdo duplicado que analisamos do nosso ponto de vista. Existem várias razões técnicas pelas quais, em um site, você pode ter o mesmo conteúdo em várias páginas.

Quando o Google consegue reconhecer que essas páginas têm o mesmo conteúdo ou o mesmo conteúdo primário, ele tenta juntá-lo em um e garantir que todos os sinais redirecionem para a página mais relevante.

E aqui é onde fica mais complicado, porque se esse conteúdo é copiado de vários locais, isso fica um pouco mais difícil para o algoritmo. Na situação de que este site possui o mesmo conteúdo que outro site, de forma que não se pode saber quem é o original, o que o Google precisa mostrar no resultado da pesquisa se torna muito mais difícil, porque não é uma pergunta entre qual das suas páginas ele vai mostrar, mas qual dessas páginas publicadas por pessoas diferentes ou em servidores diferentes ele vai querer mostrar.

Qual o perigo do conteúdo duplicado

Conteúdo duplicado não é mencionado nenhuma vez nas “Diretrizes dos avaliadores de qualidade de pesquisa do Google”. Já “conteúdo copiado” é. Semântica à parte, o conteúdo duplicado é evidentemente tratado pelo Google de forma diferente do conteúdo copiado, com a diferença sendo a intenção e a natureza do texto duplicado.

O conteúdo duplicado interfere na sua capacidade de tornar seu site visível para pesquisas de usuários através de:

  • Perda de classificação para páginas únicas que involuntariamente competem pelas mesmas palavras-chave
  • Incapacidade de classificar páginas em um cluster porque o Google escolheu uma página como canônica
  • Perda da autoridade do site para grandes quantidades de conteúdo

O conteúdo duplicado geralmente não é manipulador e é comum em muitos sites, além de geralmente ser livre de intenções maliciosas. O conteúdo copiado pode ser penalizado algoritmicamente ou manualmente. O conteúdo duplicado não é penalizado, mas também não é uma configuração ideal para as páginas.

O Google diz claramente que a prática de tornar seu texto mais exclusivo usando técnicas de baixa qualidade, como adicionar sinônimos e palavras relacionadas, é provavelmente mais contraproducente do que realmente ajudar seu site a se posicionar.

Eu evitaria falar sobre penalidades de conteúdo duplicado para fins de combate ao spam, porque, então, não se trata de conteúdo duplicado, mas de gerar de maneira muito frequente e automatizada conteúdo que não é só duplicado de vários lugares mas potencialmente monetizado de uma maneira ou de outra – e não serve a nenhum outro propósito além de obter redirecionamento de tráfego. Talvez faça algum dinheiro para a pessoa que o criou, não se trata de conteúdo que é realmente criado por qualquer outro motivo, do que apenas estar lá, então eu acho que não é um conteúdo duplicado. Existe essa diferença.

O Google escolhe a melhor opção para mostrar aos usuários, dependendo de quem eles são e de onde estão. Portanto, às vezes, seu conteúdo duplicado será exibido para os usuários quando relevante.

O Google recompensa autenticidade e os sinais associados ao valor adicionado.

Como a IA identifica conteúdo duplicado

O conteúdo duplicado não é necessariamente “spam” para o Google. O resto é, por exemplo conteúdo copiado, mas alterado ligeiramente do original. Esse tipo de cópia dificulta a localização exata da fonte original correspondente. Às vezes, apenas algumas palavras são alteradas ou frases inteiras são alteradas ou é feita uma modificação “encontrar e substituir”, em que uma palavra é substituída por outra em todo o texto. Esses tipos de alterações são deliberadamente feitas para dificultar a localização da fonte original do conteúdo. Chamamos esse tipo de conteúdo de “copiado com alterações mínimas”.

O Google usa algoritmos para determinar se duas páginas ou partes de páginas são conteúdo duplicado, que o Google define como conteúdo “consideravelmente semelhante”.

A detecção de similaridade do Google é baseada no algoritmo patenteado Simhash, que analisa blocos de conteúdo em uma página da web. Em seguida, calcula um identificador exclusivo para cada bloco e compõe um hash, ou “impressão digital”, para cada página.

Como o número de páginas da web é colossal, a escalabilidade é essencial. Atualmente, o Simhash é o único método viável para encontrar conteúdo duplicado em escala.

As vantagens do Simhash são:

  • Barato para calcular. Os parâmetros são estabelecidos em um único rastreamento da página.
  • Fácil de comparar, graças ao seu comprimento fixo.
  • Capaz de encontrar quase duplicatas. Eles igualam pequenas alterações em uma página com pequenas alterações no hash, ao contrário de muitos outros algoritmos.

Isso significa que a diferença entre duas amostras pode ser medida algoritmicamente e expressa em porcentagem. Para reduzir o custo da avaliação de cada par de páginas, o Google emprega técnicas como:

  • Agrupamento: agrupando conjuntos de páginas suficientemente semelhantes, apenas as impressões digitais em um cluster precisam ser comparadas, pois todo o resto já está classificado como diferente.
  • Estimativas: para clusters excepcionalmente grandes, uma semelhança média é aplicada após o cálculo de um determinado número de pares de impressões digitais.

Como resolver conteúdo duplicado

O Google quer que você concentre sinais em documentos canônicos e quer que você se concentre em tornar essas páginas canônicas melhores para os usuários.

Para o SEO, não é necessariamente a abundância de conteúdo duplicado em um site que é o problema real. É a falta de sinais positivos que nenhum conteúdo exclusivo ou valor agregado fornece que não ajudará você a ter uma classificação mais rápida e melhor no Google.

Uma estratégia sensata para SEO ainda parece reduzir as expectativas de rastreamento do Googlebot e consolidar o patrimônio e o potencial de classificação em páginas canônicas de alta qualidade, e você faz isso minimizando o conteúdo duplicado ou quase duplicado.

Uma estratégia autodestrutiva seria otimizar páginas de baixa qualidade ou não exclusivas ou apresentar páginas de baixa qualidade aos usuários.

Redirecione o conteúdo antigo e desatualizado para artigos novos e atualizados sobre o assunto, minimizando as páginas de baixa qualidade e duplicando o conteúdo e, ao mesmo tempo, melhorando a profundidade e a qualidade da página que você deseja classificar.

Ferramentas para detectar conteúdo duplicado

Uma maneira fácil de encontrar conteúdo duplicado é usar a pesquisa do Google.

Basta pegar um conteúdo de texto do seu site e colocá-lo entre aspas como uma pesquisa no Google.

O Google informará quantas páginas o conteúdo é encontrado nas páginas de seu índice da web. A página que classifica em primeiro lugar para esse conteúdo também costuma ser a original.

A ferramenta mais conhecida de verificador de conteúdo duplicado on-line é o Copyscape e também gosto particularmente dessa pequena ferramenta, que verifica a proporção de conteúdo duplicado entre duas seleções de texto.

Se você encontrar evidências de plágio, pode registrar uma DMCA ou entrar em contato com o Google, mas muitas pessoas republicam artigos o tempo todo.

A seguir, alguns passos para melhorar seu site com relação ao conteúdo duplicado.

Resolva casos extremos

Não há truque satisfatório para corrigir a exibição de páginas únicas que parecem duplicadas por uma máquina: não podemos mudar a maneira como o Google identifica o conteúdo duplicado. No entanto, ainda existem soluções para alinhar sua percepção de conteúdo exclusivo e do Google enquanto ainda classificamos para as palavras-chave necessárias.

Os casos extremos são aqueles que têm:

  • Menos de 20% de similaridade: semelhante, mas não muito semelhante. Você pode sinalizar ao Google para tratá-los como páginas diferentes, vinculando entre as páginas do cluster, usando texto âncora distinto para cada página.
  • Semelhança máxima: encontre o problema subjacente. Você precisará enriquecer o conteúdo para diferenciar as páginas ou mesclar as páginas em uma.

Se você corrigir as páginas que apresentam esses problemas, provavelmente já vai ser o suficiente para seu negócio ranquear bem nos resultados de pesquisa.

Diminua o número de links para uma mesma página

É bastante comum um site ter vários URLs únicos que levam ao mesmo conteúdo. O Google nem sequer encontra a maioria dessas versões alternativas, e é por isso que recomendamos escolher um formato de URL e usá-lo de forma consistente em seu site.

O Google também recomenda o uso do elemento de link canônico para ajudar a minimizar os problemas de duplicação de conteúdo e essa é uma das ferramentas mais poderosas à nossa disposição.

Se o seu site contiver várias páginas com conteúdo amplamente idêntico, existem várias maneiras de indicar seu URL preferido ao Google. Isso é chamado de “canonização”.

Faça páginas únicas

Lembre-se: pequenas diferenças no conteúdo criam pequenas diferenças nas impressões digitais de Simhash. Você precisa fazer alterações significativas no conteúdo da página, em vez de pequenos ajustes.

Enriqueça o conteúdo da página, adicionando conteúdo de texto às páginas. Adicione descrições diferentes nas imagens. Inclua análises completas dos clientes (se as análises se aplicarem a várias páginas, mescle as páginas!). Coloque informações adicionais, bem como informações relacionadas.

Use imagens diferentes. Teste usando um texto âncora muito diferente para obter links para as diferentes páginas. Reduza a quantidade de código-fonte em comum entre as páginas semelhantes.

Melhore a densidade semântica nas páginas, aumentando o vocabulário relacionado ao assunto.

Crie páginas de referência

Se o enriquecimento de suas páginas não for possível ou apropriado, considere criar uma única página de referência que se classifique no lugar de todas as páginas “duplicadas”. Essa estratégia usa o mesmo princípio que os hubs de conteúdo para promover uma página principal para várias palavras-chave. É particularmente útil quando você tem várias versões de um produto que precisa manter como páginas separadas.

Essa estratégia pode ser usada para criar páginas segmentando uma necessidade ou uma oportunidade sazonal. Ele pode melhorar as famílias de páginas, fornecendo semânticas e classificações mais fortes.

Também pode beneficiar sites de classificados, sites de ofertas de emprego e outros sites com muitas listagens semelhantes. As páginas de referência devem agrupar as listagens por uma única característica; localização (cidade) é frequentemente usada com sucesso.

Mescle suas páginas

Você continua tentando enriquecer páginas com o mesmo conteúdo? Você não pode explicar por que deseja mantê-los todos? Talvez seja hora de combiná-los em uma página só!

Se você decidir mesclar suas páginas em uma, lembre-se de:

  • Manter o URL com melhor desempenho.
  • Redirecionar (301) páginas das quais você está se livrando para a que está mantendo.
  • Adicionar conteúdo das páginas que você está se livrando à página que você está mantendo e
  • Otimizar o conteúdo para classificar todas as palavras-chave do cluster.

O que é semelhança de conteúdo?

Quando falamos de conteúdos semelhantes estamos nos referindo a trechos idênticos encontrados em textos diferentes. Muitas vezes são indicadores de plágio, algo que pode implicar em complicações muito maiores do que perder posições na busca do Google.

Embora muitas vezes certas frases e expressões coincidam, ou precisemos usar de inúmeras citações e paráfrases em um texto, é bom tomar cuidado para não cometer plágio.

Analisando a taxa de semelhança

Em primeiro lugar, instale o CopySpider – um dos melhore aplicativos para checagem de plágio disponível. Teste seus arquivos do blog sob o critério de gerenciamento de cópias indevidas de outros documentos disponíveis na Internet, verificando a conformidade com as referências de citação padrão.

Verificar a autenticidade do que os outros ou nós escrevemos é de grande importância no mundo acadêmico e criativo, por exemplo. CopySpider é uma ferramenta para tornar a verificação de plágio uma tarefa simples e eficiente. Ele pode comparar o documento “original” com outros documentos armazenados localmente ou na Web. Para este último, o programa combina vários mecanismos de pesquisa para produzir os resultados mais precisos possíveis.

É importante observar que o CopySpider não realiza uma comparação palavra por palavra de todo o texto a ser analisado. O programa usa uma solução de “impressão digital”, que extrai vários pedaços relevantes de texto que são comparados aos documentos selecionados, localmente ou na Web. Os documentos com semelhanças (ou coincidências exatas) com o arquivo de origem são rotulados como “candidatos” que serão baixados e armazenados na memória para uma segunda análise definitiva (análise de conluio, como o CopySpider o chama). Ao combinar as conclusões de ambas as análises, o programa chega a um relatório final, que fornece trechos codificados por cores de onde as coincidências foram encontradas, além de links para todos os candidatos, para que você possa verificar as semelhanças.

O relatório final é entregue como um documento HTML que é aberto no navegador selecionado e pode ser exportado de várias maneiras, para que você possa usá-lo como prova do nível de originalidade de, por exemplo, sua tese ou o artigo que você está enviando para revisão.

O CopySpider vem em duas versões – uma gratuita, que pode analisar um arquivo por vez ao compará-lo com documentos na Web (para comparação local, o programa solicitará que você selecione dois documentos). Se você precisar analisar mais de um arquivo em uma única operação, é recomendável atualizar para uma versão Professional. O download gratuito, no entanto, será suficiente para as necessidades pessoais da maioria dos usuários.

Analisando os resultados

O CopySpider aponta um índice de 3% de semelhança como problemático. Isto porque pesquisas internacionais apontam que esta é a margem de segurança quando se trata de plágio ou semelhança de documentos.

De forma simplificada, o limite de 3% está relacionado à comparação e identificação de trechos raros entre os documentos A e B. Os trechos raros são sequências de palavras que aparecem poucas vezes, geralmente apenas uma, em cada documento.

Quando o CopySpider encontra um conjunto comum de 3% ou mais de trechos raros, baseando-se em pesquisas internacionais, conclui-se que é grande a chance do conteúdo dos documentos terem cópias, o que pode ser interpretado posteriormente como plágio.

Como corrigir a semelhança de conteúdo

Em primeiro lugar, se você for reproduzir trechos de outro texto, faça uma citação. Use os recursos de citação do WordPress para isso. Você também pode parafrasear outro texto, isto é, escrever com suas próprias palavras a sua interpretação daquele trecho.

Se você não conseguir alterar o trecho, o melhor a fazer é simplesmente excluí-lo. Não tem porque ficar com um parágrafo copiado de outro lugar em seu artigo original.

Existem ferramentas online que te ajudam a localizar e substituir os trechos apontados como plágio em seu texto.

Dicas para criar conteúdo original

Criar conteúdo exclusivo não é tarefa fácil. Mas aqui, trazemos algumas dicas e truques rápidos para criar conteúdo original perfeitamente otimizado.

Considere seu público, Sempre que você escrever com a intenção de compartilhar, mantenha seu público na vanguarda de sua mente. Pergunte a si mesmo: O que é importante para eles?

Muitas das respostas necessárias para determinar como escrever para um determinado público-alvo podem ser encontradas em seus próprios repositórios de dados de clientes internos. Se você estiver coletando informações de visitantes e clientes do site, use-as para sua vantagem.

Você pode não estar escrevendo sobre um tópico inovador, mas nunca o ouvimos da sua perspectiva antes! Compartilhe idéias sobre eventos atuais ou tópicos relevantes da sua perspectiva. Deixar sua personalidade brilhar e convidar as pessoas a ver do seu ponto de vista é uma ótima maneira de criar naturalmente o conteúdo original.

Provavelmente, você é proprietário de uma pequena empresa ou, no mínimo, tem conhecimento dos tópicos sobre os quais gostaria de escrever. Use sua própria experiência e conhecimento para criar o conteúdo perfeito e se posicionar como um líder em seu setor. Geralmente, isso implica identificar um desafio e apresentar uma solução clara.

Deixe sua personalidade brilhar! Depois de escrever o seu conteúdo, leia-o em voz alta e veja como ele pode chegar ao seu leitor.

Se preocupe com a estrutura do conteúdo. Agrupe conteúdo relacionado em seu site ou em ordem de relevância para que os leitores possam encontrar o que precisam rapidamente.

Abuse da criatividade visual. Escolha imagens interessantes para complementar sua escrita. Não apenas tornará seu conteúdo mais interessante, mas instantaneamente o tornará mais compartilhável.

Rate this article

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading...