Mais dicas

quarta-feira, 3 de agosto de 2016

PÁGINA ROBOTS.TXT - SAIBA COMO CONFIGURAR!

Saiba como evitar que determinadas páginas do site apareçam no Google

CONHECE A PÁGINA ROBOTS.TXT? PRA QUE SERVE?  SAIBA MAIS...

Como veremos na tópico sobre o Googlebot, os robôs dos buscadores são aplicativos que navegam pela internet através dos links encontrados nas páginas, em busca de conteúdo a ser indexado e exibido nos resultados de busca. Porém, você pode optar por não ter algumas de suas páginas exibidas nos resultados de busca, como por exemplo:
  • Páginas de Login - uma página de login a uma área restrita, como acesso à intranet, geralmente não deve ser indexada;
  • Páginas de conteúdo repetido - Caso você tenha, por exemplo, diversas Landing Pages com conteúdo bastante similar rodando para suas campanhas Google AdWords, deve bloquear as cópias e deixar apenas uma versão ser indexada pelo Google, minimizando o problema do conteúdo duplicado;
  • Páginas de impressão - Se seu site tiver versões para tela e impressão sendo indexadas, elimine a versão para impressão do índice do Google.

O que é robots.txt

Como o próprio nome já diz, robots.txt é um arquivo no formato .txt (bloco de notas). Funciona como um filtro para os robôs dos sites de busca e faz com que os webmasters controlem permissões de acesso a determinadas páginas ou pastas dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexada pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raiz da hospedagem. O próprio Google usa um arquivo emhttp://www.google.com/robots.txt, e navegar por ele é no mínimo curioso.

Sintaxe do Robots.txt

O arquivo robots.txt tem o papel de criar uma política de acesso aos Robots. Para a execução dessas tarefas, há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site. Vejamos os principais comandos do arquivo robots.txt:

User-agent

A função do comando user-agent é listar quais robôs devem seguir as regras indicadas no arquivo robots.txt. Supondo que você deseje somente que o mecanismo de busca do Google siga as definições definidas no arquivo robots.txt,basta indicar o User-agent como Googlebot. Eis as principais opções:
  • Google: User-agent: Googlebot
  • Google Imagens: User-agent: Googlebot-images
  • Google Adwords: User-agent: Adsbot-Google
  • Google Adsense: User-agent: Mediapartners-Google
  • Yahoo: User-agent: Slurp
  • Bing: User-agent: Bingbot
  • Todos os mecanismos: User-agent: * (ou simplesmente não incluir o comando user-agent)

Disallow

O comando instrui os sites de busca sobre quais diretórios ou páginas não devem ser incluídas no índice. Exemplos:
  • Disallow: /prod - orienta aos robots a não indexarem pastas ou arquivos que comecem com "prod";
  • Disallow: /prod/ - orienta aos robots a não indexarem conteúdo dentro da pasta "prod"
  • Disallow: print1.html - orienta aos robots a não indexarem conteúdo da página print1.html.

Allow

comando Allow orienta aos robots qual diretório ou página deve ter o conteúdo indexado. Diretórios e páginas são por definição sempre permitidos. Assim, este comando deve ser utilizado apenas em situações em que o webmaster bloqueou o acesso a um diretório por meio do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado. Note por exemplo no robots.txt do Google, logo no início, as duas linhas abaixo. O Allow permite que seja indexado o diretório /about abaixo do diretório /catalogs.
Disallow: /catalogs  
Allow: /catalogs/about
   

Sitemap

Uma outra função permitia pelo robots.txt é a indicação do caminho e nome do sitemap em formato XML do site. A ferramenta para Webmasters do Google, porém, oferece um maior controle e visibilidade para a mesma função - comunicar ao Google onde está o ou os arquivos sitemap. Note como o Google submete, em seu robots.txt, diversos sitemaps:
Sitemap: http://www.google.com/hostednews/sitemap_index.xml  
Sitemap: http://www.google.com/sitemaps_webmasters.xml  
Sitemap: http://www.google.com/ventures/sitemap_ventures.xml  
Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml  
Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml  
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml  
Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml

Cuidados com o arquivo robots.txt

Como veremos abaixo em exemplos reais de robots.txt, é muito fácil acessar o conteúdo de arquivos robots.txt de qualquer site, inclusive de concorrentes. Assim, cuidado com o que é incluído nesse arquivo. Evite colocar arquivos confidenciais. Nesses casos, o ideal é utilizar a meta tag robots (meta name = "robots"), explicada no tópico de meta tags deste tutorial.

Aplicação de Robots.txt

Exemplo: o webmaster não deseja que o conteúdo do diretório/docs seja indexado pelos robots, então, bloqueou o acesso ao diretório /docs com o comando "Disallow: /docs" no arquivo robots.txt. Dentro desse diretório, porém, existe um sub-diretório chamado "public", que deve ter seu conteúdo indexado. Para que isso aconteça, basta usar no arquivo robots.txt a instrução "Allow: /docs/public/".

Exemplos reais de Robots.txt

Para olhar exemplos de arquivos robots.txt, saia navegando pela internet e inclua o arquivo /robots.txt na raíz dos sites visitados para verificar se eles utilizam o arquivo robots.txt. Veja abaixo alguns exemplos:

 Fonte: SEO Marketing / Foto: Montagem MX+.
Postado por: MXMais - http://www.mxmais.com.br


RAS IDEIAS DE NEGÓCIOS NOS LINKS ABAIXO:


APRENDA COMO IMPORTAR PRODUTOS DA CHINA, USA E PERU:


CURSO DE IMPORTAÇÃO: ROUPAS DE MARCAS, PEÇAS DE CARRO, COLETOR SOLAR COM NOTA E LUCRO ATÉ 400% !

    COMO FUNCIONA O GOOGLEBOT, O ROBÔ DO GOOGLE

    Veja como o Google descobre e armazena o conteúdo da internet

    COMO FUNCIONA O GOOGLEBOT

    Na internet, robots, ou robôs, são aplicativos que percorrem a internet em busca de conteúdo com o objetivo de indexar ou verificar alterações ocorridas desde a última "visita" (Saiba como funcionam os sites de busca, no início do tutorial). Robots também são conhecidos como "indexadores""bots" ou "crawlers". Muito conhecidos na comunidade SEO, possuem até nome próprio. Os robots do Google são chamados deGooglebot, os robots do Bing de Bingbot, os robots do Yahoo de Yahoobot ou Yahoo! Slurp. Seguindo links de páginas, eles permitem aos sites de busca varrerem a internet para armazenar o conteúdo encontrado pelo caminho.

    O que são links

    Eles são comandos utilizados em páginas da internet que levam o internauta a outras páginas do mesmo site ou fora dele. Geralmente, o link aparece em destaque, com outra cor ou sublinhado.
    Exemplo: clique no texto tutorial SEO e você será redirecionado ao início deste tutorial.

    Como trabalha o Googlebot

    Os robots começam seu trabalho em uma determinada página. Armazenam o conteúdo e mapeiam todos os links existentes nela. Em seguida, priorizam cada um dos links e começam a segui-los, a fim de armazenar o conteúdo e mapear os links encontrados, e assim sucessivamente.

    Como controlar a ação do Googlebot

    Nem todo o conteúdo de um site deve ser indexado pelos robots. Páginas de login, páginas repetidas e páginas de impressão são alguns exemplos. Existem algumas formas para impedir que o seu site seja visitado pelo Googlebot. Um deles é por meio do arquivo "robots.txt". Temos neste tutorial, uma página dedicada aorobots.txt. Uma outra forma de controlar o acesso do Googlebot no site é pela Meta Tag "robots".

    Fonte: SEO Marketing / Foto: Divulgação.
    Postado por: MXMais - http://www.mxmais.com.br


    RAS IDEIAS DE NEGÓCIOS NOS LINKS ABAIXO:


    APRENDA COMO IMPORTAR PRODUTOS DA CHINA, USA E PERU:


    CURSO DE IMPORTAÇÃO: ROUPAS DE MARCAS, PEÇAS DE CARRO, COLETOR SOLAR COM NOTA E LUCRO ATÉ 400% !