guideline para robotsstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt...

14

Upload: others

Post on 04-Apr-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,
Page 2: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

GUIDELINE PARA ROBOTS.TXTSITES: http://www.vestibularja.com.br/E todos seus subdomínios

Page 3: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

AgendaOVERVIEW

IMPLEMENTAÇÃO

CHECKLIST

Page 4: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

OVERVIEW

Page 5: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

O QUE É ROBOTS.TXT?

Foi criado um padrão na internet onde cada websitepode incluir na raiz do seu site um arquivo chamadorobots.txt que diz aos mecanismos de buscas quaispáginas os robôs NÃO deverão visitar.

O robots.txt é muito importante, principalmente emalguns casos onde a empresa possui alguns conteúdosque não querem que sejam identificados e indexados, ouseja, com o robots.txt configurado corretamente, épossível escolher as páginas que não podem ser exibidasna busca do Google.

Em outros casos, a utilização desse arquivo também éimportante para evitar conteúdo duplicado, onde duasURLs distintas possuem o mesmo conteúdo

Exemplo do arquivo robots.txt do Google:https://www.google.com.br/robots.txt

Page 6: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

O QUE BLOQUEAR?

As páginas que devem ser especificadas no arquivo robots.txt para que o mecanismo de busca não as encontre são, por exemplo:

• Páginas de login;• Páginas de intranet da empresa;

Além de apenas bloquearem essas páginas que não interessantes ao usuário, as informações importantes do site e de cadastros tornam-se mais seguras assim como:

• Evita que os buscadores indexem dados cadastrais de usuários;• Evitam que buscadores indexem dados cadastrais de empresas;• Evitam acessos restritos de parte administrativa do sistema;• Evitam acessos restritos de parte administrativa da empresa;• Intranet da empresa;• Informações confidenciais no geral.

Page 7: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

CONFIGURAÇÕES PADRÕES

Ao lado temos um exemplo de como montar o arquivo de robots.txt e abaixoexplicaremos a função de cada marcação.

User-agent: Aqui você identifica marcando com umasterisco que todos os robôs dos mecanismos debusca, podem seguir ou não as paginas marcadasabaixo (Google, Yahoo, Bing e etc).

Disallow: Aqui deverá marcar as páginas que os robôsnão devem indexar, sempre a partir do diretório e nãodo domínio. Vale lembrar que qualquer caminho apartir do diretório que for incluído não será seguidopelo robô e não será indexado pelos mecanismos debuscas.

Exemplo

Page 8: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

IMPLEMENTAÇÃO

Page 9: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

CENÁRIO ATUAL

Atualmente temos 6 sites ativos sob o domínio “vestibularja.com.br” (o principal e seussubdomínios conforme lista abaixo), e segundo as recomendações do Google (ler aqui),cada domínio/subdomínio precisa ter seu próprio arquivo robots.txt, pois as regras doarquivo robots.txt do site raiz (http://www.vestibularja.com.br/robots.txt) não serãoaplicadas nos demais subdomínios.

• http://www.vestibularja.com.br/• http://pitagoras.vestibularja.com.br/• http://unic.vestibularja.com.br/• http://unime.vestibularja.com.br/• http://fama.vestibularja.com.br/• http://unopar.vestibularja.com.br/

Porém, hoje não existem subdiretórios físicos no servidor fazendo esta separação, o queinviabiliza a criação simples dos arquivos. Vale citar que atualmente não existe nenhumaarquivo robots.txt nos sites do Vestibular Já.

Page 10: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

ARQUIVO ROBOTS.TXT – MESMO CONTEÚDO

Teoricamente haveria a necessidade de montar um arquivorobots.txt diferente para cada subdomínio pois cada um teriauma configuração diferente, porém, o conteúdo será exatamenteo mesmo para todos os sites, já que suas estruturas sãoidênticas.

Neste cenário, será enviado um arquivo robots.txt com oconteúdo ao lado, e o mesmo deverá ser acessível em todasURLs abaixo:

• http://www.vestibularja.com.br/robots.txt• http://pitagoras.vestibularja.com.br/robots.txt• http://unic.vestibularja.com.br/robots.txt• http://unime.vestibularja.com.br/robots.txt• http://fama.vestibularja.com.br/robots.txt• http://unopar.vestibularja.com.br/robots.txt

Page 11: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

ARQUIVO ROBOTS.TXT – CONTEÚDO DIFERENTE

Caso o conteúdo dos arquivos robots.txt fossem diferentes para cada domínio, a soluçãoideal seria criar 1 arquivo robots.txt para cada site, inserir na raiz do servidor ereescrever condicionalmente a URL do robots.txt de acordo com o subdomínio atravésdas configurações no NGINX. Vale lembrar que a URL final deveria ser sempre:

http://www.vestibularja.com.br/robots.txthttp://subdomonio.vestibularja.com.br/robots.txt

Links de Referência (versão com .htaccess):• https://moz.com/community/q/block-an-entire-subdomain-with-robots-txt#reply_26992• http://webmasters.stackexchange.com/questions/61654/redirect-google-crawler-to-different-

robots-txt-via-htaccess

Page 12: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

CHECKLIST

Page 13: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

CHECKLIST DE AÇÕES

Inserir robots.txt enviado anexo ao guideline

Deixá-lo acessível em: http://www.vestibularja.com.br/robots.txt http://pitagoras.vestibularja.com.br/robots.txt http://unic.vestibularja.com.br/robots.txt http://unime.vestibularja.com.br/robots.txt http://fama.vestibularja.com.br/robots.txt http://unopar.vestibularja.com.br/robots.txt

Page 14: GUIDELINE PARA ROBOTSstorage.anhanguera.com/.../2017/3/vestibular-ja-robots.pdf · robots.txt diferente para cada subdomínio pois cada um teria uma configuração diferente, porém,

OBRIGADO!