« O Ultimo Teorema de Fermat, de novo | Inicio | Apple x86 »

junho 4, 2005

Google Sitemap

O Google está testando um substituto pro antigo "robots.txt", chamado Sitemap, que pretende modificar a forma com que sites são indexados em mecanismos de busca.

Quando um mecanismo de busca visita um site, ele antes procura por um arquivo chamado "robots.txt", que pode conter instruções de que endereços dentro do site o mecanismo de busca não deve visitar. Mas não há uma forma de informar que endereços devem ser visitados. Atualmente um bot vai pulando de link em link e, portanto, endereços que não possuem link em lugar algum jamais são encontrados.

A proposta do Google é ter um arquivo XML na raiz do site, contendo informações sobre todos os endereços que devem ser indexados. Informações incluem a URL e outras meta-informações como período de atualização (de forma que o bot saiba quando deve retornar), data da última atualização e prioridades na indexação. Porém, ao contrário do "robots.txt", não há garantias de que as informações contidas no arquivo XML serão utilizadas. Pelo menos não neste momento de testes. O arquivo serve mais como um guia para o mecanismo, uma forma de ajudá-lo a indexar.

Esse arquivo pode ser gerado a mão, mas em blogs e sites com atualizações freqüentes isso é complicado. Blogger e outras ferramentas deverão estar adotando em breve o formato e gerando o arquivo automaticamente, a exemplo do que já fazem para RSS. Para quem usa Movable Type, como é o caso aqui, é necessário criar um template para um arquivo que seja atualizado a cada novo post. Fiz um bastante simples:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
   <url>
      <loc><$MTBlogURL$></loc>
      <lastmod><MTEntries lastn="1"> <$MTEntryDate
format="%Y-%m-%dT%H:%M:%S"$><$MTBlogTimezone$> </MTEntries></lastmod>
      <changefreq>daily</changefreq>
      <priority>1.0</priority>
   </url>
   <MTArchiveList>
    <url>
     <loc><$MTArchiveLink$></loc>   
      <lastmod><$MTArchiveDate
format="%Y-%m-%dT%H:%M:%S"$><$MTBlogTimezone$></lastmod>
      <changefreq>never</changefreq>
      <priority>0.9</priority>
     </url>
   </MTArchiveList>
</urlset>

Basta criar um novo template no MT, colar o código acima e dar um nome para o arquivo como "sitemap.xml". Certifique-se de que a opção de "Rebuild automatically" esteja ligada. Esse template contém o endereço para o blog e para cada entrada dos arquivos. A freqüência de atualização pode ser alterada se o blog é modificado mais ou menos seguido, as possibilidades são: always, hourly, daily, weekly, monthly, yearly, never. Novamente, o bot pode visitar com mais ou menos freqüência do que a especificada, não se trata de ordens expressas.

Também ao contrário do "robots.txt", o mecanismo de busca (ainda) não procura sozinho por esse arquivo. É necessário notificar o Google sobre o endereço do arquivo. Para isso, basta visitar o site do Sitemap - pode-se usar o login da conta de Gmail - e informar o endereço no local apropriado. A vantagem disso é que pode-se saber quando o Google fez visitas ao arquivo.

23 comentarios

Caro Rodrigo,
Usei o sitemap.xml através do código PYTHON 2.2 e funcionou. É simples e direto.
Abraços

Jose Claudio Claudelino
http://www.smartunion.com.br

Eu fiz um teste com uma página:
http://www.smartunion.com.br/cftv_dvr_video_server_monitoramento_digital_cctv.asp

e inclui no Sitemap.xlm.gz e em 3 dias vi o resultado.

Abraços,

João Alexandre,
Gerente Sistemas

Eu atualizei nossa página e mantenho um log com data hora no final, para checar no google.
Após o upload, eu vi que no dia seguinte o google atualizou a página.
Abraços e parabens pelos ensinamentos.

A utilização do sitemap, permitiu uma atualização rápida de 95% das páginas do meu site.

Eu uso Sitemap no meu site. Sem ele ia ser impossível de indexar as páginas direito, pq eu uso querystrings.

O SiteMap do Google é fundamental para que as páginas fiquem organizadas e mantidas no index do Google.

No Linux é importante que ao enviar, utilize o comando gzip sitemap.xml, antes de enviar para o site. Lembre-se que o GZIP "transforma" o sitemap.xml em sitemap.xml.gz (você não teria a cópia original). Para voltar ao normal, digite gunzip sitemap.xml.gz.

Legal saber que podemos "controlar" o que o Google enxerga nas nossas páginas.
Ótimo Artigo.

Utilizamos o SITEMAP para atualizar o site da Smart Union.

Eu coloquei no meu site, já fazem dois dias e ainda não vi diferença nenhuma, ele soh indexou 32 paginas

Eu coloquei aqui www.gsmfans.com.br/sitemaps.xml
Eu também coloquei um robots.txt...
Não vi diferença nenhuma até o momento!!! Detalhe, o google já reconheceu o sitemap espero que ele faça alguma coisa!!!

Ronaldo - você tem que criar um arquivo TAR.GZ (dentro do formato indicado pelo Google). Com sua conta GMAIL, abra uma conta no Sitemap do Google.
Abraços,

Muito interessante esse artigo.

Como fazer o upload do sitemap? Meu blog já está indexado.Nas ferramentas do google não há como.
Abraços
Balbino

Após eu atualizar o SITEMAP, por volta de 3 meses depois vimos que 85% das paginas estavam indexadas no Google.

Parte desse processo é possível de ser visto no site do google. O ideal é pegar um arquivo template, montar com as URLs e compactar com o comando: gzip nomedoarquivo

Incluir um dado no Sitemap do Google:
Descompacte o arquivo via gunzip, entre no VI, copie uma linha qualquer, adapte-a para o novo URL e salve. Depois compacte-o via gzip.
Abraços,

Achei interessante, mas sou leigo nesse assunto de template, onde eu o encontro?
Abraços.

O uso do Sitemap foi fundamental para colocarmos todas as paginas indexadas. O artigo é excelente para auxiliar as empresas.

Vale ressaltar que esse arquivo pode ser montado direto via um editor de texto. Entretanto a transferencia para o site requer uma conta no Gmail e o arquivo estar compactado no formato gz (usando o GZIP do Linux).

Também é necessário que separe os Sitemaps por plataforma cliente, isto é, Computadores e Mobile Phones.

Eu fiz 2 sitemaps. Um ligado ao site em geral e outro apontando para paginas especiais que cabem numa tela de celular ou I-phone.

Um exemplo pode ser visto nos editoriais do Google no link:
http://www.google.com/support/webmasters/bin/answer.py?answer=40318&hl=pt_BR

Eu estava procurando essas informações. Fiz eu meu site e espero estar melhorando no rank.

Claudio
Idea Telecom - cabeamento estruturado e fibra óptica

Sobre esta entrada

Esta página contiene una sola entrada realizada por ricardo y publicada el junho 4, 2005 9:26 AM.

O Ultimo Teorema de Fermat, de novo es la entrada anterior en este blog.

Apple x86 es la entrada siguiente en este blog.

Encontrará los contenidos recientes en la página principal. Consulte los archivos para ver todos los contenidos.