robots.txt, crawlers, User-Agent, entête HTTP, scripts, proxy, navigateurs, browsers

Connu sous le nom de robots.txt, le protocole d'exclusion des robots est un standard de fait visant à donner des instructions aux robots qui parcourent le web en permanence. A l'origine, il servait uniquement à préciser aux robots que certaines pages d'un site ne devaient pas être récupérées et indexées. Google a été l'un des premiers utilisateurs de ce protocole, même si ce moteur indique aujourd'hui qu'un fichier robots.txt n'est jamais respecté de façon absolue : une url peut toujours se retrouver indexée même si le fichier robots.txt n'autorise pas son indexation.

Ce fichier donne donc des indications aux robots pour essayer d'en modifier le comportement :

  • Types de robots autorisés ou refusés (par user agent)
  • Délai à respecter entre chaque page récupérée pour ralentir les robots et ainsi limiter leur impact potentiel lorsque le site est très gourmand en ressources de bases de données par exemple
  • Indication de l'existence d'un fichier sitemap.xml, donnant aux robots une liste pré-machée d'urls qu'ils peuvent avoir intérêt à indexer.

Ce fichier est toujours placé à la racine d'un domaine.

Voilà quelques pages présentant les fichiers robots.txt de certains domaines.

  • 1916: 1916.fr/robots.txt
  • 123 etcaetera: www.123etcaetera.fr/robots.txt
  • 1 db: 1db.fr/robots.txt
  • 123 pestacles: www.123pestacles.fr/robots.txt
  • 1001 opticiens: www.1001opticiens.fr/robots.txt
  • ab immo 16: ab-immo16.fr/robots.txt
  • abelecplus: www.abelecplus.fr/robots.txt
  • aappma dabo: www.aappma-dabo.fr/robots.txt
  • a 7 protection: www.a7protection.fr/robots.txt
  • adeir: www.adeir.fr/robots.txt
  • © 2024 www.http-header.com — cookies