robots.txt, crawlers, User-Agent, entête HTTP, scripts, proxy, navigateurs, browsers

Connu sous le nom de robots.txt, le protocole d'exclusion des robots est un standard de fait visant à donner des instructions aux robots qui parcourent le web en permanence. A l'origine, il servait uniquement à préciser aux robots que certaines pages d'un site ne devaient pas être récupérées et indexées. Google a été l'un des premiers utilisateurs de ce protocole, même si ce moteur indique aujourd'hui qu'un fichier robots.txt n'est jamais respecté de façon absolue : une url peut toujours se retrouver indexée même si le fichier robots.txt n'autorise pas son indexation.

Ce fichier donne donc des indications aux robots pour essayer d'en modifier le comportement :

  • Types de robots autorisés ou refusés (par user agent)
  • Délai à respecter entre chaque page récupérée pour ralentir les robots et ainsi limiter leur impact potentiel lorsque le site est très gourmand en ressources de bases de données par exemple
  • Indication de l'existence d'un fichier sitemap.xml, donnant aux robots une liste pré-machée d'urls qu'ils peuvent avoir intérêt à indexer.

Ce fichier est toujours placé à la racine d'un domaine.

Voilà quelques pages présentant les fichiers robots.txt de certains domaines.

  • 1916: 1916.fr/robots.txt
  • 123 etcaetera: www.123etcaetera.fr/robots.txt
  • 1 db: 1db.fr/robots.txt
  • 123 pestacles: www.123pestacles.fr/robots.txt
  • 1001 opticiens: www.1001opticiens.fr/robots.txt
  • 3 en - un: www.3-en-un.fr/robots.txt
  • 2 ic formation: www.2ic-formation.fr/robots.txt
  • abri cotier - ile - grande: www.abri-cotier-ile-grande.fr/robots.txt
  • © 2019 www.http-header.com