robots.txt: trucs et astuces

Connu sous le nom de robots.txt, le protocole d'exclusion des robots est un standard de fait visant à donner des instructions aux robots qui parcourent le web en permanence. A l'origine, il servait uniquement à préciser aux robots que certaines pages d'un site ne devaient pas être récupérées et indexées. Google a été l'un des premiers utilisateurs de ce protocole, même si ce moteur indique aujourd'hui qu'un fichier robots.txt n'est jamais respecté de façon absolue : une url peut toujours se retrouver indexée même si le fichier robots.txt n'autorise pas son indexation.

Ce fichier donne donc des indications aux robots pour essayer d'en modifier le comportement :

Types de robots autorisés ou refusés (par user agent)
Délai à respecter entre chaque page récupérée pour ralentir les robots et ainsi limiter leur impact potentiel lorsque le site est très gourmand en ressources de bases de données par exemple
Indication de l'existence d'un fichier sitemap.xml, donnant aux robots une liste pré-machée d'urls qu'ils peuvent avoir intérêt à indexer.

Ce fichier est toujours placé à la racine d'un domaine.

Voilà quelques pages présentant les fichiers robots.txt de certains domaines.

1916: 1916.fr/robots.txt

123 etcaetera: www.123etcaetera.fr/robots.txt

1 db: 1db.fr/robots.txt

123 pestacles: www.123pestacles.fr/robots.txt

1001 opticiens: www.1001opticiens.fr/robots.txt

ab immo 16: ab-immo16.fr/robots.txt

abelecplus: www.abelecplus.fr/robots.txt

aappma dabo: www.aappma-dabo.fr/robots.txt

a 7 protection: www.a7protection.fr/robots.txt

adeir: www.adeir.fr/robots.txt

robots.txt, crawlers, User-Agent, entête HTTP, scripts, proxy, navigateurs, browsers

Robots.txt et protocole d'exclusion des robots