Connu sous le nom de robots.txt, le protocole d'exclusion des robots est un standard de fait visant à donner des instructions aux robots qui parcourent le web en permanence. A l'origine, il servait uniquement à préciser aux robots que certaines pages d'un site ne devaient pas être récupérées et indexées. Google a été l'un des premiers utilisateurs de ce protocole, même si ce moteur indique aujourd'hui qu'un fichier robots.txt n'est jamais respecté de façon absolue : une url peut toujours se retrouver indexée même si le fichier robots.txt n'autorise pas son indexation.
Ce fichier donne donc des indications aux robots pour essayer d'en modifier le comportement :
- Types de robots autorisés ou refusés (par user agent)
- Délai à respecter entre chaque page récupérée pour ralentir les robots et ainsi limiter leur impact potentiel lorsque le site est très gourmand en ressources de bases de données par exemple
- Indication de l'existence d'un fichier sitemap.xml, donnant aux robots une liste pré-machée d'urls qu'ils peuvent avoir intérêt à indexer.
Ce fichier est toujours placé à la racine d'un domaine.
Voilà quelques pages présentant les fichiers robots.txt de certains domaines.