Fichier Robots
Robots.txt est un fichier texte que les webmasters créent pour apprendre aux robots du web comment explorer les pages de leur site web. Le fichier robots.txt fait partie du protocole d’exclusion des robots (REP), un groupe de normes web qui régit la manière dont les robots explorent le web, accèdent au contenu et l’indexent, et le servent aux utilisateurs. Le REP comprend également des directives telles que les méta-robots, ainsi que des instructions relatives à la page, au sous-répertoire ou au site dans son ensemble pour savoir comment les moteurs de recherche doivent traiter les liens (comme « follow » ou « nofollow »).
En pratique, les fichiers robots.txt indiquent si certains agents utilisateurs (logiciels de navigation sur le web) peuvent ou non explorer des parties d’un site web. Ces instructions d’exploration sont spécifiées en « interdisant » ou en « autorisant » le comportement de certains (ou de tous) les agents utilisateurs.
Exemple de fichier robot
# Group 1
User-agent: Googlebot Disallow: /nogooglebot/ # Group 2 User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml
Vous trouverez sur internet de nombreux générateurs de fichier robots.txt