A quoi sert un fichier robots.txt et comment le modifier ?

Pour référencer un site, les moteurs de recherche envoient leurs robots pour indexer les nouveaux contenus. Des robots sont donc les liens entre les moteurs de recherche et les sites.

Loin de l'idée que l'on peut avoir d'un robot, ce sont simplement des petits programmes qui détectent qu'un nouveau contenu a été créé ou qu'un contenu existant a été modifié. Le fichier robots.txt permet de communiquer des instructions à ces robots.

Qu'est ce qu'un fichier robots.txt ? 

Ou plutôt devrions-nous dire : "Qu'est ce que le fichier robots.txt ?" En effet, ce fichier est unique. Il indique aux robots des moteurs de recherche ce qu'ils doivent et ce qu'ils ne doivent pas indexer. Par convention, les robots des différents moteurs de recherche consultent le fichier robots.txt avant d'indexer un site Web.

Où se trouve le fichier robots.txt ? 

Ce fichier se trouve à la racine, tout comme le sitemap de votre site. Vous n'avez rien à faire pour le mettre en place, il est généré automatiquement à la création de votre site mais vous pouvez le modifier dans votre manager, dans Marketing >  Référencement > Robots.txt.

Que contient le fichier robots.txt ?

Par défaut, le fichier robots.txt contient trois informations. Pour les visualiser, rendez-vous sur la page d'accueil de votre site, tapez : /robots.txt à la fin de l'adresse (URL) de votre site et affichez la page.

  • User-agent : cette ligne indique quel robot est concerné par la règle ou l'interdiction. Le caractère * signifie que cela concerne tous les robots.
  • Allow : cette ligne signifie "autorisation". Le caractère / signifie que l'on peut accéder à toutes les URL de votre site. Ces deux premières lignes signifient donc que tous les moteurs de recherche peuvent indexer toutes les pages de votre site.
  • Sitemap : c'est l'adresse à laquelle se trouve votre sitemap. Le sitemap est le fichier dans lequel sont listées toutes les adresses des pages de votre site. Par défaut il est créé automatiquement à la racine de votre site.

Le fichier robots.txt

Est-il nécessaire de modifier son fichier robots.txt ?

Si vous souhaitez que tout le contenu de votre site soit indexé dans les moteurs de recherche, modifier le fichier robots.txt est inutile. Si vous laissez le fichier tel qu'il est actuellement, vous indiquerez aux robots des moteurs de recherche que vous souhaitez que tout votre contenu soit systématiquement indexé.

Par défaut, le contenu de ce fichier est créé donc automatiquement. Mais dans certains cas de figure, un webmaster pourrait avoir besoin de modifier ce fichier. Attention, modifier ce fichier aura des impacts sur votre référencement.

Ne le modifiez pas sans maîtriser le sujet. Ayez bien conscience qu'une erreur d'écriture aura un effet non désiré sur votre référencement.

Nous insistons sur le fait que vous devez utiliser cette option avec prudence. Par défaut, vous n'avez pas besoin d'effectuer la moindre modification à l'intérieur de ce fichier.

Comment modifier le fichier robots.txt ?

Pour modifier votre fichier robots.txt, rendez-vous dans votre manager dans Marketing >  Référencement >  Robots.txt. Décochez la case Robots.txt automatique.

Comme nous vous l'expliquions, le fichier contient 3 lignes, dont les 2 premières qui indiquent que tous les moteurs de recherche ont l'autorisation d'indexer tout le contenu de votre site. Ce contenu est ajouté pour vous automatiquement.

 Le fichier robots.txt

Vous pourriez avoir besoin d'indiquer à un moteur de recherche particulier qu'il ne doit pas indexer tel ou tel contenu. Si vous souhaitez par exemple que Google n'indexe pas le forum de votre site, il faudrait modifier le fichier comme ceci :

Modifier son fichier robots.txt

Pour plus d'informations sur les usages et sur le protocole d'exclusion des robots, nous vous recommandons la lecture de cet article

Comment exclure une ou plusieurs pages du fichier robots.txt

Vous avez compris comment modifier le fichier et exclure un répertoire complet de robots.txt ("forum" dans notre exemple ci-dessus).

Vous pourriez avoir besoin d'exclure une URL de l'indexation. Dans ce cas, renseignez Disallow: le chemin de la page depuis la racine du site, c'est à dire tout ce qui se trouve derrière l'extension (.com, .fr, .e-monsite.com etc).

Pour l'adresse de cette page par exemple https://www.e-monsite.com/pages/categorie/page1.html, il faudrait donc renseigner /pages/categorie/page1.html

Ecxlure une URL de l'indexation

En suivant la même logique, si vous avez besoin d'exclure plusieurs URLs de l'indexation, ajoutez autant de lignes Disallow: que besoin

Exclure plusieurs URLs de l'indexation

Comment restaurer le fichier de base ?

Si vous souhaitez restaurer le fichier de base, rendez-vous dans Marketing > Référencement > Robots. Cochez la case Robots.txt automatique. puis enregistrez la page.

Conclusion : ressources et exemples

 

Pour en savoir plus à ce sujet, nous vous recommandons la lecture de ces articles: