Robots.txt

  limiter certains référencements

L’éthique du Web a défini un Protocole d’exclusion des robots pour filtrer les robots de référencement, leur éviter d’explorer les arcanes cachées de votre serveur : voyons l’utilisation de ce fichier ./robots.txt avec SPIP.

Article publié le 12 mars 2014, et actualisé en mars 2017

 
 
 
 
 
 
 
 
 
 

Le but de ce fichier texte est seulement de proposer aux robots d’indexation automatique, une liste de sous-répertoires à omettre quand ils viendront indexer les pages de votre site.
Attention,ce fichier n’apporte aucune sécurisation ni confidentialité de vos informations !

Indépendamment des accès externes contrôlés par les droits /répertoires du serveur, voici le squelette de base proposé par Squelettes de la "dist" :

#HTTP_HEADER{Content-Type: text/plain; charset=#CHARSET}

# robots.txt
# @url: #URL_SITE_SPIP
# @generator: SPIP #SPIP_VERSION
# @template: #SQUELETTE

User-agent: *
Disallow: /local/
Disallow: /ecrire/
Disallow: /plugins-dist/
Disallow: /lib/
Disallow: /plugins/
Disallow: /prive/
Disallow: /squelettes-dist/
Disallow: /squelettes/

Sitemap: #URL_SITE_SPIP/sitemap.xml

User-agent: *
Crawl-delay: 1

Malheureusement [1], il s’agit d’un squelette (c’est donc un fichier robots.txt.html) accessible dans Squelettes de la "dist", mais qui nécessite de mettre en place .htaccess pour être opérationnel [2].

Par mesure de sécurisation complémentaire, vous pourrez vouloir masquer les indications de version de SPIP : supprimer la balise #SPIP_VERSION plus haut, et le fichier svn.revision à la racine de SPIP..


Merci de nous signaler les coquilles, imprécisions ou erreurs qui figureraient dans cette page.

[1Sans .htaccess, ce squelette de robots.txt n’est pas naturellement activé..

[2Sinon l’accès à la page #URL_SITE_SPIP/robots.txt ne provoquera pas de calcul par SPIP !


Liens A2A visibles seulement pour les inscrits.
Liens visibles seulement pour les inscrits.

Article publié le 12 mars 2014, et actualisé en mars 2017 .

Répondre à cet article