Hébergement Internet évolutif
coinhg bord coinhd
 
panel  Espace Client
Login
Password
arrow Forgotten?
arrow Créer un compte
 
coinbg bord coinbd
coinhg bord coinhd
 
panel  Newsletter
   
  Subscribe
Unsubscribe
 
 
coinbg bord coinbd
coinhg2 bord coinhd2
 
news  News
14/03/2007
Encore et toujours des nouveautés et promotions sur Jexiste pour ce
mois de mars 2007 !


* Paiement p ...
 news
 
coinbg2 bord coinbd2
>FAQ > Création de sites > Le fichier Robots.txt

Technical Support
FAQ (frequently asked questions)
    Compte
    Noms de domaine
    Statistiques
    Technique
    E-Mail
    Services supplémentaires
FAQ (frequently asked questions) classée par categorie
The Files - Web sites creation
The Files - The laws and Internet
Earn money with your web site - The advertising networks
The generators
Aide graphique
imode


Le fichier Robots.txt.

Nous allons vous expliquer, ici, le fonctionnement du fichier robots.txt.
Son avantage ? Il vous permettra d'avoir vos pages web indexées par la plupart des robots utilisés par les moteurs de recherche.
Il va aussi vous permettre d'interdire l'accès à certaines de vos pages aux moteurs de recherche.

En gros, pour simplifier les choses, le fichier " robots.txt " qui devra OBLIGATOIREMENT se trouver à la racine de votre site internet, donnera simplement des instructions au spider du moteur en lui indiquant ce qu'il peut faire et ce qu'il ne doit pas faire .

Quand un robot arrive sur un site pour indexer ses pages ou simplement pour voir les pages ajoutées (par exemple, http://www.votresite.com/), il va automatiquement rechercher le fichier " robots.txt " à la racine du site, qui sera donc à l'adresse http://www.votresite.com/robots.txt, avant de rechercher n'importe quelle autre page.
Si ce fichier existe, il commencera par lire les instructions qu'il contient et suivra les commandes à la lettre.
Si, de surcroît, il ne trouve pas de fichier " robots.txt " à la racine de votre site, il commencera son travail de lecture et d'indexation de vos pages afin de les ajouter à sa base de données, considérant que rien ne lui est interdit.

En outre, vous ne pouvez avoir qu'un seul fichier robots.txt sur votre serveur, il doit se trouver à la racine de votre site et doit TOUJOURS être écrit en minuscules.

Le style de contenu du fichier robots.txt se présente de la façon suivante :
User-agent: *
Disallow: /cgi-bin/
Disallow: /temps/
Disallow: /personel/
Disallow: /services/infoprix.htm

Explication :
User-agent: * signifie que l'accès est accordé à tous les robots.
Disallow: signifie simplement que l'accès est refusé aux robots.
Disallow: /cgi-bin/ : l'accès est refusé aux robots dans le dossier cgi-bin
Disallow: /temps/ : l'accès est refusé aux robots dans le dossier temps
Disallow: /personel/ : l'accès est refusé aux robots dans le dossier personnel
Disallow: /services/infoprix.html : l'accès est refusé aux robots pour la page infoprix.htm dans le dossier services

En prenant l'exemple du dossier /temps/, et en imaginant que vous ayez une page nommée aide.htm dans le dossier /temps/, son url sera donc: http://www.votresite/temps/aide.htm
En mettant la commande " Disallow: /temps/ " aucun robot ne pourra indexer la page aide.htm qui se trouve dans le dossier /temps/ vu que vous lui en interdisez l'accès.

Ne jamais laisser de lignes vierges ou blanches (ENTER) le robot l'interprèterait comme étant la fin du fichier.
L'étoile (*) quand à elle, est acceptée uniquement dans le champ User-agent.
Comme dans le langage PHP, le signe " # " est considéré comme étant une ligne à ne pas prendre en compte et sert à inclure des commentaires.
Attention à toujours mettre le signe " # " au début d'une ligne pour faire un commentaire.

Infos :
Nom des principaux robots
Altavista : Scooter
Hot Bot : Slurp
Lycos : T.Rex
Northern Light : Gulliver