Shaarli - Les discussions de Shaarli

Noindex, nofollow et robots.txt, attention aux erreurs ! - Blog AxeNet

vendredi 18 avril 2014 à 16:38

quaternum, le 18/04/2014 à 11:11
"On m’a souvent posé la question de savoir comment gérer les divers fichiers et directives qui permettaient d’éviter l’indexation de certaines pages d’un site par Google.

Je vois régulièrement des erreurs dans leur mise en œuvre. Ceci souvent, car les notions de crawl et d’indexation ne sont pas très claires pour tous. Essayons de clarifier et de voir comment on parle aux robots des moteurs de recherche."
(Permalink)

Shazen, le 18/04/2014 à 15:14
Petit point sur l'indexation de contenus.

via @quaternum http://liens.quaternum.net/?ApL0tQ
(Permalink)

Pixel Café, le 18/04/2014 à 16:29
Un rappel sur les bonnes pratiques lorsque l'on souhaite ne pas être indexé sur un moteur de recherche.
(via Shaarli.fr)
(Permalink)

jeekajoo, le 18/04/2014 à 16:38
Bon rappel.
Mais faudrait m'expliquer pourquoi c'était nécessaire de rajouter de la complexité là où il n'y en avait pas forcément besoin:
- J'ai mis une ligne "Disallow: /links/" dans mon robots.txt pour que mon site ne soit pas parcouru pas des robots.
- Une recherche google avec "site:fralef.me/links" me renvoie 1450 résultats. Ces résultats ont une description vide (cause=robots.txt) et proviennent de liens externes vers mon site.
- Et bordel! ça ne parait pas implicite que le but de mon robots.txt était au final est de ne RIEN indexer de /links/* ?
Techniquement, qu'est-ce qui empêchent les robots de regarder mon robots.txt quand ils gobent un lien externe vers mon site? RIEN.

lien via http://liens.quaternum.net/?ApL0tQ
(Permalink)