Tutorial référencement naturel sur moteurs (Google...)
...
I-A-2 - Bien comprendre l'objectif central de Google
Même si les 2 fondateurs sont "originaux" et priment quelquefois l'idéologie sur le business, globalement Google est une société qui doit générer beaucoup de profit. Elle sera donc impitoyable avec tout obstacle sur ce chemin.
Comment un site WEB (le vôtre) devient-il un obstacle sur le chemin de Google ???
Tout ce qui peut polluer l'index de Google est un ennemi de Google :
Si votre site fait cela volontairement ou non, il sera plus ou moins sanctionné par Google. Pourquoi autant d'attention sur les contenus et la pollution de l'index ?
Regardez l'histoire de Google et des moteurs sur le net. Les internautes font le moteur prépondérant. Qu'ils soient déçus, par AltaVista puis par Yahoo!, alors massivement les internautes quittent leurs habitudes et investissent un autre outil.
L'objectif premier de Google, objectif qui passe même devant les résultats financiers, est de satisfaire les internautes en leur donnant des résultats pertinents.
Polluer volontairement ou non l'index de Google plombe la crédibilité des résultats et peut potentiellement dégoûter des internautes de Google. Donc pas de quartier pour les pollueurs d'index.
I-B - Pourquoi un référencement ? Le changement de comportement des clients et des prospects
Tout type d'acheteur, entreprise ou particulier, passe désormais par un moteur sur Internet (Google...) pour :
Être invisible sur Google ou autres moteurs c'est perdre des prospects qualifiés et ciblés. Donc du business. Demain, la valorisation d'une entreprise inclura la qualité de son référencement
...
I-D - Initiation au référencement en termes simples
I-D-1 - Étape #1 - Mots et expressions clefs - La mission du marketeur
I-D-2 - Étape #2 - Accessibilité technique & sémantique du site - Les contenus voulus - Le rôle de la technique et du marketeur
L'accessibilité se divise en deux parties :
Répéter, "spammer", un mot dans une page n'est certainement pas efficace. Au contraire. Disperser cette expression clef partout sur le site n'est pas efficace non plus. Une accessibilité sémantique est bien plus subtile et elle sera abordée en détail plus avant dans ce document.
Le site WEB qui accueille les prospects et clients doit : •
Être accessible aux moteurs (un % important de sites bloquent tout ou partie des robots de Google pour cause de maladresses techniques)
Profil type pour cette étape : Webmestre ou développeur comprenant Google
I-D-3 - Étape #3 - Être bien positionné
Référencer son site en le modifiant techniquement ne suffit pas à avoir un bon positionnement
Il faut avoir des 'liens nommés entrants' (backlinks dans le jargon) sur son site
Profils types :
Piège(s) : les liens dits "annuaires" - Ex : "350 HT l'inscription dans 5000 annuaires du net" - Une alternative un zeste "provoc" : prenez 7 billets de 50 et jetez-les par la fenêtre de votre bureau. Ce type de liens ne participe que fort modestement au référencement efficace d'un site.
I-D-4 - Étape #4 - Maintenir son référencement & quelques trucs
...
I-F - Rappel d'évidences
I-F-1 - Inutile de référencer un site Internet touffu
Comment évaluer si votre site est acceptable ou si il doit être révisé, retouché voire même refondu complètement ? Comparez le à ses concurrents, demandez à des "prospects" réels ou tests leur avis et leurs raisons. Questionnez aussi un spécialiste.
Réfléchir avant d'agir, ne pas hésiter devant un budget "réflexion" et analyse pourra vous faire économiser du temps, de l'argent et gagner en qualité.
I-F-2 - Inutile de référencer des mots clefs inutilisés
Personne ne les trouvera ! Donc pas de visiteurs.
Nous verrons comment utiliser les outils gratuits de Google et Yahoo ! pour évaluer approximativement un potentiel de fréquentation.
Un outil de Google payant (une poignée d'euros) permet d'affiner.
I-G - Définitions
I-G-1 - Les termes simples
Google référence des pages HTML et non des sites !
Le référencement passif : c'est le travail à réaliser sur le site tant en mot clef qu'en modifications techniques pour référencer le site
Le référencement actif : ce sont les actions menées hors du site pour référencer ledit site.
le Page Rank (PR) : la définition fait l'objet d'un paragraphe dédié plus loin dans le présent document.
Un annuaire Internet fonctionne comme les "Pages Jaunes" de Wanadoo : les sites y sont classés par thèmes ou par ordre alphabétique. Une intervention humaine côté annuaire est généralement nécessaire pour contrôler la qualité de l'inscription. Cela en explique le coût facturé par l'annuaire à l'entreprise qui s'y inscrit.
Un moteur est automatisé. Une flotte de robots logiciels (spider, Google Bot...) parcourent Internet, suivent des liens de sites en sites et ils capturent des pages, qu'ils stockent dans les espaces disques du moteur (15 000 serveurs en 2004 chez Google pour vous donner une idée) et dont ils indexent tous les mots significatifs dans une immense base de données centralisée.
Le positionnement traduit le fait d'être présent ou non dans un résultat de recherche sur mots clefs existants dans une des pages de votre site. Il traduit plus finement votre position dans la réponse par rapport à la 1ère réponse (la meilleure place bien sur). Les places qui comptent sont celles des 3 premières pages de 10 réponses unitaires (10 réponses correspond au format standard de réponse de Google. Ce format est bien sur modifiable par l'internaute mais c'est un autre aspect de Google)
Un cookie est un code de marquage envoyé par un site Internet sur votre disque dur. Ce code est unique. Si vous revenez sur le site Internet auteur du cookie, seul lui peut le lire... et vous identifier. De nombreux sites commerciaux utilisent cette technique pour donner du confort à leurs usagers, contrôler l'accès et... comprendre vos habitudes.
Un jeton de session est un genre de cookie (un code de marquage) utilisé comme code obligatoire d'accès à des pages du site. Cette technique est utilisée pour contrôler l'accès à des contenus sensibles, pour lutter contre les intrusions, pour permettre le cheminement dans des transactions financières en ligne etc.
Critères page ON : ce sont les critères de chaque page qui ont un impact sur l'aspect visuel, au sens large. L'internaute perçoit une modification d'un tel critère. Exemple : gérer les balises <hx></hx> (h1, h2...) pour la mise en page plutôt que du <strong></strong>.
Critères page OFF : ce sont les critères de chaque page qui n'ont AUCUN impact sur l'aspect visuel. La balise meta DESCRIPTION par exemple.
Critères ON et OFF PAGES : il y a environ 1000 critères pris en compte par Google... Tous n'ont pas le même poids bien sur. Les plus importants :
I-G-2 - Page Rank
I-G-2-a - Objectif recherché
Google veut satisfaire ses usagers (et les fidéliser par leur contentement)
Comment détecter une page ayant un contenu et une pertinence de bonne qualité par rapport à une autre moins pertinente ?
Une des (multiples) réponses consiste pour Google à se baser sur l'avis des internautes.
Le principe est le suivant : plus les internautes vont sur un site, plus des sites WEB mentionnent un site, alors plus ce site aura de visiteurs et donc il dispose potentiellement de contenus de qualité susceptibles de répondre efficacement à la requête d'un internaute.
Comment faire ? En créant le page rank, unité de mesure basée sur :
Plus un site populaire a un lien pointant vers la page à indexer, plus elle communiquera un page rank élevé à cette page (principe des vases communicants)
Plus il y a de sites qui ont des pages pointant vers cette page, plus le page rank sera élevé.
Voilà pour la définition simple et l'objectif recherché par Google.
Afin de limiter les échanges de liens non pertinents, Google "facture" les pages qui possèdent des liens sortants vers d'autres pages externes au site. Il retire un % de PR de la page appelante pour le transférer vers la page pointée. (principe des vases communicants)
I-G-2-b - Une définition plus complète
Concrètement : à quoi sert le PR, pourquoi en avoir c'est mieux ?
Un PR élevé est garant des points suivants :
La base du Page Rank, noté PR dans la suite des pages de ce document, est une formule mathématique, d'aspect complexe mais finalement simple à appréhender quand on en comprend les principes fondamentaux.
Comprendre le PR est important pour pouvoir améliorer son positionnement et sa visibilité sur le net via Google et pour limiter au maximum ses propres pertes de PR pour les liens sortants de ses propres pages.
ATTENTION : l'application de cette formule comporte des exceptions non documentées par Google.
Abordons ces exceptions avant même d'étudier la formule, c'est important :
I-G-2-c - La formule
Nous assumons qu'une page A reçoit des liens (ou "votes") émis par les pages T1. à Tn.
Le paramètre d est un facteur d'amortissement pouvant être ajusté entre 0 et 1. Nous donnons généralement à d la valeur 0.85.
De même, C(A) est défini comme le nombre de liens émis par la page A, (liens sortants). Le PageRank de la page A est défini comme suit :
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
Le PageRank peut être calculé en utilisant un simple algorithme itératif et il correspond au vecteur propre principal de la matrice normalisée des liens du Web.
...
L'examen de cette formule permet de voir que le PageRank d'une page n'ayant aucun lien entrant sera de 0.15.
Soit :
(1 - 0.85) + 0.85*(0) = 0.15
Plusieurs sites, forums pensent que l'échelle du Page Rank est logarithmique, sans que ceci ne soit officiellement admis par Google. Personnellement j'ai mesuré que oui, l'échelle du PR est logarithmique. La base utilisée est estimée. Il est probable que cette base évolue dans le temps. Plus complexe encore, je soupçonne que la base de log ne soit pas la même tout le long de la courbe. Mais bon, restons sur l'hypothèse que la base de log est stable pour simplifier la compréhension de ce mécanisme.
Prenons une échelle logarithmique de base 10 pour simplifier nos calculs et pour bien illustrer notre propos.
La communauté des référenceurs étudiant Google estime qu'actuellement, la base de log utilisée oscille dans la plage 5 à 8. Notre exemple de 10, rappelons le, permet de simplifier le cours. Il n'est d'ailleurs pas exclus que Google ne passe un jour à la valeur 10 devant l'augmentation continue du nombre de sites et de pages à indexer.
PageRank Affiché
(log base 10) PageRank
réel (calculé)
PR0 0 <= PR < 1
PR1 1 <= PR < 10
PR2 10 <= PR < 100
PR3 100 <= PR < 1000
PR4 1000 <= PR < 10000
Chaque niveau de Page Rank est 10 fois plus élevé que le niveau précédent. En clair il est 10 fois plus ardu de passer de PR4 à PR5 que de passer de PR3 à PR4.
Une première conséquence de cette formule : si un site n'évolue pas, son PR se dégrade au fil du temps. En effet, le nombre de pages, de sites augmentant continuellement, le nombre de liens C(Tn) augmentent et le PR transféré diminue.
Chaque fois que la base augmente pour faire face à la quantité de pages à indexer, la plage de chaque PR augmente et tend à faire diminuer le PR des pages d'un site non maintenu à jour.
Une autre conséquence de cette formule : elle tend à faire converger le PR moyen d'une page vers UN.
La manière dont Google a présenté cette formule indique qu'il n'est pas nécessaire de disposer de tous les PR des pages. En itérant la formule, le calcul converge vers la valeur finale. Bref, cela ne consomme pas de ressources si importantes.
I-G-3 - Important, ne pas confondre PageRank et positionnement !
Un bon page Rank, c'est-à-dire une bonne popularité d'après Google de votre site n'est pas l'assurance d'être bien positionné en résultats de recherche.
Certes un bon page Rank aide à avoir un bon positionnement mais il est très facile d'avoir un site de page Rank 1 ou
2 et d'être mieux positionné sur des mots clefs qu'un site de page Rank 4 ou 5. mal géré sur ces même mots clefs.
Pourquoi ? Parce que Google veut publier des résultats pertinents à ses internautes et les sites à fort pouvoirs financiers sont ainsi limités en efficacité de l'argent face à la qualité. des contenus.
Comment ? en travaillant bien la sémantique puis quelques backlinks, un site à petits moyens financiers pourra être mieux positionné qu'un site disposant d'un budget référencement (et donc des moyens d'obtention d'un bon page rank) mais relativement pauvre en contenu ou mal géré en accessibilité (technique ou sémantique)
Conclusion : le rédactionnel prime sur les astuces techniques. Mais sans une bonne accessibilité, le rédactionnel, le contenu aura beaucoup de mal à émerger.
II - Le référencement passif
II-A - Architecture et accessibilité technique
II-A-1 - Votre site, s'il existe, est-il visible par Google ?
3 outils simples vous permettent de faire une vérification :
Lynx : ce navigateur pour mal voyant et aveugle vous montre le site tel qu'il est pour un bot Google. Si il manque des liens, vous le verrez ! Rappel : plus le texte et les liens sont hauts dans une page, plus ils sont pris en compte par Google. Il ya une légère priorité de haut en bas.
II-A-2 - Un peu de technique HTML, XHTML et CSS2 - Le minimum nécessaire
Il existe de nombreux cours gratuits sur HTML, CSS etc. ainsi que des ouvrages payants.
CSS version 2 représente une grande amélioration sans aucun inconvénient. Faisons un rapide tour de cet aspect technique qui facilitera la tâche clef de cette étape : disposer d'un site lisible par Google.
Voici quelques raisons d'utiliser les feuilles de style CSS pour gérer la mise en forme de vos pages HTML
II-A-3 - La liste des interdits et les problèmes
II-A-3-a - Le robot Google doit pouvoir suivre les liens cliqués
Sinon, aucun travail de référencement ne pourra donner de résultat.
Pour permettre un accès technique aisé aux robots logiciels de Google (et des autres moteurs concurrents) voici quelques conseils clefs :
II-A-3-b - Pas de site entièrement en Flash
Vous pouvez bien sur agrémenter votre site d'exposés et autres outils d'aide à la vente développés en flash, mais il est très déconseillé de réaliser toute le site en flash.
Google, pour différentes raisons, n'indexe pas correctement le flash et pour certaines raisons non techniques mais conceptuelle, cette situation n'est pas près de changer.
II-A-3-c - Pas de frames si possible
Une frame, c'est-à-dire une partie de la page HTML, est vue comme une page indépendante. Cela perturbe (négativement) le référencement. Les performances actuelles des réseaux publics, dopés par ADSL, permettent de se passer de cette optimisation (l'usage des frames).
II-A-3-d - Pas de pages dynamiques ou alors attention à ce que l'on fait
Une page dynamique est une page HTML dont les contenus textes et visuels sont issus en temps réel d'une base de données
Une page contenant des animations, certes dynamiques, n'est pas concernée.
Google sait identifier les liens qui renvoient des pages dynamiques
Google est perturbé ou bloqué par la gestion des cookies, des session ID
Même si Google désormais passe ce type de blocage plus ou moins bien, se faire référencer avec des QSA (ex : "?article=12sid=12eadb1258") est très négatif pour le site car un click depuis l'index Google entraîne aussitôt un 404 et les accumulations de 404 ne sont pas appréciées par Google pour différentes bonnes raisons
Google ne sait pas simuler une souris sur des liens : les liens cachés en Javascript sont illisibles pour lui. Ainsi que les listes déroulantes, les cases à cocher et autres techniques d'interfaces interactives en Javascript.
Sauf sur les pages de 10 résultats maximum, Google limite à 2 pages le résultat d'une recherche d'un site. Si une requête d'internaute correspond à plus de 2 pages de votre site, les 2 plus adéquates selon Google seront présentées et les autres seront regroupées sous une appellation du style :
...
Si la page de résultats est à 10 maximum, alors une seule citation du site est faite.
II-A-4 - Contourner les interdits techniques
II-A-4-a - Il faut contourner les interdictions ou les contraintes
II-A-4-b - Le Flash
II-A-4-b-i - Objet entièrement en Flash
Faire un site entièrement en Flash exige un budget important. Une telle dépense doit être justifiée par un avantage compétitif important.
Les deux principales justifications d'un tel usage de flash sont :
Si vous disposez d'un tel budget, alors pour un budget modique en comparaison, vous pouvez faire développer un site WEB HTML répondant à vos besoins marketing et disposant de multiples liens vers le site Flash non référencé.
Autre cas : votre site, HTML, doit présenter des animations, des jeux, des schémas animés etc. pour illustrer vos propos et explications.
Doublez-les d'une page HTML dotée de liens pointant vers des pages contenant uniquement ces animations.
II-A-4-b-ii - Menu principal en Flash
Les menus Flash sont plus agréables et plus ergonomiques.
Doubler le menu Flash par une barre de menu classique en bas de page
Si toute la page contient un objet Flash, doubler le menu en bas et y ajouter un texte référençable.
II-A-4-b-iii - Pourquoi tant de problèmes avec Flash alors que PDF est indexé par Google
Probablement à cause des algorithmes de Google qui ne sont pas adaptés à la complexité de Flash.
En Flash, des textes peuvent êtres vectorisés, bitmap, avec des politiques de mise en page (titre1, 2 etc.) tellement différentes qu'il est difficile d'identifier pour Google les bons mots clefs. Cela rompt avec sa stratégie très évoluée d'indexation et d'évaluation des textes, donc il ne fait pas.
II-A-4-b-iv - Insérer un objet Flash dans une page HTML
Voici un exemple de code à mettre dans une page HTML, page qui sera référençable mais pas le Flash bien sûr.
<object id="numanuma" width="320" height="240">
<param name="movie" value="fichier.swf"/>
<param name="quality" value="high"/>
<param name="bgcolor" value="#006633"/>
<embed src="numanuma.swf"
quality="high" bgcolor="#000000" width="320" height="240" type="application/x-shockwave-flash" pluginspage=" cgi?
P1_Prod_Version=ShockwaveFlash">
</embed>
</object>
II-A-4-c - Les pages dynamiques : Ré écriture d'URL
La méthode consiste à ré écrire l'URL des pages dynamiques. En effet, les pages écrites avec des ?, des &, des .php etc. ne sont pas toujours bien indexées par Google pour différentes raisons (déjà abordées précédemment)
Plusieurs possibilités existent pour que le bot Google indexe ces pages. Le principe est le suivant :
Pour être accessibles aux Google bot votre catalogue doit disposer, dynamiquement ou autre, d'un accès en "râteau" : une arborescence permet d'accéder à chaque article de votre catalogue, directement ou via des pages intermédiaires :
Tête de catalogue listant en liens toutes les rubriques :
Cela donnerait quelque chose du genre : 75cl.com/page_vin_3_7_11.html où 3 représenterait le code pays, 7 pour la région, 11 pour le château.
D'un côté on a donc une arborescence de liens que Google peut suivre, d'un autre côté ces liens pointent vers des pages statiques fabriquées depuis le contenu de la base de données.
Cette approche a une limite théoriquement peu gênante : la mise à jour des pages statiques conçues depuis un contenu dynamique en base de données. Si l'information est modifiée en base de données, tant que la page statique publiant cette donnée dynamique n'a pas été reconstruite, l'information publiée sera erronée.
Pour un catalogue de produits ayant une mise à jour chaque nuit, ce n'est pas gênant. On met à jour les pages statiques chaque nuit.
Mais si cette page indique un délai de livraison fonction de stock, alors il peut y avoir problème. Le site afficherait par moment des délais de livraison faux.
Pour pallier cet inconvénient, deux pistes complémentaires :
La ré écriture d'URL offre au passage quelques avantages non négligeables :
Comment ?
Plusieurs approches existent :