Cours et explications sur l'essentiel du management des donnees et systemes d'information

Télécharger

Cours et explications sur l'essentiel du management des données et systèmes d'information

DEUXIÈME PARTIE

Pourquoi chercher à obtenir des données de qualité ?

CHAPITRE 3 La qualité appliquée aux données

3.1. L'évolution de la qualité

L'histoire de la qualité est liée à l'évolution du rapport producteur/acheteur. La première période de l'industrie est marquée par l'artisanat. La qualité des produits fabriqués était liée à la dextérité de l'artisan, au choix des matières premières et au prix de vente du produit fini, le tout concernant une faible quantité. Comme l'artisan contrôlait régulièrement sa production, la qualité du produit se faisait en temps réel.

Vers la fin du XVIIe siècle, naissent les premières grandes fabriques, fruit du regroupement d'artisans et du progrès des techniques. Comme l'offre reste très inférieure à la demande, tout se vend même ce qui est de mauvaise qualité. Durant cette période, la qualité reste encore liée au prix que l'on paie lors de l'achat : plus un produit est cher, meilleure est sa qualité.

Au début du XXe siècle, l'évolution des techniques entraîne le perfectionnement des machines auxquelles on a de plus en plus recours. Cela se traduit par une forte augmentation des quantités produites. Aussi apparaissent les chaînes de production industrielles qui emploient du personnel peu qualifié et généralement mal payé. Les tâches se divisent en éléments simples et répétitifs : c'est le taylorisme. La qualité n'est alors liée qu'à un contrôle en bout de chaîne.

Dans les années 1950, on assiste à un accroissement spectaculaire des besoins. La qualité des produits devient une composante importante et l'on fait appel à des méthodes de contrôle statistique. Mais la complexité des schémas de production fait grimper le coût des contrôles et les méthodes statistiques atteignent rapidement leurs limites. Par ailleurs, la rentabilité devenant de plus en plus pressante, on passe alors à la qualité par prévention : l'assurance qualité.

A partir des années 1960, la qualité est une préoccupation qui se répand dans toute l'entreprise. Elle est désormais prise en compte très en amont du processus de fabrication, dès l'élaboration du cahier des charges. Et comme la concurrence devient de plus en plus rude, on commence à s'orienter vers les besoins des clients.

Dans les années 1970, les produits japonais inondent les marchés avec une qualité meilleure pour un prix moindre. Les clients deviennent de plus en plus exigeants. Et comme l'offre est supérieure à la demande, il faut se battre sur tous les plans pour vendre. La qualité devient à la fois un facteur de compétitivité et un argument commercial.

Aujourd'hui, la qualité est devenue globale et une priorité des entreprises. Elle concerne toutes les activités, tous les métiers, toutes les personnes, tous les instants.

3.2. La qualité appliquée aux données

Dans l'industrie, la qualité d'un produit est correctement appréciée en comparant ses effets aux attentes des clients. Un produit ou service répondant parfaitement aux besoins des clients est donc réputé de grande qualité.

Il en est de même pour les données : une donnée est de qualité si elle répond parfaitement aux besoins des utilisateurs de cette donnée.

Remarquons d'abord que la qualité des données est dépendante de l'utilisation que l'on en fait, c'est-à-dire des utilisateurs. D'une certaine façon, on peut dire qu'une donnée est de qualité si l'ensemble des utilisateurs de cette donnée la jugent ainsi. La compréhension des besoins des utilisateurs est donc une condition nécessaire à la définition et à l'obtention de données de qualité.

Aussi, comme déjà évoqué dans ce livre, une donnée est parfois partagée par des groupes d'utilisateurs différents. La donnée peut être qualifiée de très bonne qualité par un groupe d'utilisateurs et décrite comme de mauvaise qualité par un autre groupe d'utilisateurs. C'est une des difficultés des données partagées.

Enfin, pour un certain nombre d'utilisateurs, une donnée « juste » est synonyme de qualité. La justesse est une condition nécessaire à la qualité des données, mais elle n'est pas suffisante. Car d'autres caractéristiques telles que la compréhension de l'information, le niveau de détail adéquat, son accessibilité, etc. contribuent à la qualité de la donnée. Globalement, la qualité des données se juge selon plusieurs axes dont les plus importants sont certainement :

— qualité du contenu,

— accessibilité,

— flexibilité, — sécurité.

Ces différentes dimensions sont en grande partie déterminées lors de la conception du modèle de données (voir MCD, paragraphe 1.5.3.1). Le travail de définition du contenu des attributs des objets de données doit donc être effectué avec soin, y compris si un progiciel est utilisé.

3.2.1. Qualité du contenu

La qualité du contenu peut être évaluée en fonction des caractéristiques décrites ci-après.

3.2.1.1. Justesse de l'information

C'est vraisemblablement la caractéristique la plus importante. Une donnée est juste si elle est en phase avec la réalité. Prenons l'exemple d'une commande client. La quantité 1 000 (pièces) saisie dans le système est juste si le client a effectivement passé une commande de 1 000 pièces. Si le client a passé une commande de 100 pièces et que l'on a saisi 1 000 pièces, la donnée n'est évidemment pas juste. La justesse s'applique à toutes les données et non uniquement aux données numériques. Par exemple, la base de données du personnel comprend l'attribut « sexe ». Si Henri Dupont est enregistré dans cette base avec le sexe « F » (femme), alors cette donnée est incorrecte.

3.2.1.2. Adéquation aux besoins

Il s'agit de la faculté des données à répondre aux besoins réels. Il n'est pas rare de voir des écrans surchargés d'informations qui n'apportent rien à personne. Il ne s'agit pas d'être restrictif lors de la conception du modèle de données, cependant il faut veiller à ne pas être trop « large » lors de la définition des informations à gérer. Inversement, il est extrêmement important de s'assurer que les attributs-clés et utiles pour l'entreprise soient bien prévus. Aussi, le niveau de détail des données est un élément à prendre en considération. Une donnée trop globale n'apportera pas la précision souhaitée à l'utilisation ; pour autant il est inutile d'être trop fin si ce niveau de finesse n'est pas requis.

3.2.1.3. Facilité d'interprétation

Il s'agit de qualifier la facilité d'interprétation de l'intitulé des attributs, d'une part, du contenu des attributs, d'autre part. Au-delà de la justesse, les données doivent être compréhensibles et ne laisser aucune ambiguïté quant à leur signification et leur interprétation. Pour cela, les données doivent être lisibles, précises et simples tout en respectant les standards lorsqu'ils existent. Il faut se méfier en particulier des abréviations susceptibles d'être interprétées de différentes façons. Par exemple, l'article « Boîte de 10 — Diamètre 25 mm » désigne t-il une boîte de 10 écrous ou bien de 10 vis, sachant que le fabricant en question vend les deux articles ?

Le respect des standards a son importance non seulement pour la compréhension (par exemple la devise euro codifiée par EUR est reconnue par tout le monde) mais aussi pour les échanges de données entre applications, car les outils sous-jacents s'appuient sur les normes en vigueur.

3.2.2. Accessibilité

Par « accessibilité », nous entendons la disponibilité de l'information et la facilité avec laquelle on peut y accéder.

3.2.2.1. Disponibilité

L'information doit être disponible au moment où l'on en a besoin. Même si les systèmes de gestion « temps réel » sont de plus en plus répandus, il reste un certain nombre de données qui ne sont connues qu'avec un temps de retard par rapport à la réalité. C'est le cas de données qui résultent de traitements complexes appliqués à des volumes importants d'informations. Par exemple, le chiffre d'affaires consolidé des supermarchés d'une région ne sera généralement connu que le lendemain matin et non le soir même, car il faut « mouliner » toutes les données de chacun des supermarchés.

3.2.2.2. Facilité d'accès

Des données disponibles ne signifient pas pour autant qu'elles soient facilement accessibles. Les données-clés et régulièrement consultées doivent pouvoir être accessibles en quelques clics de souris et non par un enchaînement fastidieux d'écrans. On touche là à l'ergonomie des applications, élément essentiel pour l'efficacité opérationnelle.

3.2.3. Flexibilité

La flexibilité des données traduit leur faculté d'évolution, de cohérence avec d'autres sources et de compréhension au-delà des frontières.

3.2.3.1. Evolutivité

Une donnée est évolutive si sa définition et sa codification lui permettent de vivre durablement sans remise en cause. La codification des données doit prendre en compte les volumes de créations futures d'enregistrements. Ainsi, si l'on décide de numéroter les articles automatiquement et séquentiellement, il faut estimer le nombre d'articles total qui seront contenus dans la base dans les années et décennies à venir afin de définir la tranche de numéros que l'on peut affecter aux articles. Supposons par exemple que l'on démarre une base articles avec 10 000 enregistrements et qu'il s'en crée environ 1 000 par an, on pourra définir une tranche de n° allant de 00001 à 99999, ce qui laisse une réserve de numéros de l'ordre d'une centaine d'années. L'utilisation de codes mnémoniques est à proscrire dans le cas de données volumineuses, car on arrive vite à saturation (voir section 7.2).

3.2.3.2. Cohérence avec d'autres sources

Les applications informatiques sont rarement isolées et les communications entre elles sont fréquentes. Il est donc important d'identifier les données partagées et les définir de façon cohérente. Cela facilite grandement l'élaboration des interfaces et améliore la fiabilité des informations communes. Comme déjà indiqué, il est recommandé de s'appuyer sur les normes en vigueur de codification chaque fois que cela est possible.

3.2.3.3. Possibilités de traduction

L'utilisation d'applications informatiques est de plus en plus internationale. Les données doivent donc être compréhensibles par tous. De nombreuses applications permettent désormais de manipuler les données dans plusieurs langues, ce qui suppose toutefois de les initialiser dans les différentes langues souhaitées.

3.2.4. Sécurité

La sécurité des informations est un aspect important à prendre en compte. Il s'agit de protéger l'information aussi bien contre les menaces accidentelles, que les attaques malveillantes. La sécurité recouvre la confidentialité, la fiabilité, la traçabilité et l'intégrité des données (voir paragraphe 1.5.3.4).

Comme pour tout produit ou service, la qualité s'applique également aux données. Les seuls juges de la qualité des données sont les utilisateurs.

La justesse de l'information n'est pas le seul critère à prendre en compte, car d'autres dimensions aussi importantes que la présentation, l'accessibilité, la flexibilité jouent aussi un rôle essentiel dans la qualité des données.

Le tableau 3.1 présente les principales caractéristiques de qualité des données.

CHAPITRE 4 Causes et conséquences de la non-qualité des données

4.1. Les conséquences de la non-qualité des données

Dans beaucoup d'organisations, la plupart des personnes font leur travail du mieux qu'elles peuvent. Les efforts se concentrent sur la vente, la satisfaction des clients, le développement et l'amélioration des produits et services, la planification, la stratégie, le management ou encore la gestion des collaborateurs. En un mot, et c'est bien normal, la plupart des personnes cherchent à réaliser au mieux le travail qui leur est confié pour participer au succès de leur entreprise.

Si toutes ces activités nécessitent de l'information, donc des données, force est de constater que l'importance de celles-ci est souvent sous-estimée. Pour beaucoup, les données ne sont qu'un simple support et, outre quelques désagréments provoqués ici ou là par des « bugs », la qualité des données n'est pas considérée comme quelque chose d'essentiel. Le caractère immatériel des données est l'une des raisons de cette situation. Nous reviendrons de façon plus détaillée sur les raisons de la non-qualité à la section 4.3.

Pourtant, les conséquences de la non-qualité coûtent très cher. Et peuvent parfois conduire les entreprises à une situation critique. Les impacts négatifs de la non-qualité des données les plus couramment rencontrés sont les suivants :

— insatisfaction du client : les clients victimes de données incorrectes pardonnent difficilement ; une livraison qui arrive trop tard suite à une erreur sur la date de livraison ou une livraison partielle sont hélas des erreurs courantes ; avec internet, la sentence est encore plus rapide ; un internaute qui s'aperçoit que les données d'un site sont peu fiables ou incorrectes, comme par exemple des prix non actualisés, ne reviendra jamais sur le site ;

— non-conformité des chiffres publiés : des erreurs dans les données comptables peuvent entraîner de lourdes amendes et peines ; suite aux récentes affaires de falsification des comptes, toute erreur dans la publication des chiffres paraît désormais suspecte ;

— dévalorisation de l'image de l'entreprise : en conséquence du point précédent, des erreurs portant sur des données diffusées à l'extérieur de l'entreprise détériorent rapidement l'image de celle-ci et handicape son expansion commerciale ; de plus, l'impact boursier des sociétés cotées est immédiat, entraînant la chute rapide du cours de l'action ;

— perturbation du fonctionnement opérationnel : les donnés incorrectes au sein de l'entreprise ralentissent le fonctionnement opérationnel et rendent les décisions difficiles ou incertaines ; cela génère aussi du stress et de la démotivation chez les collaborateurs ; le surcroît de travail engendré par des erreurs de données n'est jamais le bienvenu ; la perte de confiance dans les informations manipulées n'est propice ni à l'initiative, ni à un climat sain ;

— erreurs de stratégie : définir une stratégie prend beaucoup plus de temps si les informations utilisées sont de mauvaise qualité ou tout simplement erronées ; comment réfléchir à l'avenir si la situation présente est mal maîtrisée et surtout mal connue ? les dirigeants peuvent évidemment se fier à leur intuition, mais cela n'est généralement pas suffisant ;

— augmentation des coûts : les impacts énoncés précédemment engendrent évidemment des coûts ; les situations variant d'une entreprise à une autre, il est très difficile d'estimer le coût de la non-qualité ; ce coût caché peut cependant représenter jusqu'à 10 % du chiffres d'affaires, ce qui ampute de façon conséquente la rentabilité.

4.2. Quelques exemples de défauts de qualité des données

Ci-dessous sont présentés quelques exemples typiques de problèmes liés à la non-qualité des données.

4.2.1. Doublons

Les doublons correspondent à deux (ou davantage) enregistrements créés dans la base de données et décrivant une même réalité. Par exemple plusieurs « fiches client » sont stockés dans le SGBD pour un même client. Le problème des doublons vaut aussi pour d'autres types de données, par exemple fournisseurs ou articles. Ces cas relativement fréquents engendrent des perturbations opérationnelles. En effet, si plusieurs enregistrements correspondent au même client, lequel doit-on choisir lorsque l'on enregistre une commande ?

Le problème des doublons présente à terme des problèmes plus graves, car en cas de mise à jour, l'un des enregistrements est affecté mais pas l'autre, si bien que l'un possède des données correctes et l'autre non. Dans le cas d'une modification des coordonnées du client, un seul enregistrement sera désormais pourvu d'une adresse correcte. Et si l'on utilise un enregistrement incorrect, la marchandise a toutes les chances d'être livrée à la mauvaise adresse.

En outre, les doublons rendent difficiles les analyses par client. Le risque majeur est de se baser seulement sur une partie de l'activité du client et de ne pas le considérer, à tort, comme un client stratégique.

4.2.2. Coordonnées des partenaires

La gestion des coordonnées des partenaires clients ou fournisseurs (adresse, téléphone, fax, e-mail, contacts, etc.) est cruciale.

Il est cependant relativement fréquent de constater que ces données ne sont pas mises à jour avec toute la rigueur nécessaire. En conséquence, l'expédition de commandes à la mauvaise adresse n'est pas si rare.

Aussi, ces défauts de qualité engendrent des difficultés et de la perte de temps pour communiquer avec les partenaires. D'une certaine manière, cela se traduit par une connaissance affaiblie des partenaires, ce qui est négatif pour la réactivité et le business en général.

Par ailleurs, il faut veiller aux traitements automatiques : un fax ou un e-mail erroné peut retarder une commande d'achats urgente à un fournisseur et décaler la production s'il s'agit par exemple d'une matière première.

4.2.3. Montants facturés

Si ce cas fréquent peut avoir de multiples origines, les conséquences sont bien connues. En cas de sous-facturation, il y a perte de chiffres d'affaires si le client ne se manifeste pas. En cas de surfacturation, le mécontentement du client est immédiat.

4.2.4. Disponibilité des produits

Dans les entreprises, industrielles notamment, les flux physiques sont généralement tendus et les dates de livraison de marchandises doivent être fiables.

Or les dates de livraison sont de plus en plus déterminées par le système d'information qui prend en compte différentes contraintes, selon des règles parfois complexes. La justesse de cette donnée est donc liée à la qualité de multiples données et du modèle décrit dans le système d'information.

Lorsqu'une entreprise annonce une date de livraison à son client, ce dernier intègre cette date dans la planification de son activité (fabrication, vente).

Les dates annoncées ont donc des impacts directs et forts sur le business des clients. Or, pour diverses raisons, la justesse de cette information, primordiale pour les clients, n'est pas toujours au rendez-vous.

Les conséquences directes de cette non-fiabilité du délai de livraison sont donc :

— l'insatisfaction du client : doit-on continuer à travailler avec le fournisseur x si celui-ci annonce une date qui n'est pratiquement jamais respectée ?

— la perturbation de l'organisation de l'entreprise défaillante qui essaye de compenser l'insatisfaction du client en cherchant à le livrer au plus vite au détriment d'autres tâches ;

— la réputation et l'image de l'entreprise : le fournisseur incapable de satisfaire les délais annoncés est vite décrédibilisé ; ce phénomène est particulièrement sensible sur internet (on ne passe plus commande chez un fournisseur si le délai affiché n'est jamais respecté).

4.2.5. Stocks

Une gestion des stocks optimale nécessite que le système d'information soit en phase avec la réalité physique. Chaque article devrait avoir une quantité en stock dans le système d'information qui reflète la quantité réelle. Or là encore, il n'est pas rare de rencontrer des écarts entre les deux mondes.

Le risque est d'être soit en rupture de stock, soit de commander ou fabriquer à tort la marchandise. L'impact sur les coûts et donc la rentabilité de l'entreprise est évident.

4.2.6. Indicateurs d'activité

Les indicateurs d'activité tels que le chiffre d'affaires, le coût de revient des produits, la marge, le carnet de commandes, etc. s'appuient sur les données opérationnelles saisies dans l'activité quotidienne. Or si les informations élémentaires ne sont pas de bonne qualité, les indicateurs résultants ont de fortes chances de ne pas l'être non plus.

En conséquence, les analyses du management sont incorrectes et les décisions résultantes sont inappropriées. Le gap entre les décisions prises et celles qu'il aurait fallu prendre engendre rapidement une perte de crédibilité du management. Ce point est très sensible, car il impacte la qualité du pilotage et la pérennité de l'entreprise.

4.2.7. Ergonomie

Les problèmes d'ergonomie sont légion et peuvent être la source d'erreurs de saisie ou d'interprétation. Par exemple, certaines applications présentent des montants justes mais peu lisibles (pas de séparateurs de milliers par exemple). Cela augmente les risques d'erreurs dans la saisie ou l'interprétation de montants.

La non-qualité des données 79

Aussi des écrans surchargés d'informations provoquent des difficultés d'adaptation et d'utilisation, avec là encore des risques d'erreurs de saisie. Ce type de défauts « cosmétiques » est généralement l'une des sources du mécontentement des utilisateurs et de rejet des systèmes informatiques.

Enfin, le contenu des informations en français uniquement peut présenter des difficultés à des utilisateurs étrangers. Même si les écrans sont traduits, il faut veiller que le contenu soit compréhensible par tous, sous peine d'engendrer des erreurs de saisie.

Cette liste pourrait facilement s'allonger, tant le champ des défauts de qualité de données est vaste. Remarquons que ces quelques cas mettent en évidence des anomalies de justesse de l'information, mais aussi d'autres natures de problèmes, comme par exemple des défauts d'ergonomie ou de traductions.

Comme déjà indiqué, la qualité ne repose pas uniquement sur la justesse de l'information, mais intègre d'autres facteurs tels que l'utilité ou la facilité d'interprétation.

4.3. Sources de non-qualité des données

Le nombre de données manipulées et stockées augmente sans cesse et les défauts de qualité deviennent difficiles à gérer si l'on ne combat pas ce problème à la source.

Les causes d'anomalies liées aux données sont nombreuses et variées. Globalement, on peut classer l'origine des anomalies dans l'une des catégories suivantes :

— sous-estimation de l'enjeu des données, — conception,

— défaillance logicielle,

— initialisation des données.

4.3.1. Sous-estimation de l'enjeu des données

Au-delà de l'insuffisance de formation à la pratique de telle ou telle application, il y a très souvent une sous-estimation générale de l'importance des données. Plusieurs raisons expliquent ce constat :

— l'objectif d'une entreprise n'est pas de produire des données : bien que l'exercice des différents métiers nécessite des informations, le but premier est d'obtenir, selon le cas, un client satisfait, un niveau de vente supérieur, un meilleur produit, une meilleure marge, etc. ; les données ne sont donc pas au premier plan de l'activité et ne sont généralement pas perçues comme un élément essentiel de compétitivité ; grand nombre de managers considèrent que l'investissement dans une politique qualité des données est une pure perte de temps et d'argent ;

— le thème même de « la qualité des données » n'est guère attractif ; les ingénieurs préfèrent travailler sur des technologies de pointe, mettre au point des processus sophistiqués, plutôt que de s'intéresser au contenu, c'est-à-dire à l'information ; la qualité des données est très souvent le parent pauvre des projets informatiques ; pourtant, lorsqu'un problème lié aux données survient après le démarrage d'une application, personne n'est généralement enthousiaste pour procéder à des corrections et tout le monde admet qu'il aurait été préférable d'accorder en amont davantage d'importance aux données ;

— les données sont immatérielles et invisibles : ce côté abstrait met aussi l'information en arrière-plan des tâches concrètes telles que la négociation client, la production, les achats, le recrutement, etc. ;

— enfin de nombreux utilisateurs créent et gèrent des données utiles à leur job, mais peu se préoccupent de l'utilisation qui en sera faite en aval ; ce cloisonnement nuit considérablement à la qualité et à la fluidité de l'information.

7