Formation Concepts et langages des Bases de Données Relationnelles
...
3.1 Principes généraux
La méthode permet de distinguer les entités qui constituent la base de données, et les associations entre ces entités. Ces concepts permettent de donner une structure à la base, ce qui s’avère indispensable. Nous commençons par montrer les problèmes qui surviennent si on traite une base relationnelle comme un simple fichier texte, sans se soucier de lui donner une structure correcte.
3.1.1 Bons et mauvais schémas
Considérons une table FilmSimple stockant des films avec quelques informations de base, dont le metteur en scène. Voici une représentation de cette table.
...
Même pour une information aussi simple, il est facile d’énumérer tout un ensemble de problèmes potentiels. Tous ou presque découlent d’un grave défaut de la table ci-dessus : il est possible de représenter la même information plusieurs fois.
Anomalies lors d’une insertion
Rien n’empêche de représenter plusieurs fois le même film. Pire : il est possible d’insérer plusieurs fois le film Vertigo en le décrivant à chaque fois de manière différente, par exemple en lui attribuant une fois comme réalisateur Alfred Hitchcock, puis une autre fois John Woo, etc.
Une bonne question consiste d’ailleurs à se demander ce qui distingue deux films l’un de l’autre, et à quel moment on peut dire que la même information a été répétée. Peut-il y avoir deux films différents avec le même titre par exemple ? Si la réponse est non, alors on devrait pouvoir assurer qu’il n’y a pas deux lignes dans la table avec la même valeur pour l’attribut titre. Si la réponse est oui, il reste à déterminer quel est l’ensemble des attributs qui permet de caractériser de manière unique un film.
Anomalies lors d’une modification
La redondance d’information entraîne également des anomalies de mise à jour. Supposons que l’on modifie l’année de naissance de Hitchcock pour la ligne Vertigo et pas pour la ligne Psychose. On se retrouve alors avec des informations incohérentes.
Les mêmes questions que précédemment se posent d’ailleurs. Jusqu’à quel point peut-on dire qu’il n’y a qu’un seul réalisateur nommé Hitchcock, et qu’il ne doit donc y avoir qu’une seule année de naissance pour un réalisateur de ce nom ?
Anomalies lors d’une destruction
On ne peut pas supprimer un film sans supprimer du même coup son metteur en scène. Si on souhaite, par exemple, ne plus voir le film Titanic figurer dans la base de données, on va effacer du même coup les informations sur James Cameron.
3.1.2 La bonne méthode
Une bonne méthode évitant les anomalies ci-dessus consiste à ;
3.1. PRINCIPES GÉNÉRAUX 19
Commençons par les deux premières étapes. On va d’abord distinguer la table des films et la table des réalisateurs. Ensuite on décide que deux films ne peuvent avoir le même titre, mais que deux réalisateurs peuvent avoir le même nom. Afin d’avoir un moyen d’identifier les réalisateurs, on va leur attribuer un numéro, désigné par id. On obtient le résultat suivant, les identifiants (ou clés) étant en gras.
Premier progrès : il n’y a maintenant plus de redondance dans la base de données. Le réalisateur Hitchcock, par exemple, n’apparaît plus qu’une seule fois, ce qui élimine les anomalies de mise à jour évoquées précédemment.
Il reste à représenter le lien entre les films et les metteurs en scène, sans introduire de redondance. Maintenant que nous avons défini les identifiants, il existe un moyen simple pour indiquer quel est le metteur en scène qui a réalisé un film : associer l’identifiant du metteur en scène au film. On ajoute un attribut idMES dans la table Film, et on obtient la représentation suivante.
Cette représentation est correcte. La redondance est réduite au minimum puisque seule la clé identifiant un metteur en scène a été déplacée dans une autre table (on parle de clé étrangère). On peut vérifier que toutes les anomalies que nous avons citées ont disparu.
Anomalie d’insertion. Maintenant que l’on sait quelles sont les caractéristiques qui identifient un film, il est possible de déterminer au moment d’une insertion si elle va introduire ou non une redondance. Si c’est le cas on doit interdire cette insertion.
Anomalie de mise à jour. Il n’y a plus de redondance, donc toute mise à jour affecte l’unique instance de la donnée à modifier.
Anomalie de destruction. On peut détruire un film sans affecter les informations sur le réalisateur.
Ce gain dans la qualité du schéma n’a pas pour contrepartie une perte d’information. Il est en effet facile de voir que l’information initiale (autrement dit, avant décomposition) peut être reconstituée intégralement. En prenant un film, on obtient l’identité de son metteur en scène, et cette identité permet de trouver l’unique ligne dans la table des réalisateurs qui contient toutes les informations sur ce metteur en scène. Ce processus de reconstruction de l’information, dispersée dans plusieurs tables, peut s’exprimer avec SQL.
La modélisation avec un graphique Entité/Association offre une méthode simple pour arriver au résultat ci-dessus, et ce même dans des cas beaucoup plus complexes.
3.2 Le modèle E/A : Présentation informelle
Un schéma E/A décrit l’application visée, c’est-à-dire une abstraction d’un domaine d’étude, pertinente relativement aux objectifs visés. Rappelons qu’une abstraction consiste à choisir certains aspects de la réalité perçue (et donc à éliminer les autres). Cette sélection se fait en fonction de certains besoins qui doivent être précisément définis.
Chaque entité est caractérisée par un ensemble d’attributs, parmi lesquels un ou plusieurs forment l’identifiant unique (en gras). Comme nous l’avons exposé précédemment, il est essentiel de dire ce qui caractérise de manière unique une entité, de manière à éviter la redondance d’information.
FIG. 3.1 – Le schéma de la base de données Films
Les associations sont caractérisées par des cardinalités. La notation 0..* sur le lien Réalise, du côté de l’entité Film, signifie qu’un artiste peut réaliser plusieurs films, ou aucun. La notation 0..1 du côté Artiste signifie en revanche qu’un film ne peut être réalisé que par au plus un artiste. En revanche dans l’association Donne une note, un internaute peut noter plusieurs films, et un film peut être noté par plusieurs internautes, ce qui justifie l’a présence de 0..* aux deux extrêmités de l’association.
Le choix des cardinalités est essentiel. Ce choix est aussi parfois discutable, et constitue donc l’aspect le plus délicat de la modélisation. Reprenons l’exemple de l’association Réalise. En indiquant qu’un film est réalisé par un seul metteur en scène, on s’interdit les – rares – situations où un film est réalisé par plusieurs personnes. Il ne sera donc pas possible de représenter dans la base de données une telle situation. Tout est ici question de choix et de compromis : est-on prêt en l’occurrence à accepter une structure plus complexe (avec 0..* de chaque côté) pour l’association Réalise, pour prendre en compte un nombre minime de cas ?
3.3. LE MODÈLE 21
Artiste et Film indique qu’on s’autorise à ne pas connaître le metteur en scène d’un film. Attention : cela ne signifie pas que ce metteur en scène n’existe pas. Une base de données, telle qu’elle est décrite par un schéma E/A, n’est qu’une vision partielle de la réalité. On ne doit surtout pas rechercher une représentation exhaustive, mais s’assurer de la prise en compte des besoins de l’application.
La notation 1..1 entre Film et Pays indique au contraire que l’on doit toujours connaître le pays producteur d’un film. On devra donc interdire le stockage dans la base d’un film sans son pays.
Les cardinalités minimales (également appelées contraintes de participation ) sont moins importantes que les cardinalités maximales, car elles ont un impact moindre sur la structure de la base de données et peuvent plus facilement être remises en cause après coup. Il faut bien être conscient de plus qu’elles ne représentent qu’un choix de conception, souvent discutable. Dans la notation UML que nous présentons ici, il existe des notations abrégées qui donnent des valeurs implicites aux cardinalités minimales :
Outre les propriétés déjà évoquées (simplicité, clarté de lecture), évidentes sur ce schéma, on peut noter aussi que la modélisation conceptuelle est totalement indépendante de tout choix d’implantation. Le schéma de la figure 3.1 ne spécifie aucun système en particulier. Il n’est pas non plus question de type ou de structure de données, d’algorithme, de langage, etc. En principe, il s’agit donc de la partie la plus stable d’une application. Le fait de se débarrasser à ce stade de la plupart des considérations techniques permet de se concentrer sur l’essentiel : que veut-on stocker dans la base ?
Il faut faire des choix, en connaissance de cause, en sachant toutefois qu’il est toujours possible de faire évoluer une base de données, quand cette évolution n’implique pas de restructuration trop importante. Pour reprendre les exemples ci-dessus, il est facile d’ajouter des informations pour décrire un film ou un internaute ; il serait beaucoup plus difficile de modifier la base pour qu’un film passe de un, et un seul, réalisateur, à plusieurs. Quant à changer la clé de Film, c’est une des évolutions les plus complexes à réaliser. Les cardinalités et le choix des clés font vraiment partie des des aspects décisifs des choix de conception.
3.3 Le modèle
Le modèle E/A, conçu en 1976, est à la base de la plupart des méthodes de conception. La syntaxe employée ici est celle de la méthode UML, reprise à peu près à l’identique de celle de la méthode OMT. Il existe beaucoup d’autres notations, dont celle de la méthode MERISE principalement utilisée en France. Ces notations sont globalement équivalentes. Dans tous les cas la conception repose sur deux concepts complémentaires, entité et association.
3.3.1 Entités, attributs et identifiants
Il est difficile de donner une définition très précise des entités. Les points essentiels sont résumés cidessous.
Definition 3.1 (Entité) On désigne par entité tout objet identifiable et pertinent pour l’application.
La pertinence est également essentielle : on ne doit prendre en compte que les informations nécessaires pour satisfaire les besoins. Par exemple :
La première étape d’une conception consiste à identifier les entités utiles. On peut souvent le faire en considérant quelques cas particuliers. La deuxième est de regrouper les entités en ensembles : en général on ne s’intéresse pas à un individu particulier mais à des groupes. Par exemple il est clair que les films et les acteurs sont des ensembles distincts d’entités. Qu’en est-il de l’ensemble des réalisateurs et de l’ensemble des acteurs ? Doit-on les distinguer ou les assembler ? Il est certainement préférable de les assembler, puisque des acteurs peuvent aussi être réalisateurs.
Attributs
Les entités sont caractérisées par des propriétés : le titre (du film), le nom (de l’acteur), sa date de naissance, l’adresse, etc. Ces propriétés sont dénotées attributs dans la terminologie du modèle E/A. Le choix des attributs relève de la même démarche d’abstraction qui a dicté la sélection des entités : il n’est pas question de donner exhaustivement toutes les propriétés d’une entité. On ne garde que celles utiles pour l’application.
Un attribut est désigné par un nom et prend ses valeurs dans un domaine énumérable comme les entiers, les chaînes de caractères, les dates, etc. On peut considérer un nom d’atribut comme une fonction définie sur un ensemble d’entités et prenant ses valeurs dans un domaine . On note alors la valeur de l’attribut pour une entité .
Considérons par exemple un ensemble de films et les attributs titre et année. Si est le film Impitoyable, tourné par Clint Eastwood en 1992, on aura :
titre ) = Impitoyable ; année ) = 1992
Nous nous en tiendrons pour l’instant aux attributs atomiques qui, au moins dans le contexte d’une modélisation orientée vers un SGBD relationnel, sont suffisants.
Types d’entités
Il est maintenant possible de décrire un peu plus précisément les entités par leur type.
Definition 3.2 (Type d’entité) Le type d’une entité est composé des éléments suivants :
On dit qu’un entité est une instance de son type . Enfin, un ensemble d’entités instance d’un même type est une extension de .
Il reste à définir plus précisément la notion de clé.
Definition 3.3 (Clé) Soit un type d’entité et l’ensemble des attributs de . Une clé de est un sous-ensemble minimal de permettant d’identifier de manière unique une entité parmi n’importe quelle extension de .
Il est possible d’avoir plusieurs clés pour un même ensemble d’entités. Dans ce cas on en choisit une comme clé primaire, et les autres comme clés secondaires. Le choix de la clé (primaire) est déterminant pour la qualité du schéma de la base de données. Les caractéristiques d’une bonne clé primaire sont les suivantes :
– sa valeur est connue pour toute entité ;
– on ne doit jamais avoir besoin de la modifier ;
– enfin, pour des raisons de performance, sa taille de stockage doit être la plus petite possible.
Il n’est pas toujours évident de trouver un ensemble d’attributs satisfaisant ces propriétés. Considérons l’exemple des films. Le choix du titre pour identifier un film serait incorrect puisqu’on aura affaire un jour ou l’autre à deux films ayant le même titre. Même en combinant le titre avec un autre attribut (par exemple l’année), il est difficile de garantir l’unicité.
Dans la situation, fréquente, où on a du mal à déterminer quelle est la clé d’une entité, on crée un identifiant abstrait indépendant de tout autre attribut. On peut ainsi ajouter dans le type d’entité Film un attribut id, corespondant à un numéro séquentiel qui sera incrémenté au fur et à mesure des insertions. Ce choix est souvent le meilleur, dès lors qu’un attribut ne s’impose pas de manière évidente comme clé. Il satisfait notamment toutes les propriétés énoncées précédemment (on peut toujours lui attribuer une valeur, il ne sera jamais nécessaire de la modifier, et elle a une représentation compacte).
On représente graphiquement un type d’entité comme sur la figure 3.2 qui donne l’exemple des types
Internaute et Film. L’attribut (ou les attributs s’il y en a plusieurs) formant la clé sont en gras.
...
3.3.2 Associations binaires
La représentation (et le stockage) d’entités indépendantes les unes des autres est de peu d’utilité. On va maintenant décrire les relations (ou associations) entre des ensembles d’entités.
Definition 3.4 Une association binaire entre les ensembles d’entités et est un ensemble de couples , avec et .
C’est la notion classique de relation en théorie des ensembles. On emploie plutôt le terme d’association pour éviter toute confusion avec le modèle relationnel. Une bonne manière d’interpréter une association entre des ensembles d’entités est de faire un petit graphe où on prend quelques exemples, les plus généraux possibles.
Prenons l’exemple de l’association représentant le fait qu’un réalisateur met en scène des films. Sur le graphe de la figure 3.3 on remarque que :
La recherche des situations les plus générales possibles vise à s’assurer que les deux caractéristiques ci-dessus sont vraies dans tout les cas. Bien entendu on peut trouver 1% des cas où un film a plusieurs réalisateurs, mais la question se pose alors : doit-on modifier la structure de notre base, pour 1% des cas. Ici, on a décidé que non. Encore une fois on ne cherche pas à représenter la réalité dans toute sa complexité, mais seulement la partie de cette réalité que l’on veut stocker dans la base de données.
Ces caractéristiques sont essentielles dans la description d’une association entre des ensembles d’entités.
Definition 3.5 (Cardinalité) Soit une association entre deux types d’entités. La cardinalité de l’association pour , est une paire [min, max] telle que :
Les cardinalités maximales sont plus importantes que les cardinalités minimales ou, plus précisément, elles s’avèrent beaucoup plus difficiles à remettre en cause une fois que le schéma de la base est constitué. On décrit donc souvent une association de manière abrégée en omettant les cardinalités minimales. La notation * , en UML, est l’abréviation de 0..* , et 1 est l’abréviation de 1..1 . On caractérise également une association de manière concise en donnant les cardinalités maximales aux deux extrêmités, par exemple 1:n (association de un à plusieurs) ou n:n (association de plusieurs à plusieurs).
Les cardinalités minimales sont parfois désignées par le terme contraintes de participation . La valeur 0 indique qu’une entité peut ne pas participer à l’association, et la valeur 1 qu’elle doit y participer.
Insistons sur le point suivant : les cardinalités n’expriment pas une vérité absolue, mais des choix de conception. Elles ne peuvent être déclarés valides que relativement à un besoin. Plus ce besoin sera exprimé précisément, et plus il sera possible d’appécier la qualité du modèle.
Il existe plusieurs manières de noter une association entre types d’entités. Nous utilisons ici la notation de la méthode UML, qui est très proche de celle de la méthode OMT. En France, on utilise aussi couramment – de moins en moins... – la notation de la méthode MERISE que nous ne présenterons pas ici.
FIG. 3.4 – Représentation de l’association.
Prenons maintenant l’exemple de l’association (Acteur,Film) représentant le fait qu’un acteur joue dans un film. Un graphe basé sur quelques exemples est donné dans la figure 3.5. On constate tout d’abord qu’un acteur peut jouer dans plusieurs films, et que dans un film on trouve plusieurs acteurs. Mieux : Clint Eastwood, qui apparaissait déjà en tant que metteur en scène, est maintenant également acteur, et dans le même film.
Les acteurs Les liens "Joue" Les films
FIG. 3.5 – Association (Acteur,Film)
Cette dernière constatation mène à la conclusion qu’il vaut mieux regrouper les acteurs et les réalisateurs dans un même ensemble, désigné par le terme plus général Artiste . On obtient le schéma de la figure 3.6, avec les deux associations représentant les deux types de lien possible entre un artiste et un film : il peut jouer dans le film, ou le réaliser. Ce ou n’est pas exclusif : Eastwood joue dans Impitoyable, qu’il a aussi réalisé.
FIG. 3.6 – Associations entre Artiste et Film.
Dans le cas d’associations avec des cardinalités multiples de chaque côté, on peut avoir des attributs qui ne peuvent être affectés qu’à l’association elle-même. Par exemple l’association Joue a pour attribut le rôle tenu par l’acteur dans le film (figure 3.6).
Rappelons qu’un attribut ne peut prendre qu’une et une seule valeur. Clairement, on ne peut associer rôle ni à Acteur puisqu’il a autant de valeurs possibles qu’il y a de films dans lesquels cet acteur a joué, ni à Film, la réciproque étant vraie également. Seules les associations ayant des cardinalités multiples de chaque côté peuvent porter des attributs.
Quelle est la clé d’une association ? Si l’on s’en tient à la définition, une association est un ensemble de couples, et il ne peut donc y avoir deux fois le même couple (parce qu’on ne trouve pas deux fois le même élément dans un ensemble). On a donc :
En pratique cette contrainte est souvent trop contraignante car on souhaite autoriser deux entités à être liées plus d’une fois dans une association. Imaginons par exemple qu’un internaute soit amené à noter à plusieurs reprises un film, et que l’on souhaite conserver l’historique de ces notations successives. Avec une association binaire entre Internaute et Film, c’est impossible : on ne peut définir qu’un seul lien entre un film donné et un internaute donné.
Le problème est qu’il n’existe pas de moyen pour distinguer des liens multiples entre deux mêmes entités. Le seul moyen pour effectuer une telle distinction est d’introduire une entité discriminante, par exemple la date de la notation. On obtient alors une association ternaire dans laquelle on a ajouté un type d’entité Date (figure 3.7).
…
Un lien de cette association réunit donc une entité Film, une entité Internaute et une entité Date. On peut identifier un tel lien par un triplet (id, email, date) constitué par les clés des trois entités constituant le lien.
...
3.3.3 Entités faibles
Jusqu’à présent nous avons considéré le cas d’entités indépendantes les unes des autres. Chaque entité, disposant de son propre identifiant, pouvait être considérée isolément. Il existe des cas où une entité ne peut exister qu’en étroite association avec une autre, et est identifiée relativement à cette autre entité. On parle alors d’entité faible.
Prenons l’exemple d’un cinéma, et de ses salles. On peut considérer chaque salle comme une entité, dotée d’attributs comme la capacité, l’équipement en son Dolby, ou autre. Il est diffcilement imaginable de représenter une salle sans qu’elle soit rattachée à son cinéma. C’est en effet au niveau du cinéma que l’on va trouver quelques informations générales comme l’adresse ou le numéro de téléphone.
On peut considérer qu’il est beaucoup plus naturel de numéroter les salles par un numéro interne à chaque cinéma. La clé d’identification d’une salle est alors constituée de deux parties :
En d’autres termes, l’entité salle ne dispose pas d’une identification absolue, mais d’une identification
relative à une autre entité. Bien entendu cela force la salle a toujours être associée à un et un seul cinéma.
La représentation graphique des entités faibles avec UML est illustrée dans la figure 3.10.b. La salle est associée au cinéma avec une association qualifiée par l’attribut no qui sert de discriminant pour distinguer les salles au sein d’un même cinéma. Noter que la cardinalité du côté Cinéma est implicitement 1..1 .
FIG. 3.10 – Modélisation du lien Cinéma-Salle (a) sous la forme d’une association classique (b) avec une entité faible
L’introduction d’entités faibles n’est pas une nécessité absolue puisqu’on peut très bien utiliser une association classique. La principale différence est que, dans le cas d’une entité faible, on obtient un identification composée qui est souvent plus pratique à gérer, et peut également rendre plus faciles certaines requêtes.
La présence d’un type d’entité faible associé à un type d’entité implique également des contraintes fortes sur les créations, modifications et destructions des instances de et car on doit toujours s’assurer que la contrainte est valide. Concrètement, en prenant l’exemple de Salle et de Cinéma, on doit mettre en place les mécanismes suivants :
3.3.4 Associations généralisées
On peut envisager des associations entre plus de deux entités, mais elles sont plus difficiles à comprendre, et surtout la signification des cardinalités devient beaucoup plus ambigue. La définition d’une association -aire est une généralisation de celle des associations binaires.
Definition 3.7
Une associationaire entre types d’entités est un ensemble deuplets où chaque appartient à .
Même s’il n’y a en principe pas de limite sur le degré d’une association, en pratique on ne va jamais au-delà d’une association entre trois entités.