4 Cours et formations langage XML

Présentation

XML, pour Extensible Markup Language, est un langage de balisage extensible utilisé pour la structuration de données. Il a été formé à partir de l'extraction des propriétés de SGML, le langage de balisage généralisé standard.

Il est également appelé « métalangage de balisage ». Un métalangage étant un langage qui permet de définir un langage de balisage de document (tel que HTML) et sa structure.

Dans le but de rendre Internet plus utilisable, le XML a été développé et mis en place par toute une équipe de travail. La première version XML 1.0 a été approuvée par le W3 en 1998. La version 1.1 a suivi en 2004. XML est aujourd’hui administré et maintenu par le W3C en tant que norme publique.

Contrairement au HTML, le XML nous permet de définir nos propres balises. Il est conçu de manière à permettre aux industries individuelles d'utiliser leur propre vocabulaire et de créer leurs propres structures de documents. Autrement dit, vous créez votre propre langage.

Il convient de noter que XML n’est pas un langage de programmation. Ce dernier se compose de règles et de conventions spécifiques qui peuvent être suivies pour créer des programmes. Cependant, XML n'effectue aucun calcul ni algorithme. Il est généralement stocké dans des fichiers texte.

Objectifs

XML a une variété d'utilisations pour le web, le commerce électronique et les applications portables. Il est fondamentalement utilisé pour la gestion et l'échange d'informations sur Internet.

Il s'agit d'une technologie basée sur des documents, indépendante de toute exigence logicielle ou matérielle spécialisée. Les informations dans un document XML peuvent être ajoutées à tout moment en étendant le contenu du document, ce qui rend XML extensible. XML est également un langage auto-descriptif.

XML peut aussi bien être un moyen efficace de stocker des vidéos et autres contenus multimédias. Cela a conduit au développement de SMIL, un langage basé sur XML utilisé pour le streaming, et XHTML, comme son nom l'indique, avec des fonctionnalités XML et HTML.

XML simplifie plusieurs taches sur le web telles que :

Le traitement, le partage et le transport de données.
Les changements de plate-forme et la disponibilité des données.
Le rechargement de bases de données et activités de maintenance.
La création de documents HTML et CSS.
Et bien d’autres.

Exemples d’application

En raison de sa nature simple, XML est utilisé par presque toutes les grandes sociétés comme Google, Microsoft, Facebook, Ford Motors, Xerox et bien d'autres.

XML est également utilisé pour la gestion des données et du contenu dans de nombreuses industries. Celles-ci ont même créé leurs propres normes pour les documents XML comme SCORM (utilisé dans l'e-learning) et HL7 (utilisé dans les soins de santé).

Voici quelques-unes des nombreuses applications pour lesquelles XML est utilisé :

Publication web. XML permet de créer des pages interactives, de personnaliser ces pages et de rendre la création d'applications web plus intuitive. Avec XML, vous stockez les données une fois pour qu’elles soient utilisées par différents utilisateurs ou appareils.

Applications générales. XML fournit une méthode standard pour accéder aux informations, ce qui facilite l'utilisation, le stockage, la transmission et l'affichage des données pour les applications et les appareils de toutes sortes.

Applications de commerce électronique. Les implémentations XML rendent l'échange de données électroniques plus accessible pour l'échange d'informations et les transactions (B2B et B2C).

Applications de métadonnées. XML facilite l'expression des métadonnées dans un format portable et réutilisable.

Recherche web et automatisation des tâches web. XML définit le type d'informations dans un document, ce qui facilite le retour de résultats utiles lors de la recherche sur internet. L'utilisation de XML limite la recherche au contexte correct et renvoie uniquement les informations souhaitées. En utilisant XML, les agents web et les robots sont plus efficaces et produisent des résultats plus précis.

Informatique ubiquitaire. XML fournit des types d'informations portables et structurés à afficher sur les appareils informatiques omniprésents (sans fil) tels que les assistants numériques personnels, les téléphones cellulaires et autres. Quelques exemples sont : WML et VoiceXML.

Prérequis

L'écriture de documents XML est facile par rapport à d'autres langages de balisage. C’est un langage lisible et compréhensible par les humais, même par les novices.

De plus, XML est très flexible en termes de développement. Il n'y a pas de règles prédéfinies à suivre et les auteurs peuvent créer leurs propres balises et règles pour répondre à leurs besoins.

Cependant, XML n’est pas utilisé tout seul. Vous l'utiliserez avec d'autres langages informatiques. Commencez donc à l’apprendre après avoir acquis une base dans les langages HTML, CSS et Java.

Si vous avez une base en codage, quelques heures vous suffisent pour comprendre le XML et commencer à travailler des exercices d’application.

1 Qu'est-ce que XML?

Cette question n'est pas facile à répondre. À un certain niveau, XML est un protocole pour contenir et gérer l'information. À un autre niveau, c'est une famille de technologies qui peut tout faire, du formatage des documents au filtrage des données. Et au plus haut niveau, c'est une philosophie de traitement de l'information qui recherche l'utilité et la flexibilité maximales des données en les affinant à leur forme la plus pure et la plus structurée. Une compréhension approfondie de XML touche tous ces niveaux.
Commençons par analyser le premier niveau de XML: comment il contient et gère les informations avec le balisage. Ce système d'emballage de données universel est la base nécessaire pour le niveau suivant, où XML devient vraiment passionnant: les technologies satellitaires telles que les feuilles de style, les transformations et les langages de balisage à faire soi-même. Comprendre les principes fondamentaux du balisage, des documents et de la présentation vous aidera à tirer le meilleur parti de XML et de ses accessoires.

1.1 Balisage XML

Notez que malgré son nom, XML n'est pas lui-même un langage de balisage: c'est un ensemble de règles pour construire des langages de balisage. Alors, qu'est-ce qu'un langage de balisage? Le balisage est une information ajoutée à un document qui améliore sa signification de certaines façons, en ce sens qu'il identifie les parties et la façon dont elles se rapportent les unes aux autres. Par exemple, lorsque vous lisez un journal, vous pouvez différencier les articles en fonction de leur espacement et de leur position sur la page et de l'utilisation de polices différentes pour les titres et les en-têtes. Le balisage fonctionne de la même manière, sauf qu'au lieu de l'espace, il utilise des symboles. Un langage de balisage est un ensemble de symboles qui peuvent être placés dans le texte d'un document pour délimiter et étiqueter les parties de ce document.

Le balisage est important pour les documents électroniques car ils sont traités par des programmes informatiques. Si un document n'a pas d'étiquettes ou de limites, alors un programme ne saura pas comment traiter un morceau de texte pour le distinguer de n'importe quelle autre pièce. Essentiellement, le programme devrait fonctionner avec le document entier en tant qu'unité, limitant sérieusement les choses intéressantes que vous pouvez faire avec le contenu. Un journal sans espace entre les articles et un seul style de texte serait un énorme bloc de texte inintéressant. Vous pourriez probablement savoir où un article se termine et un autre commence, mais ce serait beaucoup de travail. Un programme d'ordinateur ne serait pas capable de faire cela même, car il manque toutes les compétences, mais les plus rudimentaires d'appariement des formes.

En XML, le balisage et le contenu contribuent à la valeur d'information du document. Le balisage permet aux programmes informatiques de déterminer les fonctions et les limites des parties du document. Le contenu (texte régulier) est ce qui est important pour le lecteur, mais il doit être présenté de manière significative. XML aide l'ordinateur à formater le document pour le rendre plus compréhensible pour les humains. ""

1.2 Documents XML

Lorsque vous entendez le document Word, vous pensez probablement à une séquence de mots partitionnés en paragraphes, en sections et en chapitres, comprenant un enregistrement lisible par l'homme tel qu'un livre, un article ou un essai. Mais en XML, un document est encore plus général: c'est l'unité de base de l'information XML, composée d'éléments et d'autres balises dans un package ordonné. Il peut contenir du texte comme une histoire ou un article, mais ce n'est pas obligatoire. Au lieu de cela, il pourrait s'agir d'une base de données de nombres ou d'une structure abstraite représentant une molécule ou une équation. En fait, l'une des applications les plus prometteuses de XML est un format pour l'échange de données d'application à application. Gardez à l'esprit qu'un document XML peut avoir une définition beaucoup plus large que ce que vous pourriez considérer comme un document traditionnel.

Un document est composé de pièces appelées éléments. Les éléments s'imbriquent les uns dans les autres comme de petites boîtes dans de plus grandes boîtes, formant et étiquetant le contenu du document. Au niveau supérieur, un seul élément appelé élément document ou élément mot contient d'autres éléments.

Un document n'est pas identique à un fichier. Un fichier est un paquet de données traité comme une unité contiguë par le système d'exploitation de l'ordinateur. C'est ce qu'on appelle une structure physique. Un document XML peut exister dans un fichier ou dans de nombreux fichiers, dont certains peuvent se trouver sur un autre système. XML utilise un balisage spécial pour intégrer le contenu de différents fichiers afin de créer une entité unique, que nous décrivons comme une structure logique. En conservant un document indépendant des restrictions d'un fichier, le langage XML facilite la création d'un site Web lié à des parties de document pouvant se trouver n'importe où.

1.3 Modélisation de documents XML

Comme vous le savez maintenant, XML n'est pas un langage en soi, mais une spécification pour la création de langages de balisage. Comment allez-vous créer un langage basé sur XML? Il y a deux façons. Le premier s'appelle freeform XML. Dans ce mode, il existe des règles minimales sur la façon de former et d'utiliser des balises, mais les noms de balises peuvent être utilisés et peuvent apparaître dans n'importe quel ordre. C'est un peu comme composer vos propres mots, mais en observant les règles de la ponctuation. Lorsqu'un document satisfait aux règles minimales de XML, il est considéré comme bien formé et qualifié de bon XML.

Cependant, le format libre XML est limité dans son utilité. Parce qu'il n'y a aucune restriction sur les étiquettes que vous pouvez utiliser, il n'y a pas non plus de spécification pour servir d'instructions pour l'utilisation de votre langue. Bien sûr, vous pouvez essayer d'être cohérent avec l'utilisation des tags, mais il est toujours possible que vous fassiez une faute d'orthographe sur une étiquette et le logiciel l'acceptera volontiers dans le cadre de votre langage libre. Vous n'êtes pas susceptible d'attraper l'erreur jusqu'à ce qu'un programme lit les données et les traite incorrectement, vous laissant vous gratter la tête en vous demandant où vous vous êtes trompé. En termes de contrôle de qualité, nous pouvons faire beaucoup mieux.

Heureusement, XML fournit un moyen de décrire votre langue en termes non équivoques. C'est ce qu'on appelle la modélisation de document, car elle implique la création d'une spécification définissant les règles d'apparence d'un document. En effet, il s'agit d'un modèle par rapport auquel vous pouvez comparer un document particulier (appelé instance de document) pour voir s'il représente réellement votre langue. Vous pouvez donc tester votre document pour vous assurer qu'il correspond à vos spécifications linguistiques. Nous appelons cette validation de test. Si votre document est jugé valide, vous savez qu'il est exempt d'erreurs telles que l'orthographe incorrecte des tags, la mauvaise commande et les données manquantes.

Le moyen le plus courant de modéliser des documents consiste à utiliser une définition de type de document (DTD). C'est un ensemble de règles ou de déclarations qui spécifient quelles balises peuvent être utilisées et ce qu'elles peuvent contenir. En haut de votre document est une référence à la DTD, déclarant votre désir de faire valider le document.

Une nouvelle norme de modélisation de documents appelée XML Schema est également en train de voir le jour. Les schémas utilisent des fragments XML appelés modèles pour illustrer l'apparence d'un document. L'avantage d'utiliser des schémas est qu'ils sont eux-mêmes une forme de XML, vous pouvez donc les modifier avec les mêmes outils que vous utilisez pour éditer vos documents. Ils introduisent également une vérification plus poussée des types de données, ce qui permet de trouver des erreurs dans le contenu ainsi que l'utilisation des étiquettes.

Un langage de balisage créé à l'aide de règles XML s'appelle une application XML, ou parfois un type de document. Il y a des centaines d'applications XML disponibles publiquement pour encoder tout, des jeux et de la poésie aux listes de répertoires. Les chances sont que vous pouvez en trouver un pour répondre à vos besoins, mais si vous ne pouvez pas, vous pouvez toujours faire votre propre.

1.4 Présentation XML

La présentation décrit comment un document devrait apparaître lorsqu'il est préparé pour être vu par un humain. Par exemple, dans le "Bonjour, monde!" Par exemple, vous pouvez souhaiter que l'élément soit formaté dans une police de caractères Times Roman à 32 points pour l'impression. De telles informations de style n'appartiennent pas à un document XML. Un auteur XML attribue des styles dans un emplacement distinct, généralement un document appelé feuille de style.

Il est possible de concevoir un langage de balisage qui mélange les informations de style avec un balisage «pur». Un exemple est le HTML. Il fait la bonne chose avec des éléments tels que les titres (balise ) et les paragraphes (balise), mais utilise aussi des balises telles que (utiliser un style de police italique) et

 (désactiver la suppression des espaces) qui décrivent comment les choses devraient regarder, plutôt que ce que leur fonction est dans le document. En XML, ces tags sont déconseillés.

1.5 Traitement XML

Quand un logiciel lit un document XML et fait quelque chose avec, cela s'appelle le traitement du XML. Par conséquent, tout programme pouvant lire et traiter des documents XML est appelé un processeur XML. Quelques exemples de processeurs XML incluent des vérificateurs de validité, des navigateurs Web, des éditeurs XML et des systèmes de données et d'archivage; les possibilités sont infinies.

Le processeur XML le plus fondamental lit les documents XML et les convertit en une représentation interne pour d'autres programmes ou sous-programmes à utiliser. C'est ce qu'on appelle un analyseur, et c'est un composant important de chaque programme de traitement XML. L'analyseur transforme un flux de caractères à partir de fichiers en segments significatifs d'informations appelés jetons. Les jetons sont soit interprétés comme des événements pour piloter un programme, soit intégrés dans une structure temporaire en mémoire (une représentation arborescente) sur laquelle un programme peut agir.

Les analyseurs XML sont notoirement stricts. Si un caractère de balisage n'est pas à sa place ou si une balise est en majuscule alors qu'elle devrait être en minuscules, l'analyseur doit signaler l'erreur. Habituellement, une telle erreur interrompt tout traitement ultérieur. Ce n'est que lorsque toutes les erreurs de syntaxe sont corrigées que le document est considéré comme bien formé et que le traitement est autorisé à continuer.
Cela peut sembler excessif. Pourquoi l'analyseur ne peut-il pas prendre en compte des problèmes mineurs, tels qu'une étiquette de fin manquante ou une capitalisation incorrecte d'un nom de tag? Après tout, il existe un large précédent pour la souplesse syntaxique parmi les parseurs HTML; Les navigateurs Web ignorent ou réparent généralement les erreurs sans sauter un battement, laissant les auteurs HTML ne sont pas plus avisés. Cependant, la raison pour laquelle XML est si strict est de rendre le comportement des processeurs XML travaillant sur votre document aussi prévisible que possible.

Cela semble contre-intuitif, mais quand on y pense, c'est logique. XML est destiné à être utilisé partout et à fonctionner de la même manière à chaque fois. Si votre analyseur ne vous avertit pas de quelque erreur syntaxique, cette erreur pourrait être la cause proverbiale dans les travaux lorsque vous traitez votre document avec un autre programme. D'ici là, vous auriez du mal à traquer le virus. Ainsi, l'analyse pointilleuse de XML réduit la frustration et l'incompatibilité plus tard.

2 Histoire de XML

Le XXe siècle a été un âge de l'information inégalé dans l'histoire de l'humanité. Les universités produisent des livres et des articles, les médias sont plus riches que jamais en contenu, et même les sondes spatiales renvoient plus de données sur l'univers que nous ne savons quoi en faire. Organiser toutes ces connaissances n'est pas une préoccupation triviale.
Les premiers formats électroniques étaient plus concernés par la description de l'aspect (présentation) que par la structure et la signification du document. Troff et TeX, deux premiers langages de formatage, ont fait un travail fantastique de formatage de documents imprimés, mais n'avaient aucun sens de la structure. Par conséquent, les documents se limitaient à être visionnés à l'écran ou imprimés en version papier. Vous ne pouvez pas écrire facilement des programmes pour rechercher et siphonner des informations, les recouper électroniquement ou réorienter des documents pour différentes applications.

Le codage générique, qui utilise des étiquettes descriptives plutôt que des codes de formatage, a finalement résolu ce problème. La première organisation à explorer sérieusement cette idée était la Graphic Communications Association (GCA). À la fin des années 1960, le projet «GenCode» a développé des moyens d'encoder différents types de documents avec des étiquettes génériques et d'assembler des documents à partir de plusieurs pièces.

La prochaine avancée majeure a été Generalized Markup Language (GML), un projet d'IBM. Les concepteurs de GML, Charles Goldfarb, Edward Mosher et Raymond Lorie, «l'ont conçu comme une solution au problème de l'encodage de documents à utiliser avec plusieurs sous-systèmes d'information. Les documents codés dans ce langage de balisage peuvent être édités, formatés et recherchés par différents programmes en raison de leurs balises basées sur le contenu. IBM, un grand éditeur de manuels techniques, a largement utilisé GML, prouvant la viabilité du codage générique.

2.1 SGML et HTML

Inspiré par le succès de GML, le Comité sur le traitement de l'information de l'American National Standards Institute (ANSI) a réuni une équipe, avec Goldfarb comme chef de projet, pour développer un langage standard de description de texte basé sur GML. Le comité GCA GenCode a également apporté son expertise. Au cours de la fin des années 1970 et au début des années 1980, l'équipe a publié des ébauches de travail et a finalement créé un candidat pour une norme de l'industrie (GCA 101-1983) appelée Standard Generalized Markup Language (SGML). Cela a été rapidement adopté à la fois par le Département de la Défense des États-Unis et par le Service des recettes intérieures des États-Unis.

Dans les années qui ont suivi, SGML a vraiment commencé à décoller. Le groupe international des utilisateurs SGML a commencé à se réunir au Royaume-Uni en 1985. Avec le GCA, ils ont diffusé l'évangile de SGML en Europe et en Amérique du Nord. Étendant SGML dans des domaines plus larges, le projet Electronic Manuscript de l'Association of American Publishers (AAP) a encouragé l'utilisation de SGML pour encoder des documents à usage général tels que des livres et des revues. Le Département de la Défense des États-Unis a développé des applications pour SGML dans son groupe CALS (Acquisition Assistée par Ordinateur et Support Logistique), notamment un type de document de formatage de table populaire appelé CALS Tables. Et puis, couronnant ce début réussi, l'Organisation internationale de normalisation (ISO) a ratifié une norme pour SGML.

SGML a été conçu pour être un système de codage flexible et global. Comme XML, il s'agit essentiellement d'une boîte à outils pour développer des langages de balisage spécialisés. Mais SGML est beaucoup plus grand que XML, avec une syntaxe plus lâche et beaucoup de paramètres ésotériques. Il est si flexible que le logiciel conçu pour le traiter est complexe et coûteux, et son utilité est limitée aux grandes organisations qui peuvent se permettre à la fois le logiciel et le coût de maintenance de SGML compliqué.

La révolution publique du codage générique est apparue au début des années 1990, lorsque le langage Hypertext Markup Language (HTML) a été développé par Tim Berners-Lee et Anders Berglund, employés du laboratoire européen de physique des particules CERN. Le CERN était impliqué dans l'effort de SGML depuis le début des années 1980, quand Berglund a développé un système de publication pour tester SGML. Berners-Lee et Berglund ont créé un type de document SGML pour les documents hypertexte compact et efficace. Il était facile d'écrire des logiciels pour ce langage de balisage, et encore plus facile à encoder des documents. HTML s'est échappé du laboratoire et a continué à conquérir le monde.

Cependant, HTML était en quelque sorte un pas en arrière. Pour atteindre la simplicité nécessaire pour être vraiment utile, certains principes de codage générique ont dû être sacrifiés. Par exemple, un type de document a été utilisé à toutes fins, obligeant les utilisateurs à surcharger les tags plutôt qu'à définir des tags spécifiques. Deuxièmement, de nombreux tags sont purement présentés. La structure simpliste rendait difficile de dire où une section a commencé et une autre a pris fin. De nos jours, de nombreux documents codés en HTML sont tellement dépendants du formatage pur qu'ils ne peuvent pas être facilement réutilisés. Néanmoins, le HTML a été une étape brillante pour le Web et un pas de géant pour les langages de balisage, car il a attiré l'attention du monde entier sur la documentation et les liens électroniques.

Pour revenir aux idéaux du codage générique, certaines personnes ont essayé d'adapter SGML au Web, ou plutôt d'adapter le Web au SGML. Cela s'est avéré trop difficile. SGML était trop gros pour se faufiler dans un petit navigateur Web. Un langage plus petit qui conservait la généralité de SGML était nécessaire, et c'est ainsi qu'est né le langage XML (Extensible Markup Language).

3 objectifs de XML

Encouragé par l'insatisfaction avec les formats standard et non standards existants, un groupe d'entreprises et d'organisations qui s'appelait le World Wide Web Consortium (W3C) a commencé à travailler au milieu des années 1990 sur un langage de balisage combinant la flexibilité de SGML avec le simplicité du HTML. Leur philosophie dans la création de XML a été incarnée par plusieurs principes importants, qui sont décrits dans les sections suivantes.

3.1 Langues de balisage spécifiques à l'application

XML ne définit aucun élément de balisage, mais vous indique plutôt comment vous pouvez créer le vôtre. En d'autres termes, au lieu de créer un élément général (disons un paragraphe) et en espérant qu'il puisse couvrir toutes les situations, les concepteurs de XML vous ont laissé cette tâche. Donc, si vous voulez un élément appelé , , ou , c'est votre prérogative. Créez votre propre langage de balisage pour exprimer vos informations de la meilleure façon possible. Ou, si vous le souhaitez, vous pouvez utiliser un ensemble existant de tags que quelqu'un d'autre a créé.

Cela signifie qu'il y a un nombre illimité de langages de balisage qui peuvent exister, et qu'il doit y avoir un moyen d'empêcher la décomposition des programmes en essayant de les lire tous. Avec la liberté d'être créatif, il y a des règles que XML attend de vous. Si vous écrivez vos éléments d'une certaine manière et obéissez à toutes les règles de syntaxe, votre document est considéré comme bien formé et n'importe quel processeur XML peut le lire. Donc, vous pouvez avoir votre gâteau et le manger aussi.

3.2 Structure non ambiguë

XML prend une ligne dure quand il s'agit de structurer. Un document doit être balisé de telle sorte qu'il n'y ait pas deux façons d'interpréter les noms, l'ordre et la hiérarchie des éléments. Cela réduit considérablement les erreurs et la complexité du code. Les programmes n'ont pas besoin de faire une supposition éclairée ou d'essayer de corriger les erreurs de syntaxe comme le font souvent les navigateurs HTML, car il n'y a pas de surprise lorsqu'un processeur XML crée un résultat différent d'un autre.

Bien sûr, cela rend l'écriture d'un bon balisage XML plus difficile. Vous devez vérifier la syntaxe du document à l'aide d'un analyseur pour vous assurer que les programmes situés en aval fonctionneront avec peu d'erreurs, que l'intégrité de vos données est protégée et que les résultats sont cohérents.

En plus de la vérification de syntaxe de base, vous pouvez créer vos propres règles sur l'apparence d'un document. La DTD est un modèle pour la structure du document. Un schéma XML peut restreindre les types de données autorisés à entrer dans des éléments (par exemple, des dates, des nombres ou des noms). Les possibilités de vérification d'erreur et de contrôle de structure sont incroyables.

3.3 Présentation stockée ailleurs

Pour que votre document dispose d'une flexibilité maximale pour le format de sortie, vous devez vous efforcer de garder les informations de style hors du document et stockées en externe. XML permet cela en utilisant des feuilles de style qui contiennent les informations de formatage. Cela a de nombreux avantages:

Vous pouvez utiliser les mêmes paramètres de style pour de nombreux documents.
Si vous changez d'avis sur un paramètre de style, vous pouvez le corriger à un endroit et tous les documents seront affectés.
Vous pouvez échanger des feuilles de style à différentes fins, peut-être en avoir une pour l'impression et une autre pour les pages Web.
Le contenu et la structure du document sont intacts, peu importe ce que vous faites pour modifier la présentation. Il n'y a aucun moyen de gâcher le document en jouant avec la présentation.
Le contenu du document n'est pas encombré par le vocabulaire du style (changements de police, espacement, spécifications de couleur, etc.). C'est plus facile à lire et à maintenir.
Avec les informations de style disparues, vous pouvez choisir des noms qui reflètent précisément le but des éléments, plutôt que de les étiqueter en fonction de leur apparence. Cela simplifie l'édition et la transformation.

langage XML

Cours XML

Cours langage XML Schémas

L'essentiel de XML