Problème à signaler:


Télécharger Cours XML : XCES, RDF et Dublin Core



★★★★★★★★★★3.5 étoiles sur 5 basé sur 1 votes.
Votez ce document:



Applications d’XML :

XCES (démonstration)

RDF (introduction), Dublin Core (introduction)

Andrei Popescu-Belis

TIM / ETI, Université de Genève

Cours n°10 — 26.5.2005

Rappel : XCES

 

•    Standard pour baliser la structure des corpus textuels = XML Corpus Encoding Standard

•    Deux parties

–    Annotation des méta-données = information sur le texte, sa version électronique, l’annotation

–    Annotation du texte = structures sur plusieurs niveaux

•    Niveau de la section / chapitre

•    Niveau du paragraphe

•    Niveau de la phrase

2

Rappel de la structure d’un document XCES

 

•   Deux classes de balises : entête / corps de texte

<cesDoc version="4.3" type="text">

<cesHeader version="2.0">

…………

</cesHeader>

<text lang="fr">

<body>

…………

</body>

</text>

</cesDoc>

•   Nécessité de définitions pour les balises          3

 

Utilisations de XCES

 

•   Standard répandu pour l’encodage de textes

•   Permet d’avoir un format commun

–    sépare le contenu (XCES) de la forme (HTML)

•   Mécanisme de feuilles de style complexe

–    fourni par les auteurs du projet

–    applicable par Firefox (par exemple)

–    paramètres linguistiques – localisation possible

5

Démonstration

 

•   Visualisation de quelques exemples

– article, doc. administratif, poème, entête seul



•   bonne formation, validation

–    formats

•    source XML

•    HTML avec feuille de style simple

•    HTML avec feuille de style originale XCES

•    Paramètres linguistiques de la feuille de style

–    réglage

–    possibilités de localisation

6

Présentation de RDF

« Resource Description Framework »

voir

RDF

 

•   Un cadre pour décrire les « ressources »disponibles sur Internet

•   Norme unifiée pour écrire les méta-données

–   d’une page Internet

–   d’un catalogue– d’un journal en ligne – etc.

•   Possède une description abstraite ainsi qu’une syntaxe XML

8

Principes (1)

 

• Les informations apparaissent comme une série de « propositions »

–   sujet (= info à propos de quoi ?)

–   prédicat (= que dit-on à propos du sujet ?)

–   objet (= argument du prédicat)

• Exemple

– « personne_X a_pour_téléphone numéro_Y »

• Peuvent être codées en XML

9

Principes (2)

 

•    Les « sujets » ou ressources sont des URIs

–    Uniform Resource Identifiers

–    analogues aux adresses Internet

•    sans indiquer forcément un contenu • ce sont juste des indicateurs uniques

– les URL (Uniform Resource Locators) sont des URI, mais tous les URI ne sont pas des URL

•   Les prédicats appartiennent à un domaine d’application spécifié par un URI

•   Les objets sont soit également des ressources, soit des données sous forme de nombre, chaîne, etc.



10

Exemple

 

        •    Encodage en RDF de la description:

« La page a été créée par l’utilisateur n°85749 »

 

<rdf:Description rdf:about="">

<dc:creator>85740</dc:creator>

</rdf:Description>

11

 

Exemple plus long (2)

 

< ?xml version= "1.0"?>

< rdf:RDF xmlns:rdf= " " xmlns:dc= "; xmlns:exterms= ";>

< rdf:Description rdf:about= "">

< exterms:creation-date> August 16, 1999< /exterms:creation-date>

< dc:language> en< /dc:language>

< dc:creator rdf:resource= ";/>

< /rdf:Description>

< /rdf:RDF>

13

Possibilités de RDF

 

•   RDF est un modèle abstrait mais peut être encodé en XML on parle de RDF/XML

•   Le système sujet-prédicat-objet, avec des ressources (URI) et des valeurs simples (chaînes, nombres, etc.) est très expressif

–    décrire les propriétés sémantiques de n’importe quelle ressource

•   Autres fonctionnalités

–    création de « sujets composés » (plusieurs ressources, avec ordre ou non)

–    création de « sujets blancs » (référents sans noms)

–    combinaison de plusieurs conventions sémantiques

–    divers raccourcis et abbréviations

14

Exemple encore plus complexe

 

15

Définir un vocabulaire RDF

 

•    Par des personnes ou organisations

•    Bases de RDF

–  graphes avec des noeuds et des arcs = descriptions

–  RDF spécifie de façon formelle leur syntaxe et leur “sémantique” aussi



•    Contenu d’un vocabulaire

–  les types de sujets/objets autorisés

–  les prédicats

–  les contraintes sur les arguments des prédicats (quels types vont avec quels prédicats)

•    Le mécanisme pour le faire est défini dans le document RDF

Vocabulary Description Language 1.0: RDF Schema

16

Conclusion

 

•   RDF permet la définition d’une sémantique formelle des ressources, sous la forme d’une série de déclarations

–    préciser le sens de chaque « prédicat »

–    préciser les valeurs possibles pour les variables (chaînes de caractères, nombres, dates, etc.) et les contraintes

•   Note : les idées de RDF plongent leurs racines dans l’intelligence artificielle et la représentation des connaisances, notamment la théorie des graphes conceptuels proposée par John Sowa, les représentations logiques, les BD relationnelles

•   Exemples de vocabulaires

–    DC: Dublin Core Metadata Initiative (DCMI parfois)

–    RSS : RDF Site Summary

17

Présentation de Dublin Core

(Dublin, Ohio, USA)

Dublin Core

 

• Standard de description des ressources inspiré de l’univers des bibliothèques • Chaque « ressource » (livre, page Internet, etc.) est décrite par

–   quinze descripteurs principaux

• tous optionnels et répétables

–   des spécifieurs supplémentaires pour chaque descripteur

• DC est un vocabulaire assez répandu

19

Dublin Core: les 15 descripteurs

 

•    Title: A name given to the resource.

•    Creator: An entity primarily responsible for making the content of the resource.

•    Subject: The topic of the content of the resource.



•    Description: An account of the content of the resource.

•    Publisher: An entity responsible for making the resource available

•    Contributor: An entity responsible for making contributions to the content of the resource.

•    Date: A date associated with an event in the life cycle of the resource.

•    Type: The nature or genre of the content of the resource.

•    Format: The physical or digital manifestation of the resource.

•    Identifier: An unambiguous reference to the resource within a given context.

•    Source: A reference to a resource from which the present resource is derived.

•    Language: A language of the intellectual content of the resource.

•    Relation: A reference to a related resource.

•    Coverage: The extent or scope of the content of the resource.

•    Rights: Information about rights held in and over the resource.

20

Exemple de description RDF/XML avec les descripteurs DC

 

<rdf:RDF xmlns:rdf="; xmlns:dc=";> <rdf:Description rdf:about="">

<dc:title>D-Lib Program - Research in Digital Libraries</dc:title> <dc:description>The D-Lib program supports the community of people with research interests in digital libraries and electronic publishing.</dc:description>

<dc:publisher>Corporation For Research Initiatives</dc:publisher>

<dc:date>1995-01-07</dc:date>

<dc:subject>

<rdf:Bag>

<rdf:li>Research; statistical methods</rdf:li>

<rdf:li>Education, research, related topics</rdf:li>

<rdf:li>Library use Studies</rdf:li>

</rdf:Bag>

</dc:subject>

<dc:type>World Wide Web Home Page</dc:type>



<dc:format>text/html</dc:format>

<dc:language>en</dc:language>

</rdf:Description>

</rdf:RDF>                                                             21



218