Programmation XML/Structure d'un document XML
Un document XML est fondamentalement de type texte, par opposition à d'autres structures informatiques qui peuvent être de type binaire (programmes exécutables, base de données). Ce texte est généralement un texte Unicode[1], souvent au format UTF-8. Un simple éditeur de texte compatible Unicode/UTF8, est donc capable de créer, d'ouvrir ou de modifier un document XML stocké sur disque.
Mais un document XML n'existe pas uniquement sous forme de fichier. Il peut exister aussi temporairement en mémoire comme format de transfert de données entre deux applications logicielles (par exemple sous forme de requête HTML POST pour transmettre un formulaire fraîchement tapé par l'internaute).
Donc, le document XML est un format dont nous allons décrire la structure :
Éléments d'un document XML
modifierBalisage
modifierUn document XML est constitué de balises. Une balise est une chaîne de caractères constituant un identificateur et placé entre un caractère < et un caractère >.
Il existe différentes sortes de balises :
- Les balises ouvrantes
<item>
- Les balises fermantes
</item>
- Les balises vides
<nop/>
- Les instructions de traitement
<?xml-stylesheet ... ?>
- Les commentaires
<!-- J'explique -->
- Les sections CDATA (Character DATA)
<![CDATA[ Contenu de la section ]]>
Conventions de nommage des balises
modifier- Les noms ne peuvent pas commencer par la chaîne de caractères « xml », dans n'importe quelle combinaison de casse (ou Xml, ou XML…) ;
- les noms sont sensibles à la casse (différentiation minuscules/majuscules) ;
- les noms ne peuvent pas débuter par un nombre ou un signe de ponctuation ;
- les noms ne peuvent pas contenir d'espaces ;
- éviter les caractères accentués et les opérateurs, virgules, point-virgules…
Les balises ouvrantes
modifierUne balise ouvrante est un élément délimitant une section. La section se termine ensuite par une balise fermante.
Une balise ouvrante est une chaîne composée de chiffres, de lettres et des caractères - et _. Cette chaîne est comprise entre un < et un >.
Exemple :
<balise>
Les balises fermantes
modifierUne balise fermante reprend l'identificateur de la balise ouvrante, en le précédent d'un caractère « barre de fraction » (slash). Exemple :
</balise>
Les balises vides
modifierUne balise « vide » est le résultat de la contraction d'une balise ouvrante et d'une balise fermante ne contenant pas de données.
<div></div> donne <div />
Les attributs
modifierLes balises ouvrantes et les balises vides peuvent être enrichies avec des attributs.
<root>
<item id="67af65c75b" date="22/01/2006">Contenu de l'élément</item>
<break mode="immediat"/>
</root>
Dans l'exemple ci-dessus, la balise ouvrante item est munie de deux attributs, id et date. La balise vide break est munie de l'attribut mode.
Leurs valeurs doivent obligatoirement être entre guillemets ou apostrophes dactylographiques[2].
Les instructions de traitement
modifierUne instruction de traitement est destinée à être lue et comprise par un programme spécifique, afin de permettre le traitement du document XML[3].
Une instruction de traitement commence par un point d'interrogation « ? ».
Exemple :
<?php echo date("d/m/Y") ?>
Les commentaires
modifierLes commentaires sont des balises qui ne sont pas interprétées par l'application qui traite le document XML.
Un commentaire est une balise commençant par <!-- et terminant par -->.
Exemple :
<!-- Ceci est un commentaire utilisé dans les langages web -->
Les entités
modifierXML 1.0 définit un petit nombre d'entités utilisables dans le document sans nécessiter de déclaration dans le doctype.
Ces entités sont :
Entité | Caractère | Description |
---|---|---|
< | < | Symbole « inférieur » |
> | > | Symbole « supérieur » |
& | & | Esperluette, « et » commercial |
' | ' | guillemet simple |
" | " | guillemet double |
Toujours sans déclaration de doctype spécial, on peut écrire une entité avec « & », « # », une référence Unicode[1] et un « ; ».
Entité | Caractère | Description |
---|---|---|
π | π | pi |
β | β | bêta |
Exemple
<balise>Étudions la balise &lt;p&gt;</balise> Étudions la balise <p>
Structure d'un document XML
modifierEn-tête
modifierLes trois constituants de l'en-tête que nous allons décrire ne sont pas obligatoires. Ils sont employés en cas de besoin pour fixer l'encodage, définir le doctype et/ou associer une feuille de style.
Version, encodage
modifierIl est souhaitable que le document XML commence par l'indication de la version du langage et le jeu de caractères utilisé. C'est souvent utf-8[1]. Il est également souhaitable, si le document est stocké sur disque, que l'encodage du fichier soit le même que celui mentionné par l'attribut encoding…
<?xml version="1.0"?> <!-- minimal -->
<!-- ou -->
<?xml version="1.0" encoding="utf-8"?>
Référence au DTD
modifierLa deuxième information utile est la mention du doctype. Certains documents XML en ont impérativement besoin, d'autres peuvent s'en passer.
<!DOCTYPE root[
<!ELEMENT root (premier,deuxieme+)>
<!ELEMENT premier (#PCDATA)>
<!ELEMENT deuxieme (#PCDATA)>
]>
En analysant ce doctype, l'analyseur syntaxique (le parser, p.ex. : via Cooktop ou encore XML tools pour Notepad++) est en mesure de considérer le document XML comme valide.
Mention d'une feuille de style
modifierIl est possible d'associer un document XML à une feuille de style CSS ou XSL. Si la fonctionnalité fait réfléchir, au début, il y a fort à parier que vous en abandonnerez la pratique par la suite. En effet, la philosophie XML va à l'opposé.
<?xml-stylesheet type="text/xsl" href="../../style.xsl"?>
<!-- ou -->
<?xml-stylesheet type="text/css" href="../../style.css"?>
Une seule racine
modifierUne balise a un statut spécial, c'est la racine du document XML. C'est à partir de cette balise que se développe l'arborescence du document.
Règles de mise en œuvre des balises
modifier- Toute balise ouverte doit être fermée.
- Les balises doivent être correctement imbriquées.
- Les balises sont imbriquables hiérarchiquement sans limitation mais il ne doit y avoir qu'un seul élément à la racine.
Le corps d'un document XML est une arborescence d'éléments (balises) imbriqués, avec un élément racine unique.
<root>
<balise1>
<balise2>
</balise2>
</balise1>
</root>
Quand toutes ces règles sont respectées, on obtient un document XML « bien formé ». Dans ce cas, un navigateur comme Internet explorer ou Firefox peut l'ouvrir. Dans le cas contraire, le navigateur affiche un message d'erreur.
Exemple de structure simple
modifier<?xml version="1.0" ?>
<root>
<items>
<item no="1">Premier élément</item>
<item no="2">Autre chose</item>
<item no="3">Troisième élément</item>
<item no="4">Quatrième élément</item>
</items>
</root>
Éditer un XML dans un tableur
modifierMicrosoft Excel propose un système de mappage XML permettant d'éditer un fichier un tableau, par exemple en triant ou supprimant des lignes ou des colonnes.
Références
modifier- ↑ 1,0 1,1 et 1,2 Unicode est un standard qui permet une représentation abstraite et universelle du texte. Pour découvrir ce sujet, on pourra lire le wikilivre: À la découverte d'Unicode.
- ↑ http://www.w3schools.com/xml/xml_attributes.asp
- ↑ « Le point sur les instructions de traitement », sur yoyodesign.org