À la découverte d'Unicode/Présentation du répertoire de caractères Unicode
Unicode et la norme ISO/CEI 10646 vise à donner à tout caractère un identifiant numérique unique, et ce de manière unifiée, quelle que soit la plate-forme informatique ou le logiciel.
Unicode et la norme ISO/CEI 10646 attribuent à chaque caractère un nom officiel au sein d’un répertoire commun unifié entre toutes les langues et tous les usages. Dès que le répertoire commun est approuvé, les caractères sont groupés en blocs en fonction de leur usage et des écritures supportées, et reçoivent une identification numérique unique appelée point de code, identifiée généralement sous la forme U+xxxx (où xxxx est un nombre hexadécimal de 4 à 6 chiffres, entre U+0000 et U+10FFFF). La plage définie permet d'attribuer jusqu'à 1 114 112 points de code.
Plans et blocs
modifierUnicode ayant été construit par blocs, ces blocs forment un partitionnement du jeu de caractères. En soi, la connaissance de ce partitionnement n'a pas une grande utilité, il est donné dans l'annexe Plans à titre purement informatif, pour donner une idée de l'étendue de l'Unicode. En fait, le jeu de caractères (en fait le jeu de points de code) Unicode est découpé en plans eux-même découpés en blocs. Les plans contiennent un multiple de 65536 points de code et sont les suivants :
- 1 Plan multilingue de base (PMB, 0000 à FFFF)
- 2 Plan multilingue complémentaire (PMC, 10000 à 1FFFF)
- 3 Plan idéographique complémentaire (PIC, 20000 à 2FFFF)
- 4 Plans complémentaires réservés (30000 à DFFFF)
- 5 Plan complémentaire spécialisé (PCS, E0000 à EFFFF)
- 6 Plans complémentaires à usage privé (F0000 à 10FFFF)
Caractères non graphiques, codes réservés et non affectés
modifierLe standard Unicode a hérité des caractères de commande utilisés par certains protocoles ainsi que par l'ISO-2022 et par l'ASCII. Ces caractères ne sont pas des caractères affichables. Le standard leur attribue une valeur similaire à ce que faisaient les standards précédents. La signification de chacun de ces codes peut dépendre du terminal ou du protocole utilisé.
Les points de code non caractères spéciaux correspondent à des valeurs dont l'utilisation est interdite par le standard.
Le marqueur BOM est un marqueur qui peut se trouver en début d'un fichier ou d'un flux Unicode.
Les caractères de présentation ne sont pas affichables mais permettent de contrôler les fonctions de joignage, le contrôle des textes bidirectionnels, et de formats alternatifs.
Le caractère de remplacement est un caractère qui indique un caractère inconnu d'Unicode.
Il existe également des caractères combinatoires, notamment pour les diacritiques.
Caractères combinatoires
modifierUnicode reprend le concept usuel de combinaison : par exemple le Ȧ se produit en partant de la lettre A sur laquelle on superpose une diacritique. En langage Unicode, U+0041 et U+030A sont des formes encodées. A et Ȧ Å avant d'être affichés sont des abstractions. Elles peuvent être codées grâce à cette combinaison : U+0041 et U+030A, même si dans ce cas de figure elles peuvent aussi être obtenues par les codes U+00C5 ou U+212B. Toutefois, les significations sont les suivantes :
- U+00C5 LATIN CAPITAL LETTER A WITH RING ABOVE
- U+212B ANGSTROM SIGN
- U+030A COMBINING RING ABOVE
- U+0041 LATIN CAPITAL LETTER A