À la découverte d'Unicode/Glossaire
De par sa nature technique, cet ouvrage utilise un vocabulaire très spécifique. Le glossaire vise à rendre ce vocabulaire compréhensible du néophyte.
- Binaire (Binary)
- Le système binaire est un système de numération utilisant la base 2. On nomme couramment bit (de l'anglais binary digit, soit « chiffre binaire ») les chiffres de la numération binaire positionnelle. Ceux-ci ne peuvent prendre que deux valeurs, notées par convention 0 et 1.
- Décimal (Decimal)
- Le système décimal est un système de numération utilisant la base dix. Dans ce système, les puissances de dix et leurs multiples bénéficient d'une représentation privilégiée. Il utilise les dix chiffres 0, 1, 2, 3, 4, 5, 6, 7, 8, 9.
- Hexadécimal (Hexadecimal)
- Le système hexadécimal est un système de numération positionnel en base 16. Il utilise ainsi 16 symboles, en général les chiffres arabes pour les dix premiers chiffres et les lettres A à F pour les six suivants.
- Unité de code (Code unit)
- L'unité de code est l'unité dans laquelle un système informatique stocke ou échange les données. Il s'agit généralement d'un multiplet de 8, 16 ou 32 bits, que l'on appelle suivant le cas, octet, byte, mot, entier.
- Point de code (Point code)
- Les caractères sont groupés en blocs en fonction de leur usage et des écritures supportées, et reçoivent une identification numérique unique appelée point de code, identifiée généralement sous la forme "U+...." (où "...." correspond à un nombre hexadécimal de 4 à 6 chiffres, entre U+0000 et U+10FFFF). La plage définie permet d'attribuer jusqu'à 1 114 112 points de code.
- Caractères et glyphes (Character and glyphs)
- Un point de code unicode définit une entité abstraite comme la “lettre latine majuscule a” ou le “chiffre cinq bengali”. Sur l'écran ou le papier n'apparaissent que le glyphe, la représentation visuelle du caractère.
- Le standard Unicode ne définit pas l'image des glyphes. Il définit seulement ce que les caractères signifient.
- Texte, éléments de texte
- Le standard Unicode ne définit pas ce qu’est un texte ou un élément de texte. Il définit seulement les encoded characters aussi connu sous le nom de point de code, nombre allant de 0 à 10FFFF (hexadécimal).
- Un élément textuel est représenté par une séquence de point de code.
- Texte pur (Plain Text)
- Le Plain text est une séquence de codes de caractères pure. Le plain Unicode-encoded text est donc une séquence de codes de caractères Unicode. Par opposition le texte stylé aussi connu sous le nom de texte riche est enrichi d'information relative à l'identification de la langue, à la taille de la police de caractères à la couleur aux liens hypertextes.
- Caractères encodés, Encodage (Encoded characters, Encoding)
- Le lien (ou les liens) entre un caractère abstrait et les représentations encodées. Par exemple 0041 et 030A sont des formes encodées. A et Ȧ Å avant d'être affichés sont des abstractions. Elles peuvent être codées de différentes manières : 0041 et 030A, 00C5 ou 212B.