« À la découverte d'Unicode/Présentation du répertoire de caractères Unicode » : différence entre les versions

Contenu supprimé Contenu ajouté
→‎Partitionnement : En soi, la connaissance de ce partitionnement n'a pas une grande utilité, il est donné dans cette annexe à titre purement informatif, pour donner une idée de l'étendue de l'Unicode.
Ligne 12 :
Note : La casse des noms de bloc n’est pas normative. « Latin de base » est donc équivalent à « LATIN DE BASE ».
 
[[/Plans/]]
==== Plan multilingue de base (PMB, 0000 à FFFF) ====
{| class=wikitable
|-
! scope=col colspan="2" | Points de code
! scope=col rowspan="2" | Nom officiel du bloc
! scope=col rowspan="2" | Commentaires
|-
! scope=col | Début
! scope=col | Fin
|-
|0000||007F||Latin de base||voir norme [[ISO 646]], code [[ASCII]]
|-
|0080||009F||Non-utilisé||voir plage non-utilisé norme [[ISO 8859]] et [[ISO 8859-1]]
|-
|00A0||00FF||Supplément Latin-1||voir norme [[ISO 8859]], code [[ISO 8859-1]]
|-
|0100||017F||Latin étendu A||
|-
|0180||024F||Latin étendu B||
|-
|0250||02AF||Alphabet phonétique international (API)||[[Alphabet phonétique international]]
|-
|02B0||02FF||Lettres modificatives avec chasse||
|-
|0300||036F||Diacritiques||voir [[Diacritique]]
|-
|0370||03FF||Grec et copte||
|-
|0400||04FF||Cyrillique||voir [[Alphabet cyrillique]]
|-
|0500||052F||Supplément cyrillique||voir [[Alphabet cyrillique]]
|-
|0530||058F||Arménien||voir langue [[Arménien]]
|-
|0590||05FF||Hébreu||voir [[Alphabet hébreu]]
|-
|0600||06FF||Arabe||voir [[alphabet arabe]]
|-
|0700||074F||Syriaque||voir langue [[Syriaque]]
|-
|0780||07BF||Thâna||
|-
|0900||097F||Dévanâgarî||
|-
|0980||09FF||Bengali||voir langue indienne [[Bengalî]]
|-
|0A00||0A7F||Gourmoukhî||
|-
|0A80||0AFF||Goudjerate||
|-
|0B00||0B7F||Oriya||voir langue indienne [[Oriya]]
|-
|0B80||0BFF||Tamoul||voir langue indienne [[Tamoul]]
|-
|0C00||0C7F||Télougou||voir langue indienne [[Télougou]]
|-
|0C80||0CFF||Kannara||voir langue indienne [[Kannara]]
|-
|0D00||0D7F||Malayalam||voir langue indienne [[Malayalam]]
|-
|0D80||0DFF||Singhalais||voir langue indo-européenne [[Cingalais]]
|-
|0E00||0E7F||Thai||voir langue asiatique [[Thaï]]
|-
|0E80||0EFF||Lao||voir langue asiatique [[Lao (langue)|Lao]]
|-
|0F00||0FFF||Tibétain||voir langue asiatique [[Tibétain]]
|-
|1000||109F||Birman||voir langue asiatique [[Birman (langue)|Birman]]
|-
|10A0||10FF||Géorgien||voir langue [[Géorgien]]
|-
|1100||11FF||Jamos hangûl||
|-
|1200||137F||Éthiopien||voir [[Alphabet éthiopien]]
|-
|13A0||13FF||Chérokî||
|-
|1400||167F||Syllabaires autochtones canadiens unifiés||
|-
|1680||169F||Ogam||voir [[Écriture oghamique]]
|-
|16A0||16FF||Runes||voir [[Alphabet runique]]
|-
|1700||171F||Tagalog||ou tagal, voir langue [[Tagalog]]
|-
|1720||173F||Hanounóo||
|-
|1740||175F||Bouhide||
|-
|1760||177F||Tagbanoua||
|-
|1780||17FF||Khmer||voir langue [[Khmer (langue)|Khmer]]
|-
|1800||18AF||Mongol||voir langue [[mongol]] (Монгол хэл, mongγol kele)
|-
|1900||194F||Limbou||
|-
|1950||197F||Taï-le||
|-
|19E0||19FF||Symboles khmers||voir langue [[Khmer (langue)|Khmer]]
|-
|1D00||1D7F||Supplément phonétique||
|-
|1E00||1EFF||Latin étendu additionnel||
|-
|1F00||1FFF||Grec étendu||
|-
|2000||206F||Ponctuation générale||voir aussi [[ponctuation]]
|-
|2070||209F||Exposants et indices||
|-
|20A0||20CF||Symboles monétaires||
|-
|20D0||20FF||Signes combinatoires pour symboles||
|-
|2100||214F||Symboles de type lettre||
|-
|2150||218F||Formes numérales||
|-
|2190||21FF||Flèches||
|-
|2200||22FF||Opérateurs mathématiques||voir [[Opérateur (mathématique)|Opérateurs mathématiques]]
|-
|2300||23FF||Signes techniques divers||''2336'' à ''237A'' = symboles [[APL (langage)|APL]]
|-
|2400||243F||Pictogrammes de commande||
|-
|2440||245F||Reconnaissance optique de caractères||voir [[Reconnaissance optique de caractères]]
|-
|2460||24FF||Alphanumériques cerclés||
|-
|2500||257F||Filets||
|-
|2580||259F||Pavés||
|-
|25A0||25FF||Formes géométriques||
|-
|2600||26FF||Symboles divers||
|-
|2700||27BF||Casseau||
|-
|27C0||27EF||Divers symboles mathématiques - A||
|-
|27F0||27FF||Supplément A de flèches||
|-
|2800||28FF||Combinaisons Braille||voir [[Braille]]
|-
|2900||297F||Supplément B de flèches||
|-
|2980||29FF||Divers symboles mathématiques-B||
|-
|2A00||2AFF||Opérateurs mathématiques supplémentaires||
|-
|2B00||2BFF||Divers symboles et flèches||
|-
|2D30||2D6F||Alphabet Tifinagh et néo-Tifinagh||voir [[Alphabet berbère]] et [[Tifinagh]] ([[Langues berbères|langue berbère]])
|-
|2E80||2EFF||Formes supplémentaires des clés CJC||voir [[Chinois, japonais et coréen]] ''(CJC)''
|-
|2F00||2FDF||Clés chinoises (K'ang-hsi ou Kangxi)||voir [[Dictionnaire de caractères de Kangxi]]
|-
|2FF0||2FFF||Description idéophonographique||
|-
|3000||303F||Symboles et ponctuation CJC||voir [[ponctuation]] et [[Chinois, japonais et coréen]] (CJC)
|-
|3040||309F||Hiragana||voir [[Hiragana]] (langue japonaise)
|-
|30A0||30FF||Katakana||voir [[Katakana]] (langue japonaise)
|-
|3100||312F||Bopomofo||voir [[Bopomofo]] (notation taïwanaise et chinoise)
|-
|3130||318F||Jamos de compatibilité hangûls||
|-
|3190||319F||Kanboun||
|-
|31A0||31BF||Bopomofo étendu||voir [[Bopomofo]] (notation taïwanaise et chinoise)
|-
|31F0||31FF||Extension phonétique katakana||voir [[Katakana]] (langue japonaise)
|-
|3200||32FF||Lettres et mois CJC cerclés||voir [[Chinois, japonais et coréen]] (CJC)
|-
|3300||33FF||Compatibilité CJC||voir [[Chinois, japonais et coréen]] (CJC) ([[unité de mesure|unités de mesure]])
|-
|3400||4DB5||Supplément A aux idéophonogrammes unifiés CJC||voir [[Chinois, japonais et coréen]] (CJC)
|-
|4DC0||4DFF||Hexagrammes du Classique des mutations ou Yi Jing||voir [[Yi Jing]], [[Hexagramme]]
|-
|4E00||9FA5||Idéophonogrammes unifiés CJC||voir [[Chinois, japonais et coréen]] (CJC)
|-
|A000||A48F||Syllabaire yi des Monts frais||
|-
|A490||A4CF||Clés yi||
|-
|AC00||D7A3||Hangûl||
|-
|''D800''||''DB7F''||''Demi-zone haute''||points de code invalides isolément<br />
''D800'' à ''D83F'' : codets hauts utilisés en UTF-16 pour les points de code du plan multilingue complémentaire<br />
''D840'' à ''D87F'' : codets hauts utilisés en UTF-16 pour les points de code du plan idéographique complémentaire<br />
''D880'' à ''DB3F'' : codets hauts utilisés en UTF-16 pour les points de code des plans complémentaires réservés<br />
''D840'' à ''D87F'' : codets hauts utilisés en UTF-16 pour les points de code du plan complémentaire réservé<br />
|-
|☒''DB80''||''DBFF''||''Partie à usage privé de la demi-zone haute''||points de code invalides isolément<br />
''DB80'' à ''DBBF'' : codets hauts utilisés en UTF-16 pour les points de code de la zone supplémentaire A à usage privé<br />
''DBC0'' à ''DBFF'' : codets hauts utilisés en UTF-16 pour les points de code de la zone supplémentaire B à usage privé<br />
|-
|''DC00''||''DFFF''||''Demi-zone basse''||points de code invalides isolément
''DC80'' à ''DFFD'' : codets bas utilisés en UTF-16 pour des points de code assignés aux caractères valides ou réservés des plans complémentaires (assignés, réservés ou à usage privé)<br />
''DFFE'' à ''DFFF'' : codets bas pouvant être utilisés en UTF-16 pour la représentation de points de code assignés aux non-caractères en fin de chaque plan, lorsque le codet haut est le dernier assigné dans la demi-zone haute pour chaque plan complémentaire (assigné, réservé ou à usage privé)
|-
|☒E000||F8FF||Zone à usage privé||
|-
|F900||FAFF||Idéogrammes de compatibilité CJC||voir [[Chinois, japonais et coréen]] (CJC)
|-
|FB00||FB4F||Formes de présentation alphabétiques||
|-
|FB50||FDFF||Formes A de présentation arabes||voir [[alphabet arabe]]
|-
|''FDD0''||''FDEF''|| ||''non-caractères''
|-
|FE00||FE0F||Sélecteurs de variante||
|-
|FE20||FE2F||Demi-signes combinatoires||
|-
|FE30||FE4F||Formes de compatibilité CJC||voir [[Chinois, japonais et coréen]] (CJC)
|-
|FE50||FE6F||Petites variantes de forme||
|-
|FE70||FEFF||Formes B de présentation arabes||
|-
|FF00||FFEF||Formes de demi et pleine chasse||
|-
|FFF0||FFFD||Caractères spéciaux||
|-
|''FFFE''||''FFFF''|| ||''non-caractères''
|}
 
==== Plan multilingue complémentaire (PMC, 10000 à 1FFFF) ====
{| class=wikitable
|-
! scope=col colspan="2" | Points de code
! scope=col rowspan="2" | Nom officiel du bloc
! scope=col rowspan="2" | Commentaires
|-
! scope=col | Début
! scope=col | Fin
|-
|10000||1007F||Syllabaire linéaire B ou syllabaire mycénien||
|-
|10080||100FF||Idéogrammes du linéaire B||
|-
|10100||1013F||Nombres égéens||
|-
|10300||1032F||Alphabet italique||
|-
|10330||1034F||Gotique||voir langue [[Gotique]]
|-
|10380||1039F||Ougaritique||voir langue [[Ougaritique]]
|-
|10400||1044F||Déséret||
|-
|10450||1047F||Shavien||
|-
|10480||104AF||Osmanya||
|-
|10800||1083F||Syllabaire chypriote||
|-
|1D000||1D0FF||Symboles musicaux byzantins||
|-
|1D100||1D1FF||Symboles musicaux occidentaux||
|-
|1D300||1D35F||Symboles du Classique du mystère suprême||
|-
|1D400||1D7FF||Symboles mathématiques alphanumériques||
|-
|''1FFFE''||''1FFFF''|| ||''non-caractères''
|}
 
==== Plan idéographique complémentaire (PIC, 20000 à 2FFFF) ====
{| class=wikitable
|-
! scope=col colspan="2" | Points de code
! scope=col rowspan="2" | Nom officiel du bloc
! scope=col rowspan="2" | Commentaires
|-
! scope=col | Début
! scope=col | Fin
|-
|20000||2A6D6||Supplément B aux idéogrammes unifiés CJC||
|-
|2F800||2FA1F||Supplément aux idéogrammes de compatibilité CJC||
|-
|''2FFFE''||''2FFFF''|| ||''non-caractères''
|}
 
==== Plans complémentaires réservés (30000 à DFFFF) ====
{| class=wikitable
|-
! scope=col colspan="2" | Points de code
! scope=col rowspan="2" | Nom officiel du bloc
! scope=col rowspan="2" | Commentaires
|-
! scope=col | Début
! scope=col | Fin
|-
|''3FFFE''||''3FFFF''|| ||''non-caractères''
|-
|''4FFFE''||''4FFFF''|| ||''non-caractères''
|-
|''5FFFE''||''5FFFF''|| ||''non-caractères''
|-
|''6FFFE''||''6FFFF''|| ||''non-caractères''
|-
|''7FFFE''||''7FFFF''|| ||''non-caractères''
|-
|''8FFFE''||''8FFFF''|| ||''non-caractères''
|-
|''9FFFE''||''9FFFF''|| ||''non-caractères''
|-
|''AFFFE''||''AFFFF''|| ||''non-caractères''
|-
|''BFFFE''||''BFFFF''|| ||''non-caractères''
|-
|''CFFFE''||''CFFFF''|| ||''non-caractères''
|-
|''DFFFE''||''DFFFF''|| ||''non-caractères''
|}
 
==== Plan complémentaire spécialisé (PCS, E0000 à EFFFF) ====
{| class=wikitable
|-
! scope=col colspan="2" | Points de code
! scope=col rowspan="2" | Nom officiel du bloc
! scope=col rowspan="2" | Commentaires
|-
! scope=col | Début
! scope=col | Fin
|-
|-
|E0000||E007F||Étiquettes||
|-
|E0100||E01EF||Supplément de sélecteurs de variante||
|-
|''EFFFE''||''EFFFF''|| ||''non-caractères''
|-bgcolor="#EEEEEE"
|}
 
==== Plans complémentaires à usage privé (F0000 à 10FFFF) ====
{| class=wikitable
|-
! scope=col colspan="2" | Points de code
! scope=col rowspan="2" | Nom officiel du bloc
! scope=col rowspan="2" | Commentaires
|-
! scope=col | Début
! scope=col | Fin
|-
|☒F0000||FFFFD||Zone supplémentaire A à usage privé||
|-
|''FFFFE''||''FFFFF''|| ||''non-caractères''
|-
|☒100000||10FFFD||Zone supplémentaire B à usage privé||
|-
|''10FFFE''||''10FFFF''|| ||''non-caractères''
|}
 
Les zones à usage privé indiquées par le symbole ☒ ne contiennent pas les mêmes [[œil (typographie)|œils]]<!-- ne pas remplacer par « yeux »--> d’une police à l’autre et doivent donc être évités pour le codage de textes destinés aux échanges entre systèmes hétérogènes. Toutefois ces points de codes à usage privé sont valides et peuvent être utilisés dans tout traitement automatisé conforme aux normes Unicode et ISO 10646, y compris entre systèmes différents s’il existe un accord mutuel privé concernant leur usage.
 
En l’absence d’accord entre les deux parties, des systèmes utilisant ces caractères peuvent rejeter les textes les contenant, car les traitements qu’ils leur font subir pourraient ne pas fonctionner correctement ou causer des problèmes de sécurité; les autres systèmes qui n’attribuent aucune fonction spéciale à ces caractères doivent en revanche les accepter comme valides et les conserver comme partie intégrante des textes, comme s’il s’agissait de symboles graphiques, même s’ils ne savent pas les afficher correctement.
 
Les ''non-caractères'' listés sont des points de code valides, mais ils ne sont pas (et ne seront jamais) assignés à des caractères normalisés. Leur usage dans le codage de textes transmis entre systèmes (même si identiques) est interdit, car il est impossible de les rendre compatibles avec les formes de transformation universelles normalisées (dont UTF-8, UTF-16, UTF-32) les schémas de codage correspondants, et les autres codages normalisés compatibles avec Unicode et ISO 10646 (BOCU-1, SCSU, différentes versions de la norme chinoise GB18030, etc.). Toutefois certains systèmes les génèrent et les utilisent localement, mais pour un traitement strictement interne destiné à faciliter l’implémentation des algorithmes de traitement de textes utilisant les autres caractères normalisés.
 
Parmi ces derniers non-caractères figurent les points de code valides mais réservés aux demi-zones (privées ou non). Ces points de code ne peuvent pas être utilisés individuellement pour coder un caractère. Ils servent uniquement pour la forme de transformation universelle UTF-16 (et les schémas de codage correspondants) pour représenter sur deux codets (à 16 bits chacun) des points de code valides dans un des 16 plans complémentaires (certaines combinaisons de codets correspondent à des caractères valides de ces plans, standards ou privés, d’autres combinaisons peuvent ne représenter aucun caractère valide car elles correspondraient à des non-caractères de ces plans complémentaires, et sont donc interdites dans les textes conformes à la norme).
 
Les autres zones libres (non assignées à un bloc nommé normalisé, ou les points de code laissés libres et réservés dans les blocs nommés existants) sont réservés pour un usage ultérieur dans des versions futures d’Unicode et ISO 10646, mais sont valides. Tout système traitant des textes contenant ces points de code réservés doivent les accepter sans les filtrer. Unicode définit des propriétés par défaut pour les hypothétiques caractères correspondants, afin de préserver la compatibilité des systèmes (conformes à la norme Unicode) avec les futurs textes conformes qui les contiendraient. Aucune application conforme ne doit leur assigner un caractère ou une sémantique spéciale (les zones privées sont destinées à cet usage).