À la découverte d'Unicode/Saisie des caractères
L'objet de ce livre n'est pas d'indiquer comment saisir des caractères sur tel ou tel système, mais bien de présenter Unicode.
Toutefois, un livre intitulé Unicode en pratique serait sans doute incomplet s'il n'offrait quelques éléments d'information sur la saisie de caractères Unicode.
Avant toute chose, il est utile de préciser que tout utilisateur d'ordinateur saisit déjà des caractères Unicode chaque fois qu'il tape sur son clavier : par exemple l'utilisateur francophone saisit des caractères Unicode latin tandis que l'utilisateur grec saisit des caractères grecs.
Les questions qui se posent sont donc d'une part de savoir comment configurer son clavier pour des langues étrangères, et d'autres part comment saisir les caractères biens pratiques qui ne sont pas disposés sur le clavier. Par exemple, il n'est pas toujours pratique de saisir un accent grave sur un A majuscule.
Configuration du clavier
modifierPour utiliser les caractères des différents alphabets, une configuration du clavier peut être suffisante. La configuration du clavier est propre à chaque système, notamment Windows, ou X-Window sous Unix et MacOSX.
Méthode d'entrée
modifierUne méthode de saisie (en anglais, input method en général ou input method editor (IME) chez Microsoft) est un programme ou un composant d'un système d'exploitation qui permet aux utilisateurs d'un ordinateur de saisir des caractères complexes et des symboles (tels que les caractères chinois, coréen, japonais ou d'origine Indiennes (Sanskrit, Tamoul, Tibétain...), à l'aide d'un clavier occidental classique. Le terme input method environment est également employé en anglais.
Le terme Input Method est généralement utilisé (Mac OS, BeOS, X Window System, terminal texte Unix…).
Microsoft utilise d'autres noms : Le terme IME est plutôt employé dans le contexte de Microsoft Windows. et FEP pour MS-DOS.
XIM est une infrastructure pour les méthodes d'entrée sous X Window System.
Utilisation sous Linux et Unix
modifier- Sous Mac OS X et dans Mac OS 8.5 et suivants : il faut choisir la méthode de saisie Unicode Hex Input. La combinaison se fait en pressant la touche Option et en saisissant les 4 chiffres hexadécimaux du code point Unicode[1].
- Sous l'environnement logiciel GNOME, maintenir la touche U tout en tapant le nombre Unicode. Les anciennes versions nécessitent de maintenir Ctrl et Maj en plus de la touche U.
- Accessoirement, et pour un public averti, dans l'éditeur de texte Vim, la combinaison
Ctrl-V u
, puis nombre hexadécimal, permet de saisir un caractère Unicode.
Logiciel de consultation
modifierCertains logiciels sont dédiés à la consultation des caractères Unicode. Ils ne permettent pas de saisir un flot de texte comme cela se fait avec un clavier où l'on peut saisir plusieurs caractères par seconde, mais ils offrent d'autres possibilités en ne se limitant pas à un sous-ensemble restreint des caractères d'Unicode.
C'est notamment le cas du logiciel graphique gucharmap et du logiciel en ligne de commande unicode.
gucharmap
modifiergucharmap est un logiciel qui permet d'afficher les tables de caractères Unicode, de les rechercher, de les voir avec différents niveaux de zoom, et de les copier.
Un onglet dédié permet également de détailler le nom du point de code, son codage, le caractère, la catégorie et le sens d'écriture.
unicode
modifierUnicode est un logiciel qui permet d'obtenir à partir de son numéro ou d'une chaîne de caractère elle-même, toutes les principales informations relatives à ce caractère, comme illustré dans l'exemple ci-après :
Invocation du logiciel pour le point de code U+1234:
unicode U+1234
Réponse du logiciel détaillant le nom du point de code, son codage, le caractère, la catégorie et le sens d'écriture:
U+1234 ETHIOPIC SYLLABLE SEE UTF-8: e1 88 b4 UTF-16BE: 1234 Decimal: ሴ ሴ Category: Lo (Letter, Other) Bidi: L (Left-to-Right)
Autre exemple:
unicode ≠ U+2260 NOT EQUAL TO UTF-8: e2 89 a0 UTF-16BE: 2260 Decimal: ≠ ≠ Category: Sm (Symbol, Math) Bidi: ON (Other Neutrals) Character is mirrored Decomposition: 003D 0338
Saisie de caractères par les développeurs
modifierLes informaticiens disposent d'un autre moyen pour désigner des caractères lorsqu'ils écrivent un logiciel.
Ce moyen est dépendant du langage informatique utilisé. Mais le langage HTML comme la plupart des langages de programmation moderne permettent de saisir des caractères en les désignant par leur numéro décimal et/ou hexadécimal.
Exemples avec le caractère € (U+0020AC) :
- En HTML :
- Par le numéro de caractère en hexadécimal :
€
- Par le numéro de caractère en décimal :
€
- Par le nom du caractère :
€
- Par le numéro de caractère en hexadécimal :