À la découverte d'Unicode/Propriétés de caractère
Le standard Unicode n'est pas qu'un simple encodage de caractères, mais associe également un ensemble sémantique riche à chaque caractère encodé, propriétés requises pour l'interopérabilité et le comportement correct dans les implémentations, ainsi que pour la conformité Unicode. Cette sémantique est cataloguée dans la base de données de caractères Unicode (UCD), une collection de fichiers de données qui contiennent les points de code de caractères Unicode et les noms de caractères. Les fichiers de données définissent les propriétés des caractères Unicode et les mappages entre les caractères Unicode (tels que les mappages de casse).
Les propriétés peuvent être utilisées pour gérer les caractères (points de code) dans les traitement, comme les sauts de ligne, la direction du script de droite à gauche ou l'application de contrôles. Certaines propriétés de caractère sont également définies pour les points de code auxquels aucun caractère n'est attribué et les points de code qui sont étiquetés comme « non-caractère ». Les propriétés des caractères sont décrites dans l'annexe 44 du standard.
Les propriétés ont des niveaux de force : normatif, informatif, contributif ou provisoire. Pour simplifier la spécification, une propriété de caractère peut être attribuée en spécifiant une plage continue de points de code qui ont la même propriété.
Références
modifier- (anglais) Unicode Character Database
- (anglais) Propriété des caractères Unicode