Coder avec Unicode/Normalisation
Unicode permet de coder les caractères accentués de deux manières distinctes[1] :
- le caractère de base et le caractère accent ;
- un seul caractère.
Ceci peut soulever des difficultés lors de la comparaison de chaînes ou pour savoir si deux chaînes sont identiques. Cela peut aussi permettre d'avoir deux fichiers portant le même nom mais avec un codage binaire différent.
La normalisation permet de standardiser la question de savoir si un caractère accentué est codé par le caractère de base et le caractère accent ou bien s'il ne constitue qu'un seul caractère.
Vala
modifierEn vala, la méthode normalize de la classe string convertit une chaîne dans sa forme canonique de manière à standardiser la question de savoir si un caractère accentué est codé par le caractère de base et le caractère accent ou bien s'il ne constitue qu'un seul caractère.
Références
modifier- ↑ Lire par exemple w:fr:Normalisation Unicode sur wikipedia