Coder avec Unicode/Normalisation

Cette page est considérée comme une ébauche à compléter . Si vous possédez quelques connaissances sur le sujet, vous pouvez les partager en éditant dès à présent cette page (en cliquant sur le lien « modifier »).

Ressources suggérées : Aucune (vous pouvez indiquer les ressources que vous suggérez qui pourraient aider d'autres personnes à compléter cette page dans le paramètre « ressources » du modèle? engendrant ce cadre)

Unicode permet de coder les caractères accentués de deux manières distinctes[1] :

  • le caractère de base et le caractère accent ;
  • un seul caractère.

Ceci peut soulever des difficultés lors de la comparaison de chaînes ou pour savoir si deux chaînes sont identiques. Cela peut aussi permettre d'avoir deux fichiers portant le même nom mais avec un codage binaire différent.

La normalisation permet de standardiser la question de savoir si un caractère accentué est codé par le caractère de base et le caractère accent ou bien s'il ne constitue qu'un seul caractère.

En vala, la méthode normalize de la classe string convertit une chaîne dans sa forme canonique de manière à standardiser la question de savoir si un caractère accentué est codé par le caractère de base et le caractère accent ou bien s'il ne constitue qu'un seul caractère.

Références

modifier
  1. Lire par exemple w:fr:Normalisation Unicode sur wikipedia