« À la découverte d'Unicode/Fonctionnalités usuelles et algorithmes » : différence entre les versions

Contenu supprimé Contenu ajouté
Ligne 38 :
 
== équivalences de texte==
[[Unicode]] contient de nombreux [[Caractère (informatique)|caractères]]. Pour maintenir la compatibilité avec des standards existants, certains d’entre eux sont équivalents à d’autres caractères ou à des séquences de caractères. Unicode fournit deux notions d’équivalence : canonique et de compatibilité, la première étant un [[sous-ensemble]] de la deuxième. Par exemple, le caractère n suivi du diacritique [[tilde]] ◌̃ est canoniquement équivalent et donc compatible au simple caractère Unicode ñ, tandis que la [[Ligature (typographie)|ligature typographique]] ff est seulement compatible avec la séquence de deux caractères f.
{{...}}
 
La [[normalisation Unicode]] est une normalisation de texte qui transforme des caractères ou séquences de caractères en une même représentation équivalente, appelée « forme normale » dans cet article. Cette transformation est importante, car elle permet de faire des comparaisons, recherches et tris de séquences Unicode. Pour chacune des deux notions d’équivalence, Unicode définit deux formes, l’une composée, et l’autre décomposée, conduisant à quatre formes normales, abrégées NFC, NFD, NFKC et NFKD, qui seront détaillées ci-dessous et qui sont aussi décrites dans [[Normalisation Unicode]].
 
=== Les deux notions d'équivalence ===
 
L’équivalence canonique est une forme d’équivalence qui préserve visuellement et fonctionnellement les caractères équivalents. Ils ont un codage binaire différents mais représentent un texte identique.
 
L’équivalence de compatibilité correspond plutôt à une équivalence de texte ordinaire, et peut réunir ensemble des formes distinctes sémantiquement.
 
===Pour aller plus loin ===
 
* [[Wikipedia:Équivalences unicode]]
* UAX 15 Unicode Normalization Forms
 
== division des mots et coupure de ligne==