« Compression de données/Introduction » : différence entre les versions

Contenu supprimé Contenu ajouté
m typographie
Xmlizer (discussion | contributions)
typo + lien
Ligne 9 :
== Compression sans perte ==
 
La compression est dite ''sans perte'' lorsqu'il n'y aucune perte de données sur l'information d'origine. Il y a autant d'information après la compression qu'avant, elle est seulement réécrite d'une manière plus concise (c'est par exemple le cas de la compression GZIP[[gzip]]). La compression sans perte est dite aussi compactage.
 
 
L'information à compresser est vue comme la sortie d'une source de symboles qui produit des textes finis selon certaines règles. Le but est de réduire la taille moyenne des textes obtenus après la compression tout en ayant la possibilité de retrouver exactement le message d'origine (on trouve aussi la dénomination ''codage de source'' en opposition au ''codage de canal'' qui désigne le codage correcteurs d'erreurs).
 
Les formats de fichier de compression sans perte les plus courants sont :
* rarzip
* gzip, gz
* bz, bz2
* rar
* Z (sur stations sun)
* zoo
Ligne 25 ⟶ 26 :
* arc
 
Les standards ouverts les plus courants sont décrits dans plusieurs [[RFC]]s :
* RFC 1950 (ZLIB, flux de données compressées)
* RFC 1951 (système de compression par blocs « DEFLATE », utilisé par zip et gz)
Ligne 32 ⟶ 33 :
===Codage Huffman===
 
L'idée qui préside au [[codage de Huffmann]] est voisine de celle utilisée dans le [[code Morse]] : coder ce qui est fréquent sur peu de place, et coder en revanche sur des séquences plus longues ce qui revient rarement. En morse le '''e''', lettre très fréquente, était codé par un simple point, le plus bref de tous les signes.
 
L'originalité de Huffmann est qu'il fournit un ''procédé d'agrégation objectif'' permettant de constituer son code dès lors qu'on possède les statistiques d'utilisation de chaque caractère.
 
Le [[Macintosh]] d'[[Apple]] codait les textes dans un système inspiré de Huffman : les 15 lettres les plus fréquentes (dans la langue utilisée) étaient codées sur 4 bits, et la 16ème16{{e}} combinaison était un code d'échappement indiquant que la lettre était codée en ASCII sur les 8 bits suivants. Ce système permettait une compression des textes voisine en moyenne de 30% à une époque où la mémoire était extrêmement chère par rapport aux prix actuels (compter un facteur 1000).
 
===Codage RLE===
Ligne 44 ⟶ 45 :
===Lempel-Ziv===
 
''Voir à [[LZW]]''
 
== Compression avec pertes ==