RETIFWEB.NET Site gratuit & sans publicitéRETIFWEB
dernière modification de cette page 23/10/14

Coursaudio

Formats et Compressions Audio

La compression des données

des principes du compactage depuis les données binaires sans pertes jusqu'à la compression audio destructrice


Cette page s'appuie sur les informations puisées sur les sites suivant
Sitesitewikipediasebvcs
01audiolamecndpMinidisc.org
un article sur le même sujet

Compression de données

Histoire

L'étude scientifique de l'information a débuté en 1924 sous l'égide de mathématiciens et physiciens (Gabor, Hartley, Nyquist, Wiener), mais elle n'a pris toute sa dimension qu'avec l'élaboration de la théorie mathématique de l'information, publiée en 1949 par Shannon et Weaver. Le développement des transmissions télégraphiques imposait, déjà, d'optimiser l'utilisation des canaux de transmission offerts, et donc d'éliminer des données à transmettre tout ce qui n'était pas indispensable à la compréhension. Wikipedia

Le compactage permet de limiter la redondance de l'information
Les méthodes décrites ci-dessous sont non destructrices, on peut parler aussi de compactage.

La compression des fichiers binaires ne tient pas compte de la nature des données.
C'est une opération qui doit être entièrement réversible, et on ne dispose d'aucune information préalable de redondance.
Les codages dits “ à longueur variable ” (VLC variable length coding) utilisent les fréquences d'apparition des éléments du message pour attribuer aux plus fréquents des codes courts, et aux plus rares des codes longs.
La méthode de Huffman
ajoute à ce principe une étude préliminaire statistique :
À partir d'un étude statistique portant sur la fréquence des éléments signifiants présents dans les données originales, l'algorithme de Huffman attribue à chacun de ces éléments un code binaire dont la taille est d'autant plus réduite que le code est fréquent. (ce code est utilisé -rarement seul- pour la télécopie, le photo cd Kodak etc...) Ce système autorise ensuite le codage en temps réel.
Pour aller plus loin

Les codages par dictionnaires
reposent sur l'analyse des répétitions dans les données à traiter. Il ne s'agit pas de rechercher des occurrences de signifiants considérés comme élémentaires (généralement des octets), mais des chaînes de longueur variable. Les chaînes répétées prennent place dans un dictionnaire, et chacune est remplacée, dans le résultat compressé, par sa seule adresse dans le dictionnaire. (Plus le fichier est gros plus cette méthode est intéressante en raison de la taille du dictionnaire par rapport à/aux fichiers à compresser). Cet encodage se fait en deux passes.
Pour aller plus loin

Les méthodes Lempel-Ziv (LZ, LZx)
Elles exploitent conjointement un algorithme statistique limité (issu de Huffman ou de Shannon-Fano), mais en évitant l'analyse préalable de l'ensemble du fichier, ce qui permet un encodage en une seule passe.
De très nombreux programmes de tous types utilisent les algorithmes LZ (Arc, Pkzip, Lharc, Arj...) .


La compression audio et vidéo

Commençons par parler de compression non destructrice que l'on peut également appeler compactage.
En audio (et en vidéo), les données sont fortement corrélées. Pour l'image, la couleur ou la luminosité de deux pixels contigus sont statistiquement très voisines. Pour le son, deux échantillons successifs sont statistiquement très proches étant donné la nature oscillatoire continue des phénomènes sonores.

Cette forte corrélation illustre la redondance d'information au sens de Shannon.

La méthode statistique est toujours employée dans les techniques de compression d'images. Cette méthode exploite la corrélation entre des pixels voisins pour produire une “ valeur probable ” du prochain pixel à coder. Le produit de cette prédiction étant statistiquement proche de la valeur réelle, il est alors possible d'effectuer le codage de manière plus économique, par exemple simplement en codant uniquement la différence avec la valeur prédite. Les ordres de grandeur des valeurs à transmettre sont alors statistiquement plus faibles, ce qui permet d'utiliser un nombre plus faible de bits, soit en codage de longueur fixe, soit en longueur variable
Les méthode de Codage par répétition : le “ Run Length Encoding ”
Il s'agit simplement de remplacer des éléments signifiants successifs identiques par un seul d'entre eux, suivi du nombre de répétitions.
Implémenté dans : PCX de Z-soft, repris à son compte par Microsoft avec les différentes implémentations de Paintbrush, télécopie (groupes 3 et 4 en particulier), généralement associé à un codage statistique de Huffman, les extensions multimédias de Windows reconnaissent également les fichiers RLE, qui sont une version compressée Run Length du format BMP, le CD-I de Philips, parmi d'autres formats graphiques, utilise deux formats Run Length


Les méthodes prédictives : compression différentielle et différentielle adaptative pour les données sonores.
--La méthode différentielle simple DPCM ne transmet pas la valeur de l'échantillon, mais celle de la différence avec l'échantillon précédent, qui est statistiquement inférieure et peut donc être codée sur un nombre de bits plus réduit.
Cette méthode suppose cependant un codage des différences entre deux échantillons avec un codage à longueur variable, à la manière de la méthode de Huffman. Or, une telle méthode, qui suppose une analyse statistique préalable de l'ensemble des données, n'est pas adaptée à ce type d'utilisation : d'une part, elle ne peut être appliquée en temps réel (analyse et compression en deux passes), et, d'autre part, elle nécessite des traitements de décodage plus complexes qui peuvent se révéler incompatibles avec les matériels de restitution grand public envisagés.
--
La méthode différentielle améliorée ADPCM (A pour adaptative) améliore le procédé précédent en réalisant une “ prédiction ” plus précise que la simple prise en compte de la valeur de l'échantillon précédent. Cela peut par exemple, dans le cas du son, être réalisé par l'extrapolation de la vitesse de variation du signal sur les échantillons précédents. La valeur délivrée par le prédicteur est alors celle de l'échantillon précédent, corrigée en tenant compte de la moyenne des variations constatées sur quelques échantillons passés. Le codage ainsi obtenu permet, avec un même nombre de bits de codage, des altérations largement plus réduites qu'avec la méthode différentielle simple.
Dans le cas de la compression de données sonores, les codages différentiels et différentiels adaptatifs (DPCM et ADPCM) offrent des résultats satisfaisants.


NB : le signal sonore est unidimensionnel et présente une corrélation beaucoup moins forte que les images.


Compression destructrice

Dès que l'on accepte de perdre des informations, fussent-elles jugées superflues, on entre dans le domaine de la compression dégradante. Se pose alors la question de la limite acceptable à la perte d'informations, de la sélection des critères opportuns et des paramètres à retenir pour estimer la qualité de restitution.

L'évaluation du résultat est largement subjective

La question de la limite acceptable de perte d'informations se pose à ce moment.

Quelques éléments contribuent à notre réflexion sur ce sujet : ils concernent le matériel technique et le matériel humain.

- Dans bien des cas, l'information obtenue après numérisation peut se révéler trop fine pour la chaîne de restitution envisagée. Par exemple, les dispositifs de visualisation ne disposent pas tous des 24 bits généralement utilisés pour coder les couleurs, ou encore, la qualité des haut-parleurs utilisés rend souvent tout à fait superflue une définition d'enregistrement de type CD-Audio ou SACD (super Audio CD 24 bits 96 Khz).
- Il importe également de tenir compte des capacités de l'être humain à qui sont destinées in fine les informations conservées

Eléments empruntés à Sebsite.org

Visitez Sebsite.org



L'être humain a une perception auditive spécifique concue pour la perception du langage et limitée par certains aspects.
L'étude de cette perception se nomme psycho-acoustique.
Les seuils
Notre oreille est très sensible aux alentours de 2,8 - 3 kHz, ce qui est la fréquence moyenne de la voix humaine. Pour les fréquences alentours, les niveaux nécessaires à rendre une fréquence audible croissent à vitesse variable en fonction de l'individu, de son âge, de sa condition physique, (altérations et traumatismes définitifs ou passagers).
Donc on entend surtout correctement les fréquences situées dans la gamme 2 kHz 5 kHz. En effet, il faut moins de 5dB pour entendre les fréquences de cette bande alors qu'il faut plus de 20dB pour entendre les fréquences situées en dessous de 100Hz ou au dessus de 10kHZ.
Les effets de masque (camouflage d'un phénomène par un autre) Les effets de masque
Masking fréquentiel
Il intervient lorsque le cerveau doit analyser deux modulations dont la fréquence et l'amplitude proches.
Les bandes critiques
L'oreille analyse le spectre audio en le découpant en bandes dites critiques. Dans chacune de ces bandes (dont la largeur varie en fonction de la précision de l'oreille à ces fréquences), l'oreille assimile les fréquences et ne les différencie pas. Ces bandes critiques correspondent à la répartition des cellules ciliées dans l'oreille interne. Ces bandes sont plus étroites dans les basses fréquences et environ les trois quarts de ces bandes assurent une perception au dessous de 5000Hz, l'oreille est donc plus précise dans ces fréquences moyenne et basses que dans les très hautes.
Certaines bandes critiques sont plus larges que d'autres et méritent donc moins de définition
Masking temporel
Après l'audition d'un son fort, l'oreille met un certain temps avant d'entendre un autre son de fréquence proche si son niveau est plus faible. C'est le masking temporel.


Directivité du son

Au dessous d'une certaine fréquence, l'être humain ne perçoit pas la direction de la provenance du son. Depuis longtemps, tenant compte de ce phénomène, des systèmes d'enceintes ne restituent sur plusieurs canaux que les fréquences médianes et aiguës, les fréquences graves étant restituées par une seule unité de diffusion (caisson de basse).
NB : il ne faut pas confondre le caisson de basse de ces systèmes avec le caisson de LFE (low frequency effect) destiné à la production de vibrations dans les systèmes cinéma et home cinéma. Cependant, certains systèmes home cinéma font cumuler au caisson de basse ces deux fonctions.

Une analyse soignée de la pertinence des informations conservées, tenant compte de l'ensemble de la chaîne jusqu'à la restitution finale et son destinataire, permet de réduire considérablement la quantité des données conservées, sans dégradation lors de la restitution. Pourtant, une telle opération consiste déjà en une altération de la source, et constitue donc bien d'une compression dégradante. En outre, ce type de traitement ne peut se concevoir que dans le cas de l'élaboration d'un support de diffusion, adapté à une chaîne de restitution précise ; dans le cas d'un archivage, en revanche, il sera nécessaire de prévoir une définition sensiblement plus fine, pour tenir compte des besoins futurs mais sans oublier que nombre d'informations, si elles sont technologiquement restituables, sont peu ou pas perceptibles à l'oreille ou à l'œil des humains d'aujourd'hui et sans doute de demain !


Les formats courants d'encodage des fichiers sur deux canaux
les format multicanaux sont traités dans l'article sur le son multicanal
Lossless : non dégradé. Les méthodes de compression Lossless garantissent qu'après décompression, le fichier soit identique à l'original
Lossy : dégradé
. Les méthodes de compression avec perte autorisent une disparition d'information.

Les formats courants Lossless

Wav ( WAVEform audio format) ,Aif (Audio Interchange File Format) , formats encodés en PCM (pulse code modulation - Voir ci dessus DPCM & ADPCM). Le format Wave broadcast ne diffère du format wav que par la présence de tags d'information (auteur, copyright...) dans l'en tête du fichier.

Wav 64 est un format défini par Sonic Foundry racheté par Sony et proposé dans les applications Sony Pictures Digital. Il diffère du format Wav par son encodage en 64 bits. Bien qu'étant un format propriétaire il n'est pas demandé de royalties pour l'utiliser. Article complémentaire

flac logo Flac est un format de compression audio "lossless" (sans perte). Flac, qui à rejoint la xiph foundation (l’association qui s’occupe entre autre de la promotion du format ogg vorbis), est un format open source qui permet d’encoder pour produire des fichiers plus petits (50%). En cas de reconversion en wav, le fichier obtenu est identique à l’original. La page de flac offre tous les outils pour exploiter ce format.


monkeysMonkey's audio permet de diviser par deux la taille des fichiers audio sans aucune perte de qualité.
Pour atteindre ce taux de compression très élevé, meilleur que ce qu'on obtient généralement avec des archiveurs classiques tels que Winzip ou Winrar, le logiciel utilise des techniques adaptées aux propriétés des fichiers audio : rapport entre les canaux des fichiers stéréo, prédiction, ainsi que des astuces sur les nombres binaires.La page de Monkey's audio offre tous les outils pour exploiter ce format.

wmaWMA lossless est un format de compression sans perte créé par Microsoft qui permet la gestion numérique des droits (DRM).
NB le Wma existe aussi en tant que format lossy (avec pertes - voir ci-dessous)

 

mpeg4MPEG-4 Audio Lossless Coding (ALS) est un format de la famille MPEG qui assure une compression sans perte.

 

wavepackWavepack est un format open source. Ce format est lossy ou losless selon son usage.
Le mode par défaut est un mode de compression de donnée non destructeur.
Le mode hybride fournit tous les avantages de compression sans perte avec un bonus supplémentaire. Au lieu de créer un fichier seul, ce mode crée un fichier lossy relativement petit, de haute qualité qui peut être utilisé tout à fait isolément, ET un fichier "de correction" qui (quand il est combiné avec le fichier lossy) fournit la restauration sans perte .


Les formats courants Lossy
Une comparaison de ces formats est disponible sur le forum Hydrogeniau

Vocabulaire : Le bitrate est le nombre de bits que l'on autorise pour coder 1 seconde. On aura donc la relation suivante : plus on veut compresser un morceau (pour qu'il prenne le moins de place possible) plus le bitrate à choisir devra être faible.

MP3 : "Motion Picture Experts Group (MPEG) audio layer 3"
Toutes les fréquences au dessus de 15 kHz sont supprimées.
Si dans un groupe de fréquence (bandes critiques, voir ci dessus) certaines ont un niveau plus élevé, celles qui ont un niveau faible ne sont pas conservées.
Les Hautes fréquences sont converties en mono.


Il existe trois encodeurs principaux
Fraunhofer (privilégie la qualité du signal compressé )
Xing Technologie (privilégie la rapidité de ses algorithmes)
Encodeurs à base routines ISO (Lame) dont le fonctionnement dépend des choix de l'utilisateur et du concepteur de l'encodeur


mp3 proMP3 Pro (texte cité de 01audio-video.com)
Le MP3Pro date de fin 2001. Ce format résulte de l'association de deux technologies : le codage MP3 d'une part et la technique de reconstruction de la bande passante d'autre part. Cette technique, nommée SBR (Spectral Bandwidth Replication), qui rétablit une partie des hautes fréquences d'un signal après la transmission de celui-ci, permet l'amélioration de la qualité sonore du signal reçu.

Par exemple à 64kb/s Le signal original est encodé à environ 60 kbits/s, en utilisant les techniques de codage MP3 habituelles. Les 4 kbits/s restant servent à véhiculer des informations utiles à la reconstruction de la bande passante après transmission du signal. Des informations telles que la fréquence à partir de laquelle il faut reconstruire la bande passante et le niveau des fréquences présentes dans le signal original mais qui vont être éliminées par codage MP3 sont codées par un encodeur distinct (l'encodeur SBR) et stockées de sorte qu'elles occupent les 4 kbits/s restant. Le signal encodé en MP3Pro véhicule bien 64 kbits/s mais il contient deux parties distinctes. Le signal est ensuite transmis puis décodé. La partie MP3 est décodée normalement et le décodeur SBR reconstruit la partie haute du spectre. L'utilisateur reçoit un signal ayant une bande passante de 16 kHz contre 11 kHz auparavant soit une bien meilleure qualité audio.

La technique SBR a été mise au point par la société Coding Technologies et des accords ont été passé avec Fraunhofer et Thomson Multimedia pour le développement des outils MP3Pro. Thomson Multimedia gère les licences MP3Pro.


wmaWMA lossy (une version Lossless existe également - voir ci-dessus)
Pour l'encodage de fichiers son en WMA on parle plutôt en terme de bitrate que de taux de compression.



Les fichiers encodés à l'aide du codeur WMA portent l'extension .wma. Microsoft revendique la qualité suivante : un morceau encodé à 192 kbits/s en WMA ne peut pas se distinguer de son homologue Wave issu d'un CD audio et une qualité audio dite proche du CD est atteinte pour 96 kbits/s. Ceci nous donne 720 ko (à 96 kbits/s) pour stocker 1 minute de son stéréo. A qualité audio identique, un fichier encodé en WMA (96 kbits/s) occupe donc 25% de place en moins qu'un fichier encodé en MP3 (128 kbits/s). Les techniques de compression WMA et MP3 étant semblables, la différence de qualité se fait sur une meilleure exploitation des caractéristiques de l'oreille humaine. Cette amélioration a été rendue possible grâce aux progrès des chercheurs dans la compréhension de l'oreille humaine. En effet, rappelons que le standard MP3 date du début des années 1990 tandis que le WMA dans son standard actuel date de fin 2000.


oggOGG VORBIS
Ogg est le nom du principal projet de la fondation Xiph.Org dont le but est de proposer à la communauté des formats et codecs multimédias ouverts, libres et dégagés de tout brevet.
Les outils de codage exploités par le format sont plus avancés que ceux qu'exploite le MP3. Cela explique les performances supérieures du format, notamment pour les bas débits, inférieurs à 100 kilobits par seconde. Ces algorithmes plus performants induisent une complexité de traitement plus importante, et donc un temps de compression généralement supérieur à un même fichier qu'on compresserait en MP3 sur une machine de même puissance.
Informations

mpegMPC
Le MPC est basé sur le format vidéo MPEG 2, nommé aussi Mpeg Plus ou MP+. Le format MPC surpasse tous les autres formats dans les débits supérieurs à 160 kbps.



aacAAC (advanced Audio Coding) est développé par un consortium autour de l'institut Fraunhofer (père du MP3), Sony et Dolby. Il s'appuie sur le MPEG4 et autorise la gestion de droits (DRM). C'est le format choisit par Apple pour ses ipod et son site de musique en ligne itunes. Informations


realReal Audio
Dans le domaine du Streaming, un format s'impose sur le Web : le Real. L'hébergement de musiques et de vidéos Real en mode Streaming nécessite un type de serveur bien particulier. (Protocole rtsp: et non http: ou ftp )
Le format RA (Real Audio) a été développé par la société Real Networks (anciennement Progressive Networks)

 

atrac ATRAC Sigle signifiant "codage acoustique à transformation adaptable". Algorithme de compression audio utilisé par les lecteurs Mini Disc. ATRAC3 Codec audio utilisé par les lecteurs Mini Disc MDLP (MiniDisc Long Play) et les lecteurs MP3 Sony. Voir aussi

Envoyer sur mon Kindle
Afficher une version de cette page adaptée aux lecteurs braille ou audio et permettant l'impression