Introduction a l’encodage numerique

PCM-MISE-EN-AVANT

Commençons par le début! Le PCM, de son petit nom, Pulse Code Modulation.

Cet article me sert un peu de base pour une série d’articles sur les différents formats de fichiers audio et de petite base pour aborder l’audionumérique de manière générale !

Du coup, comment ça marche ?

Le PCM, c’est le nom qu’on connait pas du truc qu’on voit partout, le petit graphique suivant :

On va partir de l’élément de base, le CAN, ou Convertisseur Analogique Numérique. Il va transformer le signal électrique analogique en signal électrique numérique ! Quelle évidence, tout était dans le nom !

Plus sérieusement, on va coder des niveaux de signal sur un certain nombre de bits.

Explication !

Suivant les réglages du CAN, on va prendre un échantillon x fois par secondes. Traditionnellement, on utilisait une fréquence de 44,100 fois par secondes. On est maintenant en audio pro plutôt à 48kHz.

Alors pourquoi ces fréquences ?

On entend jusque 20kHz, pourquoi échantillonner à plus du double ?

Pour deux raisons, la première étant le théorème d’échantillonnage de Nyquist Shannon. En gros, il faut admettre qu’une fréquence échantillonnée à moins du double de sa fréquence ne pourra pas être restituée. Bon, un schéma s’impose pour comprendre le pourquoi du comment ! 

On a donc un seul point de mesure par période de notre signal… Pas de quoi resituer le signal correctement ! Dans le cas suivant, la restitution va générer une fréquence plus basse, voir un bruit de fond (sur l’exemple, on génère même un courant continu, ce qui n’arrive qu’en théorie) !

La deuxième raison, c’est l’anti-aliasing, phénomène qu’on vient de voir au dessus. On applique un filtre passe bas pour que les fréquences au-delà du spectre audible soient atténuées et ne viennent pas perturber à la restitution ! 

Sauf qu’on le sait, aucun filtre n’a une fréquence de coupure parfaite, on a toujours une bande de transition. Voilà pourquoi les constructeurs ont décidé de prendre une marge ! On a donc pris une marge de 2050Hz.

Et oui, ces formats ont été conçus par deux firmes spécialistes des formats, j’ai nommé Philips et Sony !

En effet, les cassettes préexistantes ont conditionné l’échantillonnage. Pour ne pas modifier tous les appareils, les constructeurs ont choisi le 44,1kHz car c’est l’échantillonnage le plus haut possible en NTSC et en PAL (deux formats vidéo cassette).

Depuis le passage au DAT, la norme en audio pro est devenue 48kHz. La conversion de 44,1kHz à 48kHz et inversement étant compliquée à l’époque, cela a permis d’éviter les copies ou les gravures de CD. Maintenant, les appareils sont souvent compatibles 44,1kHz et 48kHz.

J’allais oublier de vous parler de la quantification. Les fameux 8, 16, 24 et 32 bits !

On va donc donner une valeur à l’échantillon prélevé précédemment. 

Pourquoi différentes quantifications ? Et bien pour augmenter la définition et la dynamique ! (Ainsi que le rapport signal sur bruit !)

Plus la quantification est élevée, plus nos possibilités de valeur sont grandes. Pour 8 bits, on a 28=256 possibilités, pour 16 bits, 216 =65536 possibilités et ainsi de suite !

Et qu’en est-il de la virgule flottante ? En fait, plutôt que de coder les échantillons indépendamment, on code l’espace entre deux valeurs adjacentes par rapport à la valeur.

Cela permet d’avoir la même précision pour les grandes valeurs que pour les petites valeurs ! Par contre, le seuil de bruit augmente en fonction de la grandeur des valeurs.

Ensuite, comment est codé le résultat de notre conversion ?

On utilise le codage Manchester, qui permet d’éviter de trop longs temps à voltage identique, ce qui poserait un problème de stabilité d’horloge. Le codage Manchester, c’est un front montant égal un 1 et un front descendant égal un 0. On est donc obligé d’avoir des changements réguliers d’état électrique, donc la clock est incluse dans le codage lui-même ! 

Codage Manchester

Je vous mets pour l’exemple un codage plus classique, où on voit bien que sur des suites de 0 ou de 1, on aura plus de référence de clock !

Codage Non Return to Zero (NRZ)

Je finis cet article par un petit lexique des différents termes utilisés dans la conversion audionumérique!

  • Aliasing: Phénomène qui génère une fréquence à partir de ce qu’on a échantillonner. Il peut être réduit en rajoutant un filtre suffisamment restrictif dans le processus d’encodage.
  • Jitter: déviation de la clock qui peut générer des clics audio, suite à la perte de paquets.
  • Noise: c’est l’ensemble de tous les bruits que la chaîne acoustique rajoute, bruit analogique, bruit thermique…
  • Slew rate limit: l’incapacité du CAN à quantifier en temps voulu.
  • Quantification: le fait de réduire une courbe complète à un ensemble de points de la courbe.

Le partage c'est la vie !

Partager sur facebook
Partager sur google
Partager sur twitter
Partager sur linkedin
Partager sur email

Rejoins la communauté !

Envie de découvrir encore plus de contenu et d’outils pratiques ?

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Catégories

Newsletter

Restons connectés

Inscris-toi gratuitement à notre lettre d’information mensuelle !

Rejoins nous