Digital codecs e frantumazione del suono
Molto tempo fa si registrava su supporti di cera, su
bachelite, vinile, nastro magnetico, e su filo di metallo. Il metodo era quello
analogico, e la trasposizione di quanto si riusciva a captare con i microfoni,
veniva tradotta fedelmente secondo principi fisici vibratori, come la scrittura
graffiata, quindi quella elettromagnetica, su nastro o filo metallo.
In elettronica, per analogico si intende il modo di rappresentare il
segnale elettrico all'interno di una data apparecchiatura (che lavora sotto
potenziale elettrico); il segnale è detto analogico quando i valori utili che lo
rappresentano sono continui (infiniti). Cioè se prendessimo in esame un
intervallo spazio temporale A - B (tipo quello rappresentato da un potenziometro
ed i suoi relativi valori Min(A) e MAX(B)) si passerebbe da Min a MAX per una
infinità di mutazioni elettriche, non numerabili in R (dal latino continuum =
congiunto, unito insieme). Analogico si contrappone a digitale (=discreto).
Analogico significa "continuo", "non discreto".
In parole povere, se considerassimo il semplice ed unico potenziometro (quello
del volume) presente su di un amplificatore di un impianto hi-fi, non saremo mai
in grado, una volta mutata la posizione fisica del potenziometro, di riportarlo
una seconda volta sulla stessa posizione (cioè sul medesimo valore di resistenza
elettrica) o, più volgarmente, allo stesso e medesimo volume.WAV (o WAVE),
contrazione di WAVE form audio file format (formato audio per la forma d'onda) è
un formato audio di codifica digitale sviluppato da Microsoft e IBM per personal
computer IBM compatibile. È una variante del formato RIFF di memorizzazione dei
dati. I dati vengono salvati in "chunk" (blocchi), è simile anche al formato IFF
o all'AIFF utilizzato dai computer Apple macintosh. Sia i file nel formato WAV
che AIFF sono compatibili con i sistemi operativi Windows e Macintosh. I dati di
questo formato, essendo progettato per computer che utilizzano processori Intel
o compatibili, vengono memorizzati con la notazione little endian. Essendo
basato sullo standard RIFF il formato supporta varie modalità di
immagazzinamento dei dati ma nella pratica il più diffuso è il metodo PCM.
Il PCM provvede a salvare i dati audio senza nessun tipo di compressione dati,
la forma d'onda viene memorizzata direttamente così com'è sia pure
digitalizzata. Quindi i file risultanti sono di elevate dimensioni, ma non
richiedono elevata potenza di calcolo per essere riprodotti, ed essendo la
codifica lossless, viene spesso utilizzata dagli utenti professionali per
memorizzare l'audio. Molti programmi supportano questo formato, dato che è molto
diffuso ma non semplice da manipolare date le sue dimensioni molto elevate di
byte.
La struttura di un file wave è molto modulare e permette di incapsulare flussi
audio codificati in diversi modi con opportuni codec. In questo modo è possibile
utilizzare il codec che offre le prestazioni migliori in rapporto allo scopo che
si vuole raggiungere (registrazione ad alta fedeltà, flusso dati per lo
streaming via rete ecc.) e alla sorgente da registrare (parlato, musica, ecc.).
Allo stesso tempo, la registrazione può essere caratterizzata da altri
parametri: il numero di bit di codifica (generalmente 8, 16 o 24) e la frequenza
di campionamento (11, 22, 44.1, 48, 96 o 192 KHz). Tutti questi parametri
influiscono sulla dimensione dei file.
Con la diffusione del file sharing su internet il formato WAV ha
perso popolarità. Essendo un formato non compresso genera dei file molto grandi
e quindi sulle reti telematiche si preferisce utilizzare formati compressi come
MP3, Ogg Vorbis o AAC che pur essendo non lossless garantiscono comunque una
discreta qualità audio con un file audio grande un decimo del WAV
corrispondente. Si sono diffusi anche dei formati lossless ma compressi che pur
se non raggiungono la compattezza dei file come l'MP3 garantiscono un'elevata
qualità audio e un file grande dalla metà a un terzo del file WAV
corrispondente. Questi formati sono il FLAC, TTA o Apple Lossless Encoding.
Nel campo professionale, all'interno del file sono state incluse oltre alle
informazioni audio anche dei metadata che offrono informazioni aggiuntive quali
ad esempio la data, la frequenza di campionamento e il Timecode. Questi tipi di
file vengono chiamati Broadcast Wave File e possono avere la normale estensione
WAV o BWF (Broadcast Wave Format). Lo standard adottato per questo tipo di
metadata è il formato iXML.
I CD musicali presenti in commercio sono codificati in formato traccia audio.
Inserendo un CD in un computer su cui viene eseguito Windows, le tracce sono
viste dal sistema operativo come file .cda, e devono essere necessariamente
convertite in file .wav per poter essere ascoltate con i player musicali più
comuni come Windows Media Player o Winamp.
Analogamente, le tracce in formato wav o mp3 (o qualsiasi altro formato) devono
essere di nuovo convertite e masterizzate in traccia audio .cda per poter essere
ascoltate dai comuni lettori CD. Come descritto in precedenza i file wav possono
essere codificati con una grande varietà di codecs per ridurre la dimensione dei
file (per esempio i codecs GSM o mp3).
Questa tabella serve a comparare la qualità audio e il tipo di compressione di
file monofonici dei vari codecs disponibili per i file.WAV includendo: PCM,
ADPCM, GSM, CELP, SBC, TrueSpeech e MPEG Layer-3.
Formato Bitrate 1 Min = Esempio
11 025 Hz 16 bit PCM 176.4 kbit/s[1] 1292 kB[2] 11k16bitpcm.wav
8 000 Hz 16 bit PCM 128 kbit/s 938 kB 8k16bitpcm.wav
11 025 Hz 8 bit PCM 88.2 kbit/s 646 kB 11k8bitpcm.wav
11 025 Hz µ-Law 88.2 kbit/s 646 kB 11kulaw.wav
8 000 Hz 8 bit PCM 64 kbit/s 469 kB 8k8bitpcm.wav
8 000 Hz µ-Law 64 kbit/s 469 kB 8kulaw.wav
11 025 Hz 4 bit ADPCM 44.1 kbit/s 323 kB 11kadpcm.wav
8 000 Hz 4bit ADPCM 32 kbit/s 234 kB 8kadpcm.wav
11 025 Hz GSM6.10 18 kbit/s 132 kB 11kgsm.wav
8 000 Hz Mp3 16 k 16 kbit/s 117 kB 8kmp316.wav
8 000 Hz GSM6.10 13 kbit/s 103 kB 8kgsm.wav
8 000 Hz Lernout & Hauspie SBC 12 k 12.0 kbit/s 88 kB 8ksbc12.wav
8 000 Hz DSP Group Truespeech 9 kbit/s 66 kB 8ktruespeech.wav
8 000 Hz Mp3 8 k 8 kbit/s 60 kB 8kmp38.wav
8 000 Hz Lernout & Hauspie CELP 4.8 kbit/s 35 kB 8kcelp.wav
I file.WAV qui sopra, sono a tutti gli effetti file WAV – anche se codificati
con il codec mp3 mantengono l'estensione “.wav”.
Il Wav è un formato proprietario a sorgente aperto che può essere riprodotto da
quasi tutti i player musicali.
In elettronica, informatica e telecomunicazioni un codec è un
programma o un dispositivo che si occupa di codificare e/o decodificare
digitalmente un segnale analogico (tipicamente audio o video), affinché possa
essere salvato su un supporto di memorizzazione o richiamato per la sua lettura
o riproduzione oppure trasmesso a distanza su un canale di comunicazione.Tale
programma può essere installabile/aggiornabile (su personal computer o
apparecchiature multimediali predisposte) oppure essere integrato in un
componente hardware dedicato (ad es. nei lettori CD o DVD casalinghi o in alcune
schede video/audio per PC).
I codec effettuano la compressione dati (e/o la decompressione in lettura) in
modo da poter ridurre lo spazio di memorizzazione occupato a vantaggio della
portabilità o della trasmissività del flusso codificato su un canale di
comunicazione. Si suddividono in base alla modalità in cui effettuano la
compressione:
con perdita di informazione (lossy)
senza perdita di informazione (lossless)
Per realizzare tale compressione si fa ricorso alla riduzione della precisione
dei colori dei singoli pixel (codec video) o delle frequenze da riprodurre (in
alcuni codec audio vengono soppresse le frequenze non udibili dall'orecchio
umano), alla eliminazione delle ridondanze o alla scrittura delle sole
differenze (codec video) rispetto ad una immagine di riferimento.
Per ciascun tipo di compressione esistono vari tipi di codec, differenti tra
loro per il tipo di segnale su cui devono operare e per l'algoritmo di
codifica/compressione in essi implementato.
In un sistema di telecomunicazioni oltre alla compressione dati, cioè la
codifica di sorgente, il codec attua anche la codifica di canale sui dati da
trasmettere sul canale.
Nel sistema operativo Microsoft Windows, i codec sono delle librerie con
estensione .dll, che i vari player audio e video gestiscono come dei plug-in.
Nel sistema operativo Mac OS X i codec sono gestiti dal sistema QuickTime che li
utilizza come plug-in con estensione .component memorizzati nella cartella
QuickTime che si trova nella cartella Libreria.
Il codec permette di ascoltare formati proprietari e aperti da qualunque lettore
di file, mantenendo separati il livello fisico del formato da quello logico
della sua rappresentazione.
In informatica, elettronica e telecomunicazioni la compressione
audio è una tecnica di elaborazione dati, attuata a mezzo di un codec audio, che
permette di ridurre le dimensioni (anche di molto) di un file audio o la banda
passante richiesta per una trasmissione audio su un canale di comunicazione. Un
file è una sequenza di cifre binarie (bit) utilizzata come veicolo di
informazione. Comprimere significa ridurre il numero delle cifre che
costituiscono la sequenza mantenendo l'informazione inalterata o in un intorno
dell'informazione originaria (ossia facendo in modo che la nuova informazione
approssimi quella precedente). Esistono due tipi di compressione:
con perdita (lossy): quando l'informazione contenuta nel file compresso è minore
di quella contenuta nel file di origine
senza perdita (lossless): quando l'informazione contenuta nel file compresso è
identica a quella contenuta nel file di origine
La prima permette compressioni maggiori, ma a scapito della qualità sonora.
Usando un algoritmo di compressione senza perdita, dal risultato della
compressione si può riottenere tutta l'informazione originaria. In questo caso
la riduzione massima generalmente ottenibile, utilizzando algoritmi studiati
appositamente per l'audio è all'incirca del 60%, ma solo con alcuni tipi di
suono. Si possono utilizzare gli stessi algoritmi generali di compressione (come
per esempio ZIP o Gzip) ma i risultati in termine di riduzione sono inferiori.
Esempio: FLAC, APE, ALE
Compressione con perdita
Dal risultato della compressione audio con perdita non si può più
ottenere un suono identico all'originale ma la riduzione ottenibile è molto
spinta: con rapporti di compressione di 10 a 1, il risultato è quasi
indistinguibile dall'originale ma ci si può spingere anche oltre a discapito
della qualità.
Gli studi di psicoacustica hanno permesso di accertare che l'uomo non è
sensibile nello stesso modo a tutte le frequenze e che un suono ad alta
intensità ne maschera uno con frequenza vicina ma intensità più bassa.
Sfruttando queste ed altre considerazioni, si può pensare di eliminare
l'informazione che non verrebbe comunque percepita ed ottenere quindi un buon
rapporto di compressione.
L'approccio Time/Frequency
I principali algoritmi di compressione lossy dei segnali audio si basano su
tecniche di tipo time/frequency, per mezzo delle quali, il segnale audio viene
preliminarmente scomposto in finestre temporali e processato da un banco di
filtri digitali, al fine di rappresentarlo in molteplici sotto-bande nello
spettro audio. Successivamente, ciascuna sotto-banda viene quantizzata
considerando sia la potenza in essa convogliata (a maggior potenza corrisponde,
come regola generale, una maggiore quantizzazione), sia la sensibilità
dell'udito umano, nonché gli effetti psico-acustici. Uno dei principali limiti
dell'approccio time/frequency risiede nella possibilità che le proprietà
intrinseche del segnale audio da comprimere non siano stazionarie nella finestra
temporale di analisi. In questo caso, il rumore di quantizzazione introdotto in
ciascuna sotto-banda, distribuendosi sull'intera finestra temporale di analisi,
può indurre dei gravi effetti distorsivi che deteriorano la qualità del segnale.
Per ovviare a tale problema, in molti degli standard di uso comune, sono state
adottate tecniche di adattamento dinamico della finestra temporale di analisi
(in presenza di segnali non stazionari si riduce la dimensione della finestra di
analisi) e di predizione nel dominio della frequenza.
mp3 (MPEG-1 Layer III) è stato introdotto negli anni ottanta ed
è il più popolare. Essendo il più antico, è anche il meno efficiente e spesso il
peggiore in termini di qualità.
Windows Media Audio (WMA) è molto diffuso sui sistemi Windows.
Ogg Vorbis è un codec più efficiente dell'mp3 ed è open source (ossia
liberamente distribuibile e modificabile)
AAC è stato reso popolare dalla Apple. Apple's iTunes Music Store fa uso di file
compressi con 128Kbps CBR AAC e lo standard video MPEG4 (nonché MPEG2)
raccomanda l'uso dell'AAC audio.
Dolby Digital (AC3) può comprimere fino a 6 canali audio, di cui 5 a piena
larghezza di banda ed uno per gli effetti a bassa frequenza (LFE), fino a 384
kbit/s. Viene utilizzato nei DVD e nel sistema americano ATSC DTV.
MPC o Musepack è un formato opensource con una qualità maggiore dell'mp3 a
parità di bitrate.
Bitrate
I file multimediali sono per loro natura connessi al tempo che scorre. In altri
termini ad ogni secondo è associato un certo contenuto informativo e quindi una
certa sottosequenza di cifre binarie. Il numero di cifre binarie che compongono
queste sottosequenze è detto bitrate. In altre parole il bitrate è il numero di
cifre binarie impiegate per immagazzinare un secondo di informazione. Questo può
essere costante per tutta la durata del file o variare all'interno di esso. Ad
esempio i cd musicali vengono campionati (registrati) ad una frequenza pari a
44.100Hz. Da ciò si evince che ogni secondo si hanno 44.100 valori registrati
dall'ipotetico microfono che vanno poi moltiplicati per i 2 canali del suono
stereo che vanno a loro volta moltiplicati per 2 poiché la registrazione avviene
a 16 bit (pari appunto a 2 byte). Quindi avremo: 44.100 x 2 x
2 x 60 (secondi) = ~10 MB ogni minuto
La compressione, diminuendo la lunghezza globale del file, diminuirà di
conseguenza la lunghezza media delle sottosequenze ossia diminuirà il bitrate
medio. Il bitrate medio diventa dunque in questi casi l'indice dell'entità della
compressione. Ad esempio se il file di origine possedesse un bitrate di 1411
Kbit/s e il file compresso possedesse un bitrate medio di 320 Kbit/s, allora
avremmo ridotto di un fattore pari a circa 4.5.
Una compressione lossy effettua un compromesso fra la perdita d'informazione e
la dimensione del file finale, mentre una lossless deve bilanciare la dimensione
del file finale con i tempi di esecuzione dell'algoritmo.
Esistono anche codec in grado di utilizzare un approccio ibrido, utilizzando una
compressione lossy e generando un blocco di correzione, in modo da ricostruire
l'onda sonora senza alterazioni qualitative; attualmente i codec in grado di
adottare anche questa strategia sono WavPack, OptimFrog DualStream e MPEG-4 SLS.
Altri codec che ridurranno la dimensione del flusso di informazioni, consentendo
risparmi notevoli, ma danneggiando le informazioni originali dei flussi,
riducendone le qualità.
Senza compressione
AIFF
WAV
Compressione lossless
Apple Lossless Encoding
FLAC
IFF
Compressione lossy
Advanced Audio Coding
ATRAC
Dolby Digital
Digital Theater System
G.729
MP3
AAC
Mp3PRO
Musepack
RealAudio
Speex
Vorbis
Windows Media Audio
SILK (Skype)
In informatica e telecomunicazioni con il termine
compressione dati si indica la tecnica di elaborazione dati che, attuata a mezzo
di opportuni algoritmi, permette la riduzione della quantità di bit necessari
alla rappresentazione in forma digitale di un'informazione. La compressione dati
viene utilizzata sia per ridurre le dimensioni di un file, e quindi lo spazio
necessario per la sua memorizzazione, sia per ridurre l'occupazione di banda
necessaria in una generica trasmissione dati digitale come ad esempio una
trasmissione televisiva digitale. Nelle trasmissioni digitali tale compressione
dell'informazione è operata all'interno della cosiddetta codifica di sorgente in
modo da eliminare la ridondanza e ottenere un'alta efficienza del codice di
sorgente. L'importanza della compressione dati sta nel fatto che in sua assenza
non sarebbe possibile usufruire di tutta una vasta collezione di contenuti
informativi attraverso la rete Internet per limitatezza della banda disponibile
dei mezzi trasmissivi.
Le varie tecniche di compressione organizzano in modo più efficiente i dati,
spesso perdendo una parte dell'informazione originale, al fine di ottenere una
rappresentazione dell'informazione più compatta quindi comportante minori
risorse per la sua memorizzazione e trasmissione. Come controparte la
compressione dati necessita però di potenza di calcolo per le operazioni di
compressione e decompressione, spesso anche elevata se tali operazioni devono
essere eseguite in tempo reale.
Il parametro di qualità che valuta l'efficienza della compressione è il rapporto
o tasso di compressione.
Le tecniche di compressione dati si dividono in
due grandi categorie:
compressione dati lossy: comprime i dati attraverso un processo con perdita
d'informazione che sfrutta le ridondanze nell'utilizzo dei dati;
compressione dati lossless: comprime i dati attraverso un processo senza perdita
d'informazione che sfrutta le ridondanze nella codifica del dato.
Tipicamente la scelta sul tipo di compressione da operare e le particolarità
tecniche su cui esse si basano dipendono dalla particolare applicazione o
destinazione d'uso dando vita alle seguenti forme di compressione:
la compressione audio;
la compressione video;
la compressione dell'immagine;
la compressione multimediale.
Di norma file e programmi non tollerano alcuna perdita di informazione, come
invece possono le immagini relative a foto, il segnale video o il segnale audio.
Le tecniche senza perdita (lossless) consentono di preservare l'informazione
originale in ogni sua parte. È l'unica via possibile quando si devono comprimere
file di testo, programmi, documenti, database, schemi elettrici ecc. Due esempi
sono il formato ZIP o il formato RAR, i quali consentono di archiviare o
trasmettere uno o più file risparmiando sulle risorse necessarie (spazio su
disco o tempo di trasmissione). Al momento in cui vengono recuperati i file
dallo ZIP o RAR (decompressione) questi risultano indistinguibili dagli
originali.
Un altro esempio di caso in cui viene usata la compressione senza perdita è
quello delle immagini non fotografiche, come gli schemi, i disegni o le icone.
Per questo scopo esistono formati come il GIF o il più recente PNG. L'immagine
compressa con uno di questi formati mantiene esattamente l'aspetto originale
fino al dettaglio più insignificante. Le prestazioni di questo tipo di
compressione dati sono tipicamente più contenute e limitate.
D'altro canto, le tecniche con perdita di informazione (lossy) permettono anche
delle compressioni molto spinte, quindi un grande risparmio di risorse, a
discapito però della qualità dell'immagine o dell'audio che si è voluto
comprimere. Generalmente queste tecniche si usano per comprimere i file
multimediali. Pur mantenendo minima la perdita di qualità, il risparmio rispetto
ad una compressione lossless sulla stessa informazione è sempre decisamente
apprezzabile.
Le informazioni multimediali come audio o video, in origine sono infatti troppo
grandi per essere agevolmente trasmesse o memorizzate, quindi si preferisce
avere una piccola riduzione della qualità (o distorsione del contenuto), ma nel
contempo file molto più leggeri. Alcuni esempi sono: la compressione di immagini
in formato JPEG, largamente usata in fotografia digitale e sul Web, la
compressione video in formato XviD oppure la compressione audio in formato MP3.
Infine, è importante puntualizzare che nel caso di compressione lossy di
contenuti multimediali (es. MPEG), gli algoritmi di compressione di uso comune
sono stati concepiti per minimizzare la distorsione percepita dall'utente in
modo da rendere accettabile la degradazione del contenuto multimediale
risultante.
Algoritmi di compressione: ( Questi algoritmi a seconda delle funzioni che hanno integrate al loro interno, si comporteranno in modo diverso l'uno dall'altro, producendo tipi diversi di sonorità, timbriche, armoniche ecc... perforando le informazioni e introducendo nei flussi originali mancanze di vario genere, fino, ad aggiungere ad esse addirittura artefatti di manipolazione non desiderati. Da questo tipo di compressioni, deriva l'incoerenza sonora della musica moderna digitalizzata, rispetto a quella analogica del passato, la reale scarsa qualità armonica e la fittizzia pulizia armonica ottenuta per cancellazione dei dati. Dal momento che a seconda del codec utilizzato, si avranno una serie di mutamenti dell'intero spettro sonoro, ad ogni manipolazione, corrisponderà una diversa esecuzione reale della registrazione originale ).
Senza perdita di informazioni:
Run-length encoding
PackBits
PCX
Codifica a riduzione locale di Entropia (codificazione entropica)
Codifica di Huffman
Codifica aritmetica
Codifica a dizionario
DEFLATE
LZ77 e LZ78
Lempel-Ziv-Welch (ZIP)
LZMA
Trasformata di Burrows-Wheeler
PPM
Con perdita di informazione:
Trasformata discreta del coseno (DCT)
MPEG (Primo metodo di compressione ad alta diffusione basato su DCT e Delta)
JPEG (Compressione d'immagini basato su quantizzazione, DCT e Huffman)
Compressione frattale
Trasformazione frattale
Wavelet
MP3 (compressione audio basata su compressione simil-wavelet e DCT)
JPEG2000 (compressione d'immagini che usa wavelet, Huffman e quantizzazione)
Artefatti di compressione
Un artefatto di compressione è il risultato di uno schema di compressione dati
aggressivo applicato ad una immagine, audio, o video che rimuove alcuni dati
meno importanti dal contenuto complessivo, ma che tuttavia risulta visibile e
sgradevole all'utente. Gli artefatti in dati time-dependent, ovvero dipendenti
dal tempo, come audio o video sono spesso il risultato dell'errore latente nella
compressione dati con perdite.
Tecnicamente parlando, un artefatto di compressione è una classe particolare di
errori sui dati che spesso è la conseguenza della quantizzazione nella
compressione dati con perdite.
Gli artefatti di compressione sono visibili in molti media di largo uso, come
nei DVD e anche nei comuni formati di file per computer come JPEG, MP3, o MPEG.
I media non compressi (come i Laserdisc, CD Audio e file WAV o i media compressi
senza perdite, come i FLAC) non sono soggetti agli artefatti di compressione.
Artefatti di compressione nella codifica delle immagini
Quando si utilizza la trasformata discreta del
coseno (DCT) per la codifica a blocchi, come nelle immagini in formato JPEG, è
possibile la comparsa di diversi tipi di artefatti, come un contorno nelle zone
uniformi, un rumore scalettato lungo linee curve e bordi, e/o un effetto
scacchiera nelle regioni più "dense".
Quando si utilizza una codifica a predizione nei filmati, come negli MPEG-1, gli
artefatti di compressione tendono a restare visibili per diverse generazioni di
frame decompressi, portando alla comparsa di un effetto "dipinto", come se
l'immagine fosse dipinta dal pennello di un artista invisibile.
Quando si utilizza una codifica a predizione di movimento, come nei MPEG-2 o
MPEG-4, gli artefatti di compressione tendono a muoversi con lo scorrimento
ottico dell'immagine, causando un particolare effetto in cui della sporcizia
pare muoversi assieme agli oggetti nella scena.
Errori presenti nel flusso dati posso causare errori come grandi errori di
quantizzazione, o possono interrompere completamente l'analisi del flusso per un
breve periodo di tempo, causando un disfacimento dell'immagine. Laddove si sono
verificati errori gravi nel flusso dati, non è insolito che il decoder continui
ad applicare effetti "dipinto" all'immagine danneggiata, creando un effetto di
"immagine fantasma".
Per interrompere l'incedere degli artefatti di compressione, molti sistemi
inviano di tanto in tanto un intero frame compresso senza predizione, di solito
all'inizio di un taglio e quindi ad intervalli regolari di tempo.
Nella codifica MPEG delle immagini, questi sono conosciuti come "I-frame", dove
la 'I' sta per "intraframe compression".
Riduzione degli artefatti sulle immagini
Diversi approcci sono stati proposti per ridurre gli effetti della compressione sulle immagini, ma per poter utilizzare tecniche standard di compressione/decompressione e mantenere i benefici della compressione (per esempio, minori costi di trasmissione e di immagazzinamento), molti di questi metodi si concentrano sul "post processing" — cioè, nella rielaborazione delle immagini in fase di ricezione o visualizzazione. Nessuna di queste tecniche di post-processing ha dimostrato di essere efficace in tutte le situazioni e di conseguenza nessuna tecnica ha ottenuto un largo consenso; inoltre alcune tecniche sono state implementate e utilizzate in sistemi proprietari. Molti software di editing immagini, per esempio, hanno algoritmi proprietari di riduzione degli artefatti JPEG inclusi in essi.
Artefatti di compressione nella codifica audio
Una tecnica consiste nell'usare un bit rate più
basso ricampionando l'audio. Riducendo la frequenza di campionamento, le
frequenze più elevate devono essere rimosse per rispettare il teorema del
campionamento di Nyquist-Shannon. Se il filtro anti-aliasing non funziona
correttamente, si avverte una distorsione digitale o aliasing nella forma di
frequenze non armoniche riflesse attorno alla frequenza di Nyquist. (per esempio
un tono a 22,85 kHz elaborato con una frequenza di Nyquist di 22,05 kHz
risulterà come un tono di 22.05 - (22,85 - 22,05) = 21,25 kHz. In generale
outputF = NF x 2 - inputF). Questo può essere impercettibile, ma livelli
maggiori di distorsione posso sembrare simili alla ring modulation. Diminuendo
la quantità di dati (numero di bit) catturati per ogni campione può causare una
perdita di dettaglio e di range dinamico nell'audio. La perdita di qualità in
entrambi i metodi sarà uniforme per tutta la registrazione.
Un'altra tecnica consiste nel cercare di rimuovere suoni che l'orecchio umano
tipicamente non può percepire. Se una persona non può percepire la differenza, i
dati risultanti saranno più semplici (e di conseguenza potranno avere una
compressione migliore usando tecniche lossless). Per esempio, l'orecchio umano
in genere non è in grado di percepire un suono debole simultaneamente ad un
suono simile ma di intensità maggiore. Una tecnica di compressione con perdita
può identificare questo suono debole e cercare di rimuoverlo. Poiché nessun
algoritmo è perfetto e altri compromessi possono essere applicati per eliminare
dati aggiuntivi per ridurre il data rate, ciò comporta in alcuni casi
l'eliminazione di suoni percepibili. Ma poiché questi suoni sono comunque
teoricamente difficili da percepire, il risultato sarà generalmente di suono
appiattito, o "sporcato".
Molti sistemi cercano di rimpiazzare le serie di campioni audio con altre
rappresentazioni. Di solito queste rappresentazioni rendono più semplice il
tentativo di eliminare suoni non percepibili e quindi rendono più semplice
comprimere i dati utilizzando tecniche tradizionali di compressione senza
perdita. Una tecnica comune è quella di rappresentare l'audio come la somma di
una serie di onde di seno. La rappresentazione può non essere perfetta; in
cambio di una più semplice descrizione compressa del suono, l'accuratezza può
essere sacrificata.
Molti sistemi di compressione audio si sforzano di mantenere un data rate di
riferimento, di solito espresso in bit di dati per secondo di audio. Quando
viene utilizzato un data rate costante, le porzioni semplici della registrazione
(per esempio un tono di silenzio) saranno facilmente compresse rispettando il
data rate di riferimento; la riproduzione risultante sarà molto simile all'audio
originale. Man mano che si registrano sezioni più complesse, il sistema sarà
obbligato a ridurre seriamente la qualità per rispettare il data rate fissato;
la riproduzione risultante mostrerà più artefatti. Molti sistemi di compressione
supportano la codifica Variable Bit Rate, che modifica il data rate di
riferimento cercando di mantenere però costante la qualità di riproduzione.
Codec audio utilizzati oggigiorno
Apple Lossless Encoding
Direct Stream Transfer (DST)
Free Lossless Audio Codec
LA (Lossless Audio)
Lossless Predictive Audio Compression (LPAC)
Lossless Transform Audio Compression (LTAC)
Meridian Lossless Packing (MLP)
Monkey's Audio (APE)
OptimFROG
RealAudio Loseless
RKAU (RK Audio)
Shorten (SHN)
True Audio free lossless codec (TTA)
WavPack
Windows Media Audio 9 Lossless
Dolby TrueHD
DTS-HD Master Audio
Compressione con perdita dei dati
A/52 or AC-3 AC-3 or Dolby Digital A/52
ADPCM (Adaptive Differential Pulse Code Modulation)
AAC Advanced Audio Coding (MPEG-2 e MPEG-4)
ADX ([1]) (usato principalmente nei giochi)
ATRAC Adaptive TRansform Acoustic Coding (Usato nei MiniDisc)
DTS (DTS Coherent Acoustics)
DTS-HD High Resolution
MP1 (MPEG audio layer 1)
MP2 (MPEG audio layer 2) Layer 2 audio codec (MPEG-1, MPEG-2 e non-ISO MPEG-2.5)
MP3 (MPEG audio layer 3) Layer 3 audio codec (MPEG-1, MPEG-2 e non-ISO MPEG-2.5)
Musepack
Perceptual Audio Coding
TwinVQ
Vorbis
WMA (Windows Media Audio)
Specifici per la voce (flusso dati basso,
ottimizzato per la telefonia e il VoIP)
GSM
G.711 (a-law e u-law)
G722
G722.1
G723
G.723.1
G.726
G.728
G.729
G.729a
HILN (MPEG-4 Parametric audio coding)
AMR
Speex, patent free
IMBE
AMBE
VSELP
CELP
SMV
EVRC
QCELP
Perceptual Audio Coding, usato dalla radio via satellite e IBOC radio digital
Codec video
Senza perdita di dati:
CorePNG
H.264 High Profile supporta la codifica senza perdita
Huffyuv
MSU Lossless Video Codec
Lagarith
LCL
Tscc TechSmith Camtasia losslesscoder
CamStudio Lossless Codec
Castelli
Compressione con perdita dei dati
Audio Video Standard (AVS)
Cinepak
Dirac(BBC) codec open source sviluppato dall'emittente di Stato Inglese
H.261
H.263
H.263v2
Indeo 3/4/5
KVCD
MJPEG
MPEG-1 Video
MPEG-2 Video
MPEG-4 Advanced Simple Profile Video
DivX
XviD
3ivx
MPEG-4 Advanced Video Coding vedi H.264
x264
Nero Digital
Sorenson AVC Pro codec, nuova implementazione Sorenson
Ogg Tarkin
On2 VP3, VP6
Pixlet
RealVideo
VC-1
Ogg Theora
WMV
ASF (Parte di Windows Media)
WAX (Parte di Windows Media)
JPDM JPDMovie
Ciò significa semplicemente, che qualora, a
parità da registrazione originale di una certa qualità, ogni volta che si
procederà a mutarne la quantità di dati originali per ridurli in qualche modo,
si peggioreranno semplicemente le cose dal punto di vista qualitativo. In
termini di psico acustica, poi potremmo anche convincerci o arbitrariamente
affermare che non vi siano differenze apprezzabili, e il tipo di compressione
sia ottimo, ma ad una attenta analisi di spettro di tutto il range di frequenze,
scopriremmo successivamente che vi sono state delle modifiche sostanziali,
armoniche ecc... anche se al primo ascolto, non percepibili coscientemente.
I tipi di peggioramento, individuati in circa un centinaio di possibili difetti
annoverabili fra quelli di tipo consapevole come inconsapevole, per scelte di
mercato, a fini puramente economici e di spazio/tempo che i flussi occupano
sulle linee, sui supporti, o nelle memorie, sarà un prodotto dell'accomodamento
dell'industria dei media a standard sempre inferiori, sebbene cerchino di
convincerci che le cose vadano sempre meglio. Basti pensare ai 7 livelli
distinti di flusso dei filmati in Full HD ad esempio. Non c'è limite a
peggioramenti di questo tipo, essendo illimitato il numero di codec che si
potrebbero utilizzare a seconda delle esigenze particolari degli hardware e
delle marche.
Non si è fatto un solo passo in avanti, da almeno una trentina di anni, in
termini di qualità effettiva delle registrazioni, sebbene la tecnologia sia
andata avanti a passi da gigante. Pare non vi sia stata alcuna esigenza, di
migliorare le cose, e che si sia seguita, la sola via che produce al guadagno
più facile, veloce e sempre crescente, da parte di chi ha in mano l'industria,
senza chiedere il parere a nessuno. I clienti potenziali di tutto il mondo, sono
passati all'mp3 senza soffrirne troppo, anche se le armoniche sono andate a
farsi benedire, ed è rimasta solo la metà dello spettro musicale che ascoltavamo
prima.
Anzi, meno della metà. E questa, dal punto di vista sensoriale, percettivo e
neuronale, foriera di problemi di diverso tipo, oltre che di piacere, arte ed
emozioni. La storia non finisce qui.
Wiki e Jedi