144 Cap. 6. Standarde de co mpresie audio-video Cap. 6. Standarde de compresie audio-video 6.1. Rolul standardelor în comunica țiile multimedia… [613523]
144 Cap. 6. Standarde de co mpresie audio-video
Cap. 6. Standarde de compresie audio-video
6.1. Rolul standardelor în comunica țiile multimedia
Reprezentarea eficientă sub form ă digitală a semnalelor audio-
video a constituit un domeniu important de cercetare în ultimii 20 ani.
Tehnicile de codare digital ă a sunetelor, a imaginilor și a secven țelor
video s-au dezvoltat de la nivelul unor cercet ări pur academice pân ă la
un domeniu pur comercial. În speci al în ultimii ani, dezvoltarea
comunicaț iilor mobile, a Internetului și a tehnologiilor multimedia au
condus la mutarea ariei de interes tot mai mult c ătre cercetările aplicative
cu aspect puternic comercial, cu accent tot mai mare pe convergen ța
noilor tehnologii de comunica ție. Importan ța noilor tehnici va deveni tot
mai mare în viitor, în condi țiile în care cre șterea productivit ății se va face
tot mai mult pe seama eficien ței comunica țiilor, în func ție de
flexibilitatea, mobilitatea și interoperabilitatea echipamentelor de
comunicaț ii. Dezideratul este de a se asigura posibilitatea comunică rii
oricui, oriunde și oricând.
Comunica țiile multimedia devin din ce în ce mai puternice pe zi
ce trece, pe baza progreselor importante în ceea ce prive ște gradul de
disponibilitate a leg ăturilor de transmisie digital ă, în procesarea
semnalelor numerice, în dezvoltarea tehnologiilor VLSI și în cercet ările
din domeniul compresiei semnalel or audio-video. Tehnicile de
compresie numeric ă au devenit un domeniu matur, care a condus la
dezvoltarea unui mare num ăr de aplica ții, ca: transmisiunile de
televiziune numerică și de înalt ă definiție, videoconferin țele, aplica țiile
video-on-demand, televiziunea interactiv ă, bazele de date multimedia,
web-casting și alte aplica ții Internet. Odat ă cu creșterea interesului
comercial pentru aceste aplica ții, a crescut considerabil ș i necesitatea
dezvoltă rii de standarde cuprinz ătoare, care să permită interconectarea
echipamentelor de la diferi ți furnizori și asigurarea unor servicii de
calitate controlabil ă oriunde în lume.
Activităț ile de standardizare au fost demarate la începutul anilor
'80, de c ătre CCITT, apoi de c ătre CCIR și ISO. Printre rezultatele
acestor activit ăți se pot num ăra Recomand ările H.120 și H.261 ale
CCITT, Reomand ările 721 și 723 ale CCIR, standardele ISO 10918
(JPEG), ISO 11172 (MPEG-1), ISO 13818 (MPEG-2), ISO/IEC 2725
(MPEG-4) și ISO/IEC 3158 (MPEG-7).
Cap. 6. Standarde de compresie audio-video 145
Standardizarea interna țională implică colaborarea între regiuni și
țări cu diferen țe importante în ceea ce prive ște infrastructura și nivelul de
dezvoltare tehnologic, dar și în ceea ce prive ște interesele politice și
comerciale. De aceea, standardele interna ționale nu reprezint ă în mod
necesar cea mai bună soluție tehnică, ci mai degrab ă o încercare de a
realiza un compromis între gradul de fl exibilitate permis de standardul în
cauză, complexitatea de implementare necesar ă și eficienț a compresiei
realizate.
Deși există anumite diferen țe între diferitele organisme de
standardizare, în ceea ce prive ște procedurile de standardizare adoptate,
principalii pa și care trebuie efectua ți în vederea finaliz ării unui standard
pot fi descri și în conformitate cu Figura 6.1 [Scha, 95].
Cerințe
Faza competiț ională
Selecț ie metode de
bază
Fază de colaborare
Draft de standard
Validare
Standard interna țional
Fig. 6.1. Fazele standardiz ării interna ționale
În prima faz ă sunt identificate cerin țele corespunz ătoare unei
aplicații specifice sau unui anumit domeniu de aplica ții. În urm ătoarea
etapă se dezvolt ă de către diferite laboratoare de cercetare algoritmi
diferiți, în conformitate cu specifica țiile elaborate în faza anterioar ă,
algoritmi care sunt compara ți din punct de vede re al complexit ății și
performan țelor. Ca urmare a acestei compara ții va fi identificat ă o
singură tehnică drept metod ă de bază pentru rezolvarea problemei
abordate. În cadrul fazei de colaborare, printr-un efort comun al
specialiștilor și laboratoarelor implicate, este detaliat ă și îmbunătățită
tehnica de baz ă adoptată în etapa anterioară . La finalul acestei activit ăți
va fi elaborat un draft de standard, care urmeaz ă a fi validat prin teste
146 Cap. 6. Standarde de co mpresie audio-video
bazate pe simulare pe calculator, teste hardware și teste aplicative. Dup ă
validarea cu succes și eventualele îmbun ătățiri de detaliu, este adoptat
standardul final.
Primul comitet interna țional care a început activităț i de
standardizare în domeniul aplica țiilor audio-video a fost Grupul de Studii
(SG) XV al CCITT în perioada 1980-1984. În anul 1984 a fost elaborat ă
Recomandarea H.120 care abordeaz ă domeniul aplica țiilor de
videoconferință la ratele primare de 2,048 și 1,544 Mb/s pentru sistemele
de televiziune cu 625 linii/50 Hz , respectiv cu 525 linii/60 Hz.
Standardul con ține trei părți. Partea 1 se refer ă la utilizarea regional ă, la
rata de 2 Mb/s, în țările care utilizeaz ă sisteme TV cu 625 linii și 50 Hz.
Partea a doua se refer ă la utilizarea interna țională (pentru sistemele TV
cu 625 linii/50 Hz, respectiv cu 525 linii /60 Hz). Partea a treia se refer ă
la utilizarea regional ă, la rata de 1,5 Mb/s, în țările care utilizeaz ă
sisteme TV cu 525 linii și 60 Hz. Din p ăcate, algoritmii specifica ți în
părțile 1 și 3 ale standardului sunt diferiț i, deși ambii utilizeaz ă aceeași
metodă de compresie de baz ă (compresia temporal ă DPCM). Din acest
motiv, scopul de realizare a unui standard mondial nu a fost de fapt atins.
Acesta este mptivul pentru care H.120 nu a devenit niciodat ă un succes
comercial. Realiză rile în domeniul compresiei au f ăcut posibilă abordarea
problemei transmisiilor video la rate de transmisie mai sc ăzute. Din
aceste considerente, la sfâr șitul anului 1984, Grupul de Studii XV a
convenit să defineasc ă un standard mondial pentru aplica ții de
videotelefonie și videoconferin ță la rate sc ăzute (sub 2 Mb/s), care s ă fie
compatibil cu ambele sisteme de te leviziune. În 1989 a fost elaborat ă
Recomandarea H.261 , bazată pe un codor ce utilizeaz ă transformarea
cosinus discret ă (DCT), compresia temporal ă DPCM și compensarea
mișcării. Acest algoritm a devenit elem entul cheie utilizat de cele mai
multe dintre standardele de coda re video dezvoltate ulterior.
Alte trei organisme interna ționale au început o activitate în
domeniul standardiz ării algoritmilor de codare pentru compresia
semnalelor de televiziune digital ă, în paralel cu preocup ările CCITT.
Eeste vorba desp re CCIR, CMTT și ISO. În cadrul CCIR, grupul SG 11
este responsabil pentru standardizarea cod ării video, în timp ce CMTT se
ocupă de partea de transmisie a semn alelor TV. Pentru coordonarea
activităților au fost produse în colaborare Recomand ările 721 și 723.
Recomandarea 721 a CCIR , elaborat ă în 1990, prezint ă
specificaț ia de codare a semnalelor TV definite în conformitate cu
Recomandarea 601 a CCIR, la rata de 140 Mb/s . Pentru compresia video
este prev ăzută codarea simpl ă DPCM, cu scopul de a permite
Cap. 6. Standarde de compresie audio-video 147
implementarea simpl ă a codorului și pentru a asigura calitatea necesar ă
pentru post-produc ție.
Recomandarea 723, elaborat ă în 1989, standardizeaz ă realizarea
unui codor pentru semnalele TV definite în conformitate cu
Recomandarea 601 a CCIR, la rate cuprinse între 30 ș i 45 Mb/s. Acest
codor utilizeaz ă o tehnică hibridă DCT/DPCM similar ă cu cea utilizată
de algoritmul H.261, dar optimizat penn tru rate mai mari de transmisie.
Este de remarcat faptul c ă au fost utilizate codoare CCIR 723 pentru
codarea semnalelor HDTV la rate de 140 Mb/s și peste, prin folosirea în
paralel a 4 – 6 codoare.
Grupul de lucru 8 (WG 8) al Subcomitetului 2 (SC 2) al ISO a
început să lucreze în 1982 la standardizarea codă rii imaginilor statice în
tonuri continue. În anul 1986, membrii ISO/SC2/WG8 și CCITT SG
VIII și-au unit eforturile formând a șa-numitul grup JPEG (Joint
Photographic Experts Group) . Acest grup a prezentat în anul 1991 o
propunere de standard ISO 10918 , care a fost adoptat în 1992 drept
standard interna țional. Algoritmul de baz ă utilizează o schem ă de
compresie cu transformat ă cosinus DCT spa țială. Algoritmul JPEG
asigură mai multe modalit ăți de operare: secvențială, progresiv ă,
ierarhică și fără pierderi.
În anul 1988 a fost înfiin țat grupul MPEG (Moving Picture
Experts Group), cu sarcina de a standardiza un algoritm de codare video
adecvat stoc ării digitale și transmisiei la rate de bit de până la 1,5 Mb/s.
Numele tehnic oficial sub care este cunoscut acum grupul este
ISO/IEC/JTC1/SC29/WG11. Pri ma versiune elaborat ă a apărut în 1991
și este cunoscut ă sub denumirea ISO 11172 (MPEG-1) și a fost adoptat ă
drept standard în 1992. Spre deoseb ire de alte sta ndarde anterioare,
MPEG-1 a fost elaborat cu scopul de a fi un standard generic, de și
scopul să u inițial era de a fi un standard specific stoc ării numerice.
Termenul de standard generic semnific ă faptul c ă standardul este
independent de aplica ție, fiind construit mai degrabă ca o colec ție de
instrumente din care utilizatorul î și poate alege pe cele mai adecvate
aplicației specifice. Acest lucru implic ă faptul c ă este definit ă doar
sintaxa cod ării, standardizarea f ăcându-se mai mult la nivelul schemei
decodorului. MPEG-1 define ște o schem ă de codare hibrid ă DCT/DPCM
cu compensarea mi șcării, similar ă cu cea utilizat ă de standardul H.261 și
Recomandarea 723. Au fost introduse îns ă metode mai rafinate de
predicție și prelucrare ulterioar ă, cu scopul de a asigura func ționalitățile
impuse de accesul aleatoriu la mediu de stocare numeric ă.
Studiile pentru un standard MPEG-2 au început în 1990, cu
scopul ini țial de a defini modalit ățile de codare a semnalelor TV
148 Cap. 6. Standarde de co mpresie audio-video
rezultate în conformitate cu Recoma ndarea 601, la rate de sub 10 Mb/s.
În 1992 a fost l ărgit scopul iniț ial prin includerea în domeniul
preocupărilor și a semnalelor HDTV, f ăcând în acela și timp inutilă faza
MPEG-3 planificat ă inițial. Standardul MPEG-2 a fost prezentat la
începutul anului 1994. Sche ma de codare video propus ă de MPEG-2 este
tot una generic ă, similară cu cea de la MPEG-1, dar elaborat ă în ceea ce
privește tratarea surselor de semnal video între țesut. Au fost de asemenea
introduse facilit ăți suplimentare, de exemplu aceea de scalabilitate . În
scopul de a p ăstra un nivel cât mai sc ăzut de complexitate a
implement ării pentru produsele care nu au cerin țe corespunz ătoare
nivelului maxim admis pentru semnalul video, standardul a implementat
așa-numitele "profiluri" , care descriu func ționalitățile, și "niveluri" , care
descriu rezolu țiile. Astfel, MPEG-2 asigur ă differite niveluri de
conformitate.
Activităț ile pentru standardul MPEG-4 au început în anul 1993,
cu scopul de a specifica scheme de codare la rate sub 64 kb/s, care s ă
permită transmisia video pe re țele telefonice și mobile din genera ția a
doua. Aceste cerin țe au condus la necesitatea dezvolt ării unor noi
algoritmi, fundamental diferi ți, care includ codarea bazat ă pe model,
interacțiunea uman ă cu mediul multimedia și codarea vorbirii la rate
scăzute utilizat ă în sistemul GSM de telefonie mobilă . Standardul a fost
prezentat în form ă inițială în anul 1996, fiind apoi îmbun ătățit și adoptat
într-o prim ă versiune în anul 1998, apoi în versiune finală în februarie
1999, sub num ărul ISO 14496.
Tendin ța de abordare a func ționalității, cel puțin în aceea și măsură
cu abordarea compresiei, evident ă la MPEG-4, a fost continuat ă prin
activitatea la standardul MPEG-7, început ă în octombrie 1996. Cunoscut
și sub denumirea de "Interfa ță de descriere a con ținutului multimedia",
standardul are drept scop descrierea datelor multimedia astfel încât s ă
permită un grad de interpretare a sensului informa ției, care să poată fi
transmisă sau accesată printr-un dispozitiv de calcul sau cod de
calculator. Standardul MPEG-7 este tot un standard generic, care nu se
focalizeaz ă pe o aplica ție anume. Ideea care stă la baza standardului
MPEG-7 este aceea de a perm ite clasificarea imaginilor și a sunetelor,
care să fie accesate similar cu bazele de date. Se poate astfel asigura
căutarea imaginilor și sunetelor pe baza a diferiț i parametri. MPEG-7 a
fost prezentat spre adopt are ca standard interna țional la sfâr șitul anului
2001.
În prezent, este în faz ă de dezvoltare standardul MPEG-21 , care
urmărește definirea unui cadru multimedia care s ă permită utilizarea
transparentă și intensivă a resurselor multimedia printr-un mare num ăr
de rețele și dispozitive. Totodat ă, se urmărește identificarea standardelor
Cap. 6. Standarde de compresie audio-video 149
care pot fi utilizate în mod unitar pentru livrarea și utilizarea mijloacelor
multimedia.
În finalul acestei scurte treceri în revist ă a realiz ărilor și
preocupărilor de standardizare, tr ebuie subliniat faptul c ă standardele
MPEG-7 și MPEG-21 vor fi de mare importan ță pentru transmisia
difuzată în viitorul apropiat, dar nici unul dintre ele nu este un standard
de compresie . Apariția acestor standarde va influen ța multe aspecte ale
proiectării facilităților și modelelor de operare pentru transmisie, dar nu
într-un mod care să devalorizeze investi țiile prezente. Dimpotriv ă, dacă
MPEG-7 și MPEG-21 vor avea succes, ele vor asigura o puternic ă
dezvoltare comer țului electronic, facând s ă crească mult valoarea
facilităț ilor numerice actuale.
6.2. Standardul de compresie JPEG
6.2.1. Caracteristici generale
Standardul JPEG a fost d ezvoltat de un grup de exper ți cunoscut
sub numele Joint Photographic Experts Group și este înregistrat sub
numărul ISO 10918. Practic, standardul define ște o familie de tehnici de
compresie pentru imagini statice în ton continuu (pe scar ă de gri sau
color). Datorită cantității mari de date implicate și redundan ței
psihovizuale, JPEG utilizeaz ă o schemă de compresie cu pierderi bazat ă
pe codarea cu transformare.
JPEG furnizeaz ă mai multe moduri de operare: secven țial (de
bază), ierarhic, progresiv ș i fără pierderi. Fiecare mod de operare este
indicat pentru utilizare în domenii particulare de aplica ție.
Principalele caracteristici ale standardului JPEG pot fi rezumate
după cum urmeaz ă:
¾ Independen ța rezoluției. Standardul admite tratarea semnalelor
provenite de la surse cu rezolu ții diferite. Imaginile ale c ăror
dimensiuni nu sunt bazate pe multipl ii de 8, sunt ajustate intern la
dimensiuni multiplu de 8 pentru operarea în moduri de lucru
bazate pe transforma rea cosinus discret ă (DCT).
¾ Precizia . Modurile de lucru bazate pe DCT sunt restric ționate la
precizii de 8 sau 12 bi ți/eșantion. Pentru codarea f ără pierderi,
precizia poate varia de la 2 la 16 bi ți/eșantion.
¾ Fără țintă specifică a ratei de bit . Rata de bit, implicit calitatea
compresiei, este controlat ă primar de c ătre matricea de cuantizare.
150 Cap. 6. Standarde de co mpresie audio-video
¾ Separabilitate între luminan ță și crominanță . Este posibil ă
recuperarea doar a semnalului de luminan ță din imaginile codate
sub form ă de semnal complet luminan ță-crominanță , fără a fi
întotdeauna necesar ă decodarea crominan ței.
¾ Extensibilitate . Nu exist ă limite în ceea ce prive ște numărul de
etape în codarea progresiv ă, sau de etape de joas ă-rezoluție în
cazul cod ării ierarhice.
JPEG nu reprezint ă o arhitectur ă complet ă pentru realizarea
schimbului de imagini între diverse surse. Șirul de date structurate JPEG
este definit sub aspectul cerin țelor pe care le impune un decodor JPEG
pentru a realiza decompresia. Ca pa rte a standardului nu este definit ă nici
o formă de fișier, rezoluț ie spațială sau model de spa țiu al culorilor.
Totuși, JPEG include un format minimal recomandat de fi șier, cunoscut
sub denumirea de JFIF (JPEG File Interchange Format) , care permite
ca șirurile de date JPEG să fie interschimbate într e o mare diversitate de
platforme și aplicații. O serie de alte formate de fi șiere pentru imagini
sunt de asemenea compa tibile JPEG, de exemplu TIFF (Tag Image File
Format) . Este important de specificat faptul c ă, pentru a fi considerat
JPEG compatibil, un produs sau sistem trebuie s ă accepte cel puț in
modul de lucru de baz ă prevăzut de standardul JPEG.
6.2.2. Algoritmul de baz ă pentru codare
Algoritmul de baz ă pe care îl vom prezenta în continuare define ște
modul de lucru de baz ă sau modul secven țial. Acest mod de lucru
definește compresia imaginilor digita le monocromatice sau color a șa
cum sunt ele utilizate în aplica țiile de comunica ții multimedia. Acest
mod de lucru implic ă parcurgerea a cinci pa și: partiția imaginii,
transformata cosinus direct ă (DCT) , cuantizarea , codarea entropiei și
construcția cadrului JPEG . În Figura 6.2. este prezentat ă schema bloc a
codării JPEG care implic ă acești pași, fiecare pas urmând să fie discutat
separat.
Partiț ia imaginii
Sursa de imagine este în general format ă din una sau mai multe
matrici bidimensionale. În cazul unei imagini monocrome în tonuri
continue, este necesar ă o singur ă matrice bidimensional ă pentru
memorarea setului de valori ale nive lurilor de gri reprezentate pe 8 bi ți
care caracterizeaz ă imaginea. În mod similar, pentru o imagine color,
dacă se utilizeaz ă o memorie LUT (Look-up table), atunci este necesară
o singură matrice de valori.
Cap. 6. Standarde de compresie audio-video 151
PARTIȚ IE IMAGINE
Fig. 6.2. Schema bloc de codare JPEG
Alternativ, dac ă imaginea este reprezentat ă în format R, G, B, sunt
necesare trei matrici, câte una pe ntru valorile cuantizate R, G și B.
Pentru imaginile color se poate utiliza și reprezentarea prin semnale
diferență de culoare Y, C R și C B, cu avantajul c ă semnalele de
crominan ță CR și C B necesită doar jum ătate din l ărgimea de band ă a
semnalului de luminan ță Y. Din acest motiv, cele dou ă matrici care
conțin componentele digitale de crominan ță sunt de dimensiuni mai mici
decât matricea Y, ceea ce conduce la o reducere fa ță de reprezentarea
clasică R, G, B.
Figura 6.3 ilustreaz ă procesul de partiț ie a imaginii , prezentând
cele patru alternative pentru reprezentarea imaginii sursă și aranjarea
acestora într-o matrice a valorilor care trebuie compresate. Acesta este
blocul prezentat în Fi g. 6.2 sub denumirea preg ătire imagine . După
alegerea formei de reprezentare a im aginii, valorile cuprinse în matrice
vor trebui comprimate prin utilizar ea transformatei cosinus discrete
(DCT). Înainte îns ă de a realiza aceast ă prelucrare mai este necesar un
pas, cunoscut sub denumirea de pregătire blocuri . Acesta este necesar
deoarece calculul transformate i cosinus pentru fiecare pozi ție din matrice Pregătire
imagine Transf.
CT Pregă-
tire D
blocuri
Tabele Cuantizor
CODAREA ENTROPIEI
TabeleCodare
diferenț ială Codare
Huffman
Codare
run-length Vectorizare CONSTR.
CADRU
JPEG Sursă
Ieșire
JPEGCUANTIZARE
152 Cap. 6. Standarde de co mpresie audio-video
implică cunoașterea valorilor tuturor blocurilor care urmeaz ă a fi
prelucrate. Deoarece timpul necesa r pentru calculul DCT pentru toat ă
matricea într-un singur pas ar fi mu lt prea mare, matricea este mai întâi
divizată pe submatrici de dimensiuni 8 ×8, care poart ă denumirea de
blocuri . Ca urmare, transformarea DCT se poate efectua pe blocuri, prin
aducerea secven țială a acestora la intrarea procesorului de calcul a
transformatei.
Pregătire imagine
CR
C
B
B
G
Monocrom
Mem. LUT
R
Y Pregătire blocuri
Matrice divizat ă
pe blocuri 8 ×8 Sursă Transf.
DCT
Fig. 6.3. Parti ția imaginii pentru codarea JPEG
Cap. 6. Standarde de compresie audio-video 153
Transformarea cosinus discret ă DCT
Dup ă cum s-a precizat anterior, pentru scurtarea timpului total de
calcul a transformatei directe DCT, este necesar ă operarea la nivel de
blocuri de 8 ×8 valori. Ordinea în care sunt prezentate blocurile
constituite la intrarea procesorului de calcul DCT este prezentat ă în
Figura 6.4.
. . . .
Fig. 6.4. Ordonarea blocurilor pentru calculul DCT
Principiile cod ării cu transformare au fo st prezentate anterior, în
paragraful 3.5. În m od normal fiecare valoare de pixel este cuantizat ă pe
8 biți, ceea ce conduce la un domeniu de varia ție a valorilor luminan ței și
crominan ței (semnalele Y, R, G și B) situat între 0 și 255, respectiv un
domeniu de varia ție a valorilor semnalelor diferen ță de culoare (C
R și
CB) situat între -128 și +127. Pentru a realiza calculul transformatei
cosinus discrete directe, toate valor ile pixelilor trebuiie mai întâi centrate
pe zero, prin sc ăderea valorii 128 din fiecare valoare de luminan ță sau
crominan ță. În continuare, dac ă notăm cu valorile elementelor din
matricea bidimensional ă de intrare și cu valorile elementelor
matricii transformate, atunci expresia de calcul a transformatei cosinus
discrete directe DCT pentru fiecare bloc de 8 ×8 pixeli este [Cla, 95]: ) , (y x P
, (i F)j
.
.
. Bl. Bl. Bl.
3 1 2
Bl.
N Bl.
3 Bl.
2 Bl.
1 . . .
Bl.
N DCT
154 Cap. 6. Standarde de compresie audio-video
∑∑
==+⋅+⋅ ⋅ ⋅ =7
07
0 16) 1 2 (cos16) 1 2 (cos ) , ( ) ( ) (41) , (
xyj y i xy x P j C i C j i Fπ π (6.1)
unde
⎩⎨⎧=
≠== 7 , 0 ,
0 , 10 , 2 / 1) ( i
i pentrui pentrui C
și
7 , 0 ,
0 , 10 , 2 / 1) ( =
⎩⎨⎧
≠== j
j pentruj pentruj C
Prin interpretarea expresiei (6.1) se pot trage câteva concluzii cu
privire la complexitatea de calcul a tranformatei DCT:
¾ Toate cele 64 valori ale matricii de intrare ) , (y x Pcontribuie la
fiecare din intrările matricii transformate ) , (j i F.
¾ Pentru 0==j, cei doi termeni în cosinus (prin urmare
coeficienții frecven țelor orizontale și verticale) sunt ambii 0. De
asemenea, deoarece 1 ) 0i
cos(=, valoarea loca ției ) 0 , 0 ( F a matricii
transformatei este o simpl ă sumare a tuturor valorilor din matricea
de intrare. În ultim ă instanță, coeficientul ) 0 , 0 ( F reprezint ă media
tuturor celor 64 valori din matricea de intrare, fiind cunoscut și
sub denumirea de coeficient DC (component ă continuă).
¾ Deoarece valorile din toate celelalte loca ții ale matricii
transformatei au un co eficient al frecven ței asociat – fie orizontal
( 7 1÷ = x pentru 0=y), fie vertical ( 7 1÷=y pentru 0=x), fie
ambii ( 7 1÷ = x pentru 7 1÷=y ) – ele sunt cunoscute sub denumirea
de coeficienți AC (component ă alternativ ă).
¾ Pentru 0=j, sunt prezen ți doar coeficien ții frecven țelor
orizontale, ei crescând în frecven ță pentru 7 1÷=i .
¾ Pentru 0=i, sunt prezen ți doar coeficien ții frecven țelor verticale,
ei crescând în frecven ță pentru 7 1÷=j .
¾ În toate celelalte loca ții ale matricii transformate sunt prezen ți atât
coeficienți ai frecven țelor orizontale cât și ai frecven țelor
verticale, în diferite propor ții.
În Figura 6.5. este prezentat ă în mod schematic structura
matricilor ini țială și transformat ă, cu identificarea coeficien ților DC ș i
AC. De asemenea este prezentat ă modalitatea de varia ție a frecvenț elor
spațiale orizontal ă și vertical ă, pentru a se vede a care este ponderea
diveriților coeficienț i din matricea transformat ă.
Cap. 6. Standarde de compresie audio-video 155
7Creștere f H
7P(x,y)
0123456
0
1
2
3
4
5
6
7x
y 2 4F(i,j)
01 3 56
0
1
2
3
4
5
6
7i
j
Creștere f V DCT
– Coeficient DC
– Coeficien ți AC
Fig. 6.5. Calculul coeficien țillor DCT
Pentru a avea o mai bună imagine cu privire la valorile a șteptate în
mod tipic pentru un bloc al transf ormatei DCT directe, vom considera o
imagine tipic ă de 640 × 480 pixeli. Considerând c ă transformarea DCT
se efectueaz ă pe blocurile tipice de 8 × 8 pixeli, imaginea surs ă va fi
formată din 80 × 60, adic ă 4800 blocuri, fiecare din ele cu dimensiunea
de aproximativ 5 × 5 mm, pentru un ecran cu l ățimea tipic ă de 40 cm. De
aceea, regiunile din imagine care au o culoare constant ă vor genera un
set de blocuri ale transformatei având:
¾ același (sau foarte similar) coeficient DC;
¾ doar un num ăr mic de coeficien ți AC cu valori semnificative.
De aceea, doar acele zone ale imaginii care con țin tranziții de
culoare vor genera seturi de bloc uri ale transformatei cu coeficienț i DC
diferiți și cu un num ăr mare de coeficien ți AC nenuli. Aceste
caracteeristici sunt exploatate în con tinuare în faza de codare a entropiei
din cadrul algoritmului de compresie JPEG.
Cuantizarea
Teoretic, dac ă se efectueaz ă calculul transformatei DCT directe cu
mare precizie prin utilizar ea unui procesor în virgul ă mobilă, există o
foarte mic ă pierdere de informa ție pe durata fazei DCT. În practic ă apar
156 Cap. 6. Standarde de compresie audio-video
mici pierderi, datorate de obicei utiliz ării unor procesoare în virgul ă fixă.
Același tip de erori apare îns ă și pe durata fazelor de cuantizare și de
codare a entropiei.
În conformitate cu caracteristic ile fiziologice ale vederii umane
[Kunt, 85], ochiul va r ăspunde în primul rând la coeficientul DC și la
coeficienții frecven țelor spectrale sc ăzute. De aceea, dac ă amplitudinea
unui anumit coeficient de frecven ță înaltă este sub un anumit prag,
ochiul nu îl va detecta. Aceast ă proprietate este exploatat ă în faza de
cuantizare prin eliminarea – practic , prin setarea la zero – a acelor
coeficienți de frecven țe spaț iale din matricea transformatei care se
situează sub un anumit prag. Trebuie specificat îns ă că, odată eliminați,
acești coeficienț i nu mai pot fi recupera ți în cursul procesului de
decodare.
În afară de a determina dacă un anumit coeficient de frecven ță
spațială este sub un prag predefinit, pr ocesul de cuantizare realizeaz ă și
reducerea dimensiunilor coeficien ților DC și AC, astfel încât s ă fie
necesară cât mai pu țină bandă pentru transmiterea acestora. În loc de a
compara fiecare coeficient cu valoarea definit ă a pragului, se realizeaz ă o
împărțire utilizând valoarea de pr ag drept divizor. Dac ă numărul întreg
cel mai apropiat la care se rotunje ște rezultatul este zero, atunci
coeficientul frecvenț ei spațiale este sub valoarea de prag. Dacă rezultatul
nu este zero, atunci valoarea întreag ă care rotunje ște câtul arat ă de câte
ori este mai mare coeficientul decât valoarea de prag, f ără a caracteriza
direct valoarea absolut ă a acestuia. Astfel se realizează o reducere a
cantității de informa ție care trebuie transmis ă. De exemplu, dac ă pragul
este definit la valoarea 16, atunci vor fi economisi ți 4 biți față de cazul
utilizării valorilor absolute. Desigur c ă această reducere se face în contul
preciziei utilizate pentru valoarea absolut ă, deoarece în cursul procesului
de decodare aceasta este determinat ă prin multiplicarea valorii
recepționate cu valoarea de prag corespunz ătoare.
După cum s-a mai precizat anterior , sensibilitatea ochiului se
modifică cu frecven ța spaț ială, prin urmare și valoarea de prag peste care
ochiul detecteaz ă o anumit ă frecvență spațială se modific ă. Din acest
motiv, în practic ă, valoarea de prag utilizat ă este diferită pentru fiecare
din cei 64 coeficien ți DCT. Aceste praguri sunt memorate într-o matrice
bidimensională , numită tabel de cuantizare .
Alegerea valorilor de prag este extrem de important ă, fiind în
practică un compromis între nive lul de compresie cerut ș i gradul de
pierdere de informa ție care este acceptabil. Standardul JPEG include
două tabele de cuantizare cu valori pres tabilite ale pragurilo r, unul pentru
coeficienții de luminan ță și celălalt pentru cele dou ă seturi de coeficien ți
Cap. 6. Standarde de compresie audio-video 157
de crominan ță. Standardul permite îns ă și definirea de că tre utilizator a
acestor praguri, care după utilizare în procesul de codare vor fi transmise
împreună cu imaginea comprimat ă.
În Figura 6.6 este prezentat un exemplu de tabel de cuantizare,
împreună cu un set de coeficien ți DCT și cu rezultatul cuantiz ării
acestora.
Coeficienț i DCT Coeficien ți cuantiza ți
120 60 40 30 4 3 0 0 12 6 3 2 0 0 0 0
70 48 32 3 4 1 0 0 7 3 2 0 0 0 0 0
50 36 4 4 2 0 0 0 3 2 0 0 0 0 0 0
40 4 5 1 1 0 0 0 2 0 0 0 0 0 0 0
5 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Cuantizare
10 10 15 20 25 30 35 40
10 15 20 25 30 35 40 50
15 20 25 30 35 40 50 60
20 25 30 35 40 50 60 70
25 30 35 40 50 60 70 80
30 35 40 50 60 70 80 90
35 40 50 60 70 80 90 100
40 50 60 70 80 90 100 110
Tabel de cuantizare
Fig. 6.6. Exemplu de cuantizare a coeficien ților DCT
Din exemplul considerat se pot trage anumite concluzii privind
caracteristicile fazei de cuantizare:
¾ Calculul coeficien ților cuantiza ți implic ă rotunjirea câtului
împărțirii la cea mai apropiat ă valoare întreag ă;
¾ Valorile de prag utilizate cresc, în general, odat ă cu creșterea
frecvenței spațiale;
158 Cap. 6. Standarde de compresie audio-video
¾ Coeficientul DC din matricea transformat ă este întotdeauna cel
mai mare;
¾ O mare parte din coeficien ții corespunz ători frecven țelor spațiale
înalte sunt egali cu zero.
Ultimele dou ă propriet ăți sunt utilizate pentru realizarea
următoarei faze, cea de codare a entropiei.
Codarea entropiei
După cum s-a ar ătat, faza de codare a entropiei implic ă patru pași:
¾ Vectorizarea;
¾ Codarea diferen țială;
¾ Codarea run-length;
¾ Codarea Huffman.
a) Vectorizarea
Diferiții algoritmi de codare a entr opiei care au fost prezentaț i în
capitolul 2 opereaz ă cu șiruri unidimensionale de valori, adic ă cu vectori.
După cum s-a v ăzut însă , ieșirea fazei de cuantizare este constituit ă de o
matrice de valori bidimensional ă. Prin urmare, înainte de a aplica orice
algoritm de codare a entropiei asupra se tului de valori din matrice, este
necesară reprezentarea acestor valo ri sub forma unui vector
unidimensional. Această operație este cunoscut ă sub numele de
vectorizare .
După cum s-a v ăzut din exemplul prezentat în Fig. 6.6, ie șirea
tipică a procesului de cuantizare este constituit ă de o matrice
bidimensională de coeficien ți care sunt în marea lor majoritate de
valoare zero, cu excep ția unui num ăr de valori nenule situate în col țul
din stânga sus al matricii. De aceea, dac ă pentru a serializa valorile din
matrice am utiliza conceptul de scanare linie cu linie, am ob ține drept
rezultat un șir mixt de valori nule și nenule. Pentru a exploata în cursul
procesului de compresie prezen ța unui numă r mare de coeficien ți nuli
este necesar ca ace știa să fie dispu și cât mai grupat în vectorul
unidimensional. De aceea, pentru ob ținerea șirului unidimensional 1 × 64
de coeficienț i, se utilizeaz ă o scanare în zig-zag a matricii
bidimensionale.
În Figura 6.7 este reprezenta t schematic principiul scan ării în zig-
zag.
Cap. 6. Standarde de compresie audio-video 159
Coeficien ți cuantiza ț
0 1 2 3 4 5 6 7
0
1
2
3
4
5
6
7
Fig. 6.7. Principiul vectoriz ării
Cu aceast ă tehnică este scanat mai întâi coeficientul DC și apoi
coeficienții AC de frecven ță scăzută (atât pe orizontal ă cât și pe
verticală). Coeficien ții de frecven ță ridicată sunt ș i ei scana ți în ordine
secvențială, astfel încât acest tip de repr ezentare este mai potrivit pentruu
compresie. Pentru exemplul prezentat în Fig. 6.6 se ob ține vectorul liniar
de reprezentare din Figure 6.8.
63 62 . . . 12 11 10 9 8 7 6 5 4 3 2 1 0
0 0 . . . 0 0 0 2 2 2 2 3 3 3 7 6 12
Fig. 6.8. Vector liniar c onform exemplului considerat
b) Codarea diferen țială
Codarea diferen țială se aplică doar coeficientului DC ob ținut în
urma fazei de cuantizare. Acesta este o m ăsură medie a luminan ței sau
crominan ței asociate fiec ărui bloc de 8 × 8 pixeli, fiind cel mai mare
coeficient. Datorit ă importanț ei sale deosebite, rezolu ția sa este p ăstrată
cât mai ridicat ă în cursul fazei de cuantizare. Pe de alt ă parte, datorit ă
ariei fizice relativ mici acoperite de fiecare bloc, coeficientul DC variaz ă
destul de pu țin de la un bloc la altul. Dup ă cum s-a ar ătat în capitolul 2,
cea mai eficient ă metodă de compresie pentru acest tip de informa ție este
codarea diferen țială, deoarece aceasta codeaz ă diferenț a dintre dou ă 63 4 3 2 1 0
. . . i
Vector lineariza t
Coeficien ți AC în ordinea
crescă toare a frecven ței
Coeficient DC
160 Cap. 6. Standarde de compresie audio-video
valori dintr-un șir, și nu valoarea lor absolut ă. În cazul considerat, se
codează diferența dintre valoarea coeficientului DC dintr-un bloc ș i cea a
blocului anterior.
c) Codarea run-length
Codarea run-length se aplică celor 63 de coeficien ți AC din
matricea cuantizat ă. Datorită tehnicii de scanare în zig-zag, vectorul
liniar va conț ine șiruri lungi de coeficien ți nuli, ceea ce face deosebit de
convenabilă utilizarea cod ării run-length unidimensional ă, descrisă în
paragraful 2.6.
d) Codarea Huffman
Principiul cod ării Huffman a fost prezenta t în paragraful 2.1.3,
împreună cu alți algoritmi de codare cu lungime variabil ă sau de codare
a entropiei. În cadrul algoritmului de codare JPEG se utilizeaz ă codarea
Huffman atât pentru ie șirea codării diferen țiale a coeficien ților DC cât și
pentru ieșirea codării run-length a coeficien ților AC. În acest scop poate
fi utilizat un tabel de cuvinte de cod Huffman furnizat de algoritmul de
codare JPEG, fie tabele de cuvinte de cod care se transmit împreeun ă cu
șirul de biți.
Construc ția cadrului JPEG
Tipic, șirul de bi ți de ieșire furnizat de codorul JPEG este
înmagazinat în memoria unui calculato r, fie cu scopul de a fi integrat
într-o altă aplicație, fie pentru a fi accesat de un alt calculator (eventual
printr-o re țea). Pentru ca decodorul unui calculator situat undeva la
distanță să poată interpreta diferitele câmpuri și tabele care alcă tuiesc
informația corespunz ătoare unui șir de bi ți JPEG este necesar ă
delimitarea fiec ărui câmp sau set de tabele în tr-un mod bine definit. De
aceea, standardul JPEG include și o definire a structurii unui ș ir total de
biți pentru o anumit ă imagine. Aceast ă structură poartă denumirea de
cadru și are forma prezentat ă în Figura 6.9.
Rolul blocului Construcție cadru JPEG reprezentat anterior în
Fig. 6.2 este acela de a asambla toate informa țiile referitoare la o
imagine codat ă în format JPEG. Dup ă cum se observă , structura unui
cadru este ierarhic ă. Pe nivelul superior, con ținutul cadrului (inclusiv
header-ul) este asamblat între delimitatoarele de start cadru și de sfârșit
cadru , care permit receptorului să determine începutul și sfârșitul
grupului de informaț ie referitoare la o întreag ă imagine.
Cap. 6. Standarde de compresie audio-video 161
Start
cadru Header
cadru Conținut
cadru Sfârșit
cadru Nivel
1
Header
explorare Explorare . . . . . . . . Explorare
Header
segment Segment . . . . . . . Header
segment Segment
Bloc Bloc . . . . . . . Bloc
DC Cod
Huffman . . . . . . . Cod
Huffman Sfârșit
bloc Nivel
2
Nivel
3
Nivel
4
Nivel
5
Fig. 6.9. Formatul șirului de bi ți JPEG
Header-ul cadrului conține o serie de câmpuri care dau informa ții
despre:
¾ lățimea și înălțimea imaginii, exprimate în pixeli;
¾ numărul și tipul componentelor utilizate pentru reprezentarea
imaginii (memorii LUT; componente R, G, B sau componente Y,
CB, CR);
¾ formatul utilizat pentru pentru digitizarea imaginii.
Pe nivelul al doilea, un cadru conț ine un num ăr de componente
denumite explorări. Setul de exploră ri este de asemenea precedat de un
header, care furnizeaz ă prin câmpurile sale informa ții despre:
¾ identitatea componentelor (R, G, B, etc.);
¾ numărul de biți utilizați pentru digitizarea fiec ărei componente;
¾ tabelul de cuantizare utili zat pentru codarea fiec ărei componente.
Tipic, fiecare explorare con ține unul sau mai multe segmente ,
fiecare putând con ține un grup de blocuri, precedate de un header.
162 Cap. 6. Standarde de compresie audio-video
Acesta con ține tabelul Huffman utilizat pentru codarea fiec ărui bloc din
segment, în cazul în care nu se utilizează tabelul furnizat din oficiu de
către algoritmul JPEG. Astfel, fiecar e segment poate fi decodificat
independent, ceea ce elimin ă posibilitatea propag ării erorilor c ătre alte
segmente. Deoarece fiecare cadru complet con ține toate informa țiile
necesare pentru ca decodorul s ă identifice câmpul recep ționat, este
posibilă realizarea opera țiunii de decodificare.
6.2.3. Decodorul JPEG
Structura unui decodor JPEG este prezentat ă în Figura 6.10. Se
poate observa c ă realizarea se bazeaz ă în linii mari pe utilizarea
blocurilor similare celor folosite în procesul de compresie. Prin urmare,
timpul necesar pentru realizarea func ției de decodare este similar cu
timpul utilizat pentru realizarea codă rii.
Decodare
diferențială De-
cuantizor DECODOR
CADRU
JPEG
Fig. 6.10. Schema bloc a decodorului JPEG
La recep ționarea șirului de bi ți codați JPEG, decodorul cadru
identifică mai întâi informa ția de control și tabelele cuprinse în diferitele
headere. În continuare, con ținutul tabelelor recepț ionate este înc ărcat în
tabelele corespunz ătoare ale decodorului, iar informaț ia de control este
transmisă către blocul de reconstruc ție imagine . Șirul comprimat de bi ți
este transmis apoi la intrarea decodorului Huffman care realizeaz ă Transf.
DCT
inversă Tabele TabeleCodare
Huffman
Decodare
run-length Sursă
Reconstruc ție
imagine JPEG
Memorie video
Cap. 6. Standarde de compresie audio-video 163
operația de decompresie corespunz ătoare în conformita te fie cu tabelul
de cuvinte de cod furnizat din oficiu de standardul JPEG, fie cu tabelul
preîncărcat din șirul recep ționat. Șirurile ob ținute de coeficien ți DC,
respectiv AC sunt furnizate la intrarea decodorului diferenț ial, respectiv
a decodorului run-length. Matricea rezultat ă este decuantizat ă prin
utilizarea tabelelor preînc ărcate din șirul recep ționat.
Fiecare dintre blocuri de coeficien ți de frecven țe spaț iale de
dimensiune 8 × 8 rezultate sunt transmise la intrarea blocului de
transformare DCT invers ă, care le readuce la forma lor ini țială prin
utilizarea rela ției de calcul:
∑∑
==+⋅+⋅ ⋅ ⋅ =7
07
0 16) 1 2 (cos16) 1 2 (cos ) , ( ) ( ) (41) , (
ijj y i xj i F j C i C y x Pπ π (6.2)
unde
⎩⎨⎧=
≠== 7 , 0 ,
0 , 10 , 2 / 1) ( i
i pentrui pentrui C
și
7 , 0 ,
0 , 10 , 2 / 1) ( =
⎩⎨⎧
≠== j
j pentruj pentruj C .
Blocul de reconstruc ție a imaginii reface imaginea original ă din
aceste blocuri, prin utilizarea informaț iei de control recep ționate.
Deși standardul de compresie JPEG este relativ complicat, datorit ă
numărului mare de etape pe care le implic ă, pot fi ob ținute rapoarte de
compresie mai mari decât 20:1 în condi ții de păstrare a unei calităț i bune
a imaginii de ie șire. Acest ordin de m ărime al compresiei se ob ține însă
pentru imagini relativ simple, care implic ă relativ pu ține tranzi ții de
culoare. În cazul unor imagini comple xe sunt mai uzuale rapoarte de
compresie de ordinul 10:1.
Mai trebuie precizat în leg ătură cu standardul JPEG faptul c ă
acesta permite o codare și refacere progresivă a imaginii, prin
transmiterea ini țial a unei versiuni de rezolu ție mică, urmată de
adăugarea a tot mai multe detalii. Aceast ă facilitate poate fi realizată în
două moduri:
¾ modul pregresiv , în care se transmite ini țial coeficientul DC și
coeficienții de frecven ță joasă din fiecare bloc;
¾ modul ierarhic , în care se transmite ini țial o imagine de joas ă
rezoluție (de exemplu 320 × 240) și abia ulterior imaginea de
rozoluție maxim ă.
164 Cap. 6. Standarde de compresie audio-video
6.3. Familia de standarde MPEG
6.3.1. Generalit ăți
Dup ă cum s-a ar ătat în paragraful 6.1, în 1988, ISO a format un
grup de decizie care includea membri din mai multe comunităț i
științifice implicate în d ezvoltarea standardelor de compresie audio-
video (industria calculatoarelor, telecomunica ții, consumatori de produse
electronice, semiconductori, difuzori, universit ăți, etc.), grup cunoscut
sub numele MPEG (Moving Pictures Expert Group).
Primul produs al acestui grup a fost introducerea standardului
Internațional ISO/IEC 11172, cunoscu t sub denumirea generic ă de
MPEG-1. Principalul obiectiv a fost s ă permită stocarea pe CD-ROM sau
CD-I a semnalului video de calitate VHS și a sunetului stereo, care
implică un debit binar maxim de 1,5 Mb/s . Formatul ales pentru codarea
imaginii a fost SIF (Source Intermediate Format) , cu rezolu ție de până la
360 × 288 pixeli.
Algoritmul de compresie audio este cunoscut sub denumirea
MUSICAM, utilizat de asemenea în c azul sistemului radio digital
European DAB (Digital Audio Broadcasting) .
Standardul MPEG-1 constă în trei p ărți distincte publicate în
Noiembrie 1992:
¾ Sistemul MPEG-1 (ISO/IEC 11172-1): define ște structura
multiplexului MPEG-1
¾ Video MPEG-1 (ISO/IEC 11172-2) : definește principiile codă rii
video MPEG-1
¾ Audio MPEG-1 (ISO/IEC 11172-3) : definește principiile codă rii
audio MPEG-1
Calitatea imaginii MPEG-1 nu a fost potrivit ă pentru aplica ții de
difuzare, ne ținând cont de evoluț ia HDTV . Grupul MPEG desfăș oară
astfel în continuare o activitate intens ă, definind un standard flexibil,
optimizat pentru difuzare. Acest standard interna țional, utilizat pe scar ă
mondială, este cunoscut sub denumirea de MPEG-2 .
Ca și predecesorul s ău, MPEG-2 este specificat în trei pă rți
distincte, publicate în Noiembrie 1994:
¾ Sistemul MPEG-2 (ISO/IEC 13818/-1) : definește cadrul MPEG-2
(stream)
¾ Video MPEG-2 (ISO/IEC 13818-2) : definește codarea video
MPEG-2
Cap. 6. Standarde de compresie audio-video 165
¾ Audio MPEG-2 (ISO/IEC 13818-3) : definește codarea audio
MPEG-2.
Standardul MPEG-2 este destinat înregistr ării și transmisiei
semnalelor audio-video de calita te de studio. Standardul acoperă patru
niveluri de rezoluț ie video, de la 352 × 288 pixeli, pân ă la 1920 × 1152
pixeli.
Standardul MPEG-4 a fost dezvoltat începând din anul 1993, cu
scopul de a specifica scheme de codare la rate foarte sc ăzute, situate între
4,8 kb/s și 64 kb/s, care s ă permită transmisia video pe re țele telefonice
și mobile din genera ția a doua. Ulterior, standardul a fost extins pentru a
suporta o gam ă largă de aplica ții multimedia interactive prin Internet sau
prin diverse re țele din industria divertismentului. Au fost dezvolta ți noi
algoritmi, fundamental diferi ți, care includ codarea bazat ă pe model,
interacțiunea uman ă cu mediul multimedia și codarea vorbirii la rate
scăzute utilizat ă în sistemul GSM de telefonie mobilă . Standardul a fost
adoptat în versiune final ă în februarie 1999, sub num ărul ISO 14496.
Tendin ța de abordare a func ționalității a fost continuat ă prin
activitatea la standardul MPEG-7 , începută în octombrie 1996. Acest
standard este orientat c ătre descrierea structurii și a caracteristicilor
conținutului informa ției multimedia produse de diferite standarde.
Descrierile rezultate pot fi uti lizate de diferite motoare de c ăutare pentru
a localiza anumite materiale în conform itate cu caracteristicile acestora.
În prezent, este în faz ă de dezvoltare standardul MPEG-21 , care
urmărește definirea unui cadru multimedia care s ă permită utilizarea
transparentă și intensivă a resurselor multimedia printr-un mare num ăr
de rețele și dispozitive. Totodat ă, se urmărește identificarea standardelor
care pot fi utilizate în mod unitar pentru livrarea și utilizarea mijloacelor
multimedia.
6.3.2. Standardul de compresie MPEG-1
6.3.2.1. Principiile de baz ă ale codării MPEG-1
Principalul obiectiv al cod ării MPEG-1 a fost ob ținerea unei
calități medii pentru imaginea televizat ă cu un debit binar total de 1,5
Mb/s în scopul stoc ării imaginilor video precum ș i a sunetului stereo pe
CD-ROM . Pentru semnalul video, din 1, 5 Mb/s sunt necesari 1,15Mb/s,
rămânând pentru semnalul sonor și datele auxiliare (de ex. Informa țiile
de Sistem) 350 kb/s. Cu toate acestea, specifica țiile sistemului MPEG-1
sunt foarte flexibile și permit alegerea unui set de parametri diferi ți, în
mod dependent de compromisul stab ilit între complexitatea codorului,
rata de compresie și calitatea imaginii video.
166 Cap. 6. Standarde de compresie audio-video
Codarea semnalului video utilizează aceleași principii ca și în
cazul sistemul JPEG (Joint Photogr aphic Expert Group) – utilizat în
special pentru compresia imaginil or statice – la care se adaug ă noi
tehnici, formând a șa numitele toolbox-uri MPEG-1 . Aceste tehnici se
bazează pe exploatarea corela ției dintre imaginile succesive, în scopul
unei reduceri considerabile a num ărului de bi ți care trebuie transmis sau
stocat. Aceste tehnici utilizeaz ă predicția cu compensarea mi șcării și
constau în deducerea majorit ății imaginilor unei secven țe pe baza unei
imagini anterioare, cunoscute, sau ch iar pe baza unor imagini dintr-o
sub-secven ță, prin adăugarea unui minim de informaț ie adițională care să
defineasc ă numai diferen țele față dee imaginile anterioare. Acest
principiu impune existen ța în cadrul codorului MPEG a unui sistem de
estimare a mi șcării, care realizează cea mai complex ă funcție, care
determină î n m a r e m ăsură performan țele sistemului. Din fericire,
prezența acestei funcț ii în structura decodorului MPEG nu este necesar ă.
Având în vedere faptul c ă în televiziune vorbim despre imagini în
mișcare, procedura de decodare trebuie s ă se realizeze în timp real,
aceasta presupunând o întârzie re în procesare constantă și de valoare
rezonabilă , ceea ce impune utilizarea unor componente hardware
speciale. Procedura de codare, care este mult mai complicat ă, se poate
executa în mai mul ți pași, pentru aplica țiile în care rularea în timp real
nu este necesar ă, dar pentru care calitatea reprezint ă un factor de prim ă
importanță . Prelucrarea în timp r eal, care nu înseamnă timp de procesare
nul, va fi necesar ă în numeroase aplica ții cum ar fi transmisiile video
live.
În concluzie, realizarea practic ă a codoarelor MPEG reprezint ă un
compromis, specific aplica ției, între viteza de procesare, rata de
compresie, complexitatea sistemului și calitatea imaginii.
6.3.2.2. Tipuri de cadre MPEG
Standardele din familia MPEG definesc trei tipuri de cadre de
imagine, care sunt distribuite dup ă cum este indicat în Figura 6.11.
¾ cadre I (Intra): aceste cadre sunt codate f ără referire la alte cadre
din secven ță, într-o manier ă foarte asem ănătoare cu cea utilizat ă în
cazul algoritmului JPEG , ceea ce înseamnă că acestea con țin toată
informația necesar ă reconstruc ției în decodor. Din acest motiv, ele
reprezintă puncte de acces esen țiale pentru accesarea unei
secvențe video. Rata de compresie a cadrelor de tip I este relativ
scăzută;
Cap. 6. Standarde de compresie audio-video 167
B P P I B B predicție predic ție
interpolare interpolare B
P P
Fig. 6.11. Concatenarea celor trei tipuri de cadre în standardul MPEG
¾ cadre P (predicted): aceste cadre sunt coda te prin tehnici de
predicție cu compensarea mi șcării, pornind de la cadrele I sau P
precedente. Cadrele P pot fi utilizate ca baz ă pentru urm ătoarele
cadre supuse predic ției, dar deoarece compensarea mi șcării nu este
perfectă, nu este posibilă o extindere prea mare a a num ărului
cadrelor P aflate între dou ă cadre I. Compresia cadrelor P este
semnificativ mai mare decât cea a cadrelor I;
¾ cadre B (bidirectional predicted): aceste cadre sunt codate printr-o
interpolare bidirec țională între cadrele I sau P care le preced sau le
urmează. Deoarece ele nu sunt utili zate pentru codarea cadrelor
ulterioare, cadrele B nu realizeaz ă o propagare a erorilor de
codare. De asemenea, cadrele B oferă o rată mare de compresie.
În func ție de complexitatea codorului utilizat, este posibil ă
codarea doar a cadrelor I, a cadrelor I și P, sau a cadrelor I, P și B, cu
rezultate foarte diferite în pe rspectiva raportului de compresie și
rezoluția accesului aleator și, de asemenea, cu privire la timpul cod ării și
calitatea imaginii percepute dup ă decodare.
Succesiunea cadrelor I, P și B este descris ă cu ajutorul a doi
parametri, nota ți cu M și N:
¾ M reprezint ă distanța (exprimat ă în număr de cadre) dintre dou ă
cadre de tip P consecutive;
¾ N reprezint ă distanța (exprimat ă în număr de cadre) dintre dou ă
cadre succesive de tip I, care delimiteaz ă astfel un grup de imagini
(GOP- Group of Pictures ).
168 Cap. 6. Standarde de compresie audio-video
Valorile cel mai des utilizate pentru ace ști parametri sunt M = 3 ș i
N = 12, alese astfel în scopul ob ținerii unei calit ăți video satisf ăcătoare,
cu un timp de acces aleator acceptabil ( ≤ 0,5 s) și cu un debit binar de
1,15 Mbit/s. Cu ace ști parametri, o secven ță video este generat ă după
cum urmeaz ă: 1/12 din structura sa este alc ătuită din cadre I (8,33 %),
1/4 cadre P (25 %) ș i 2/3 cadre B (66,67 %). Factorul de compresie este
maximizat prin faptul c ă majoritatea cadrelor din secven ța video
descrisă, sunt cadre cu o rată de compresie mare. Figura 6.12
exemplific ă structura unui grup de imagini cu ace ști parametri.
Fig. 6.12. Exemplu de grup de imagini MPEG pentru N=12 și M=3
6.3.2.3. Re-ordonarea cadrelor
Este evidentă necesitatea ca structura secven ței imaginilor dup ă
decodare s ă fie în aceea și succesiune de cadre ca și secvența original ă
dinaintea cod ării. Cu parametrii semnala ți mai sus (M = 3, N = 12),
succesiunea cadrelor codate este urm ătoarea:
1(I), 2(B), 3(B), 4(P), 5(B), 6(B) ,7(P), 8(B), 9(B), 10(P), 11(B), 12(B),
13(I), …
În scopul codă rii și decodării cadrelor B (bidirecț ionale), atât
codoarele cît și decodoarele vor avea nevoie de prezen ța cadrelor I și P
succesoare. Aceast ă condiție conduce la necesitatea unei reordon ări a
secvenței originale, astfel încât codorul și decodorul să aibă la dispoziț ie
cadrele I și/sau P necesare înaintea proces ării unui cadru B. Reordonarea
determină obținerea urm ătoarei secven țe: N = 12
Grup de cadre GOP (Group of Pictures) M = 3
I1 B2 B3 P4 B5 B6 P7 B8 B9 P10 B11 B11 I13
Cap. 6. Standarde de compresie audio-video 169
1(I), 4(P), 2(B), 3(B), 7(P), 5(B), 6(B), 10(P), 8(B), 9(B), 13(I), 11(B),
12(B), …
Creșterea ratei de compresie permis ă de cadrele B trebuie s ă fie
plătită printr-o cre ștere a timpului de codare (suplimentat ă cu durata a
două cadre) și prin creșterea capacit ății memoriei necesare pentru ambele
operații de codare și decodare (un cadru suplimentar care trebuie
memorat).
6.3.2.4. Descompunerea secven ței video MPEG pe niveluri
MPEG-1 define ște o ierarhie de niveluri în cadrul unei secvenț e
video, dup ă cum este ilustrat în Figura 6.13.
I I . . . / . . . . . . . . .
timp Grup de imagini Secvență
Macrobloc
(4 blocuri) bloc
(8×8 pixeli) imagine
(n macroblocuri)
(p secțiuni) Secțiune
Fig. 6.13. Ierarhia nivelurilor video MPEG-1
Fiecare dintre aceste niveluri este caracterizat de o func ție sau de
mai multe func ții specifice în procesul de decodare MPEG . Pornind de la
nivelul superior, succesiunea acestor niveluri este urm ătoarea:
¾ Secvența (sequence): reprezint ă nivelul cel mai înalt care define ște
contextul valid pentru secven ță în ansamblu (parametrii video de
bază, etc.);
¾ Grupul de imagini (Group of Pictures – GOP): acesta este un nivel
care determin ă accesul aleator la o secvență de imagini, care
debutează întotdeauna cu un cadru I . În exemplul prezentat
170 Cap. 6. Standarde de compresie audio-video
anterior ( M = 3, N = 12 ), grupul de imagini este alc ătuit din 12
imagini;
¾ Cadrul (picture): reprezint ă unitatea elementar ă a unei secven țe,
care poate s ă fie de trei tipuri: I, P sau B ;
¾ Secțiunea (slice): reprezint ă nivelul pentru adresarea intra-cadru și
pentru (re)sincronizare, de exemplu pentru corec ția erorilor. Acest
nivel este definit ca un șir de macroblocuri al ăturate. Ansamblul
secțiunilor acoper ă întreaga imagine f ără nici o suprapunere între
diferitele sec țiuni adiacente. Dimensiunea unei secț iuni poate în
mod teoretic s ă se situeze ca dimensiune în domeniul de la un
macrobloc la întreaga imagine, dar cel mai ades este alc ătuit dintr-
un șir complet de macroblocuri;
¾ Macroblocul (macroblock): reprezint ă nivelul utilizat pentru
estimarea și compensarea mi șcării. Un macrobloc are dimensiunea
de 16 × 16 pixeli și este alcătuit din patru blocuri de luminanță și
două blocuri de crominan ță (CR și CB), acoperind aceea și arie
(conform Figurii 6.14.);
Un macrobloc = 16 ×16 eșantioane Y (4 blocuri)
+ 8 × 8 eșantioane C b (1 bloc)
+ 8 × 8 eșantioane C r (1 bloc)
Eșantion
Luminan ță (Y)
Eșantion
Crominan ță
(CR sau C B)
Fig. 6.14. Compozi ția macroblocului în formatul 4:2:0
Cap. 6. Standarde de compresie audio-video 171
¾ Blocul (block): imaginea este împ ărțită în blocuri de dimensiunea
8 × 8 pixeli. Acesta este nivelul la care se aplic ă Transformata
Cosinus Discret ă DCT (Discrete Cosinus Transform) . Aceasta
reprezintă o etapă important ă în codarea MPEG fiind de fapt un
caz particular al transformatei Fourier aplicat ă în cazul semnalelor
discrete periodice, în scopul descom punerii acestora într-o serie de
funcții armonice sin și cos. Semnalul poate fi reprezentat astfel
printr-o serie de coeficin ți. Fără a dezvolta detaliile matematice
vom aminti c ă, în anumite condi ții, DCT descompune semnalul
într-o serie de func ții cosinus armonice, reducând la jum ătate
numărul coeficienț ilor necesari pentru repr ezentarea semnalului în
comparație cu Transformata Fourier.
6.3.2.5. Controlul debitului binar la ie șire
Secvența binară generată de către codorul video este numit ă
secvență elementar ă ES (Elementary Stream) . În scopul satisfacerii
constrângerilor mediului de transmisie și pentru evitarea dep ășirii
mărimii buffer-ului de la intr area decodorului, debitul secven ței
elementare trebuie p ăstrat constant. Această condiție nu este garantat ă
prin procedurile de decodare obi șnuite, ținând cont de diferitele tipuri de
detalii și miș cări care pot ap ărea în imaginea care trebuie supus ă codării.
Re-ordonarea
imaginilor Estim area
mișcării DCT Q VLC
Q-1
DCT-1
memorie
+ predictor
MUX bufferRegularizarea
debitului binar
Ieșire
MPEG
Vectori miș care
Moduri lucruIntrare
video
Fig. 6.15. Schema de principiu a codorului MPEG-1
172 Cap. 6. Standarde de compresie audio-video
În scopul controlului de bitului binar de la ie șirea codorului, acesta
este echipat cu un buffer de tip FIFO (First In First Out). Cantitatea de
informație pă strată în acest buffer este monitorizat ă și menținută între
limite predeterminate prin in termediul unei bucle de reac ție prin care se
poate comanda modificarea parame trilor de cuantizare, care au o
influență semnificativă asupra debitului secven ței codate. Astfel este
posibilă obținerea unui debit constant, cu o rezolu ție ce depinde de
conținutul și dinamica imaginii (în sensul c ă o mai mare mi șcare
determină o mai mic ă rezoluț ie). O schemă bloc foarte general ă a
codorului MPEG-1, ce ofer ă doar o imagine global ă și foarte departe de
complexitatea real ă a acestuia este prezentat ă în Figura 6.15.
În decodor (prezentat în Figura 6.16) nu este necesar ă efectuarea
unei estim ări a mișcării, astfel încât stru ctura acestuia rezult ă mult
simplificat ă față de structura codorului, ceea ce constituie unul din
principalele obiective ale standar dului, având în vedere faptul c ă
numărul codoarelor este dep ășit cu mult de num ărul decodoarelor,
rezultând astfel o structur ă “asimetric ă” pentru lan țul MPEG.
DCT-1
memorie
+ predictor Q-1 Re-ordonarea
imaginilor
buffer DMUX
+
VLD Pas de cuantizare
Vectori miș care
Intrare video
codată
MPEG Moduri lucru
Video
decodat
Fig. 6.16. Schema de principiu a decodorului MPEG-1
6.3.3. Standardul de compresie MPEG-2 6.3.3.1. Niveluri și profile MPEG-2
Standardul MPEG-2 este mai complex decât MPEG-1 , utilizând
toate facilit ățile acestuia și adăugând totodat ă altele noi. Standardul
MPEG-2 este totodată compatibil cu MPEG-1 unidirec țional, în sensul
că un decodor MPEG-2 poate decoda toate secven țele elementare
MPEG-1 comune, dar nu și invers.
Standardul MPEG-2 dispune de patru niveluri, care definesc
rezoluțiile imaginii (de la formatul SIF la HDTV ) și de cinci profile, care
Cap. 6. Standarde de compresie audio-video 173
determină setul instrumentelor de compre sie utilizate, de aici rezultând
compromisul între rata de compresie și costul decodorului video.
Cele patru niveluri, fiecare sp ecific unui anumit gen de aplica ții,
pot fi descrise succint dup ă cum urmeaz ă:
¾ nivelul sc ăzut, corespunz ător rezoluț iei formatului SIF utilizat în
MPEG-1 sau nivelul cu defini ție limitat ă a imaginii LDTV
(Limited Definition TV) , cu un debit cuprins între 1 și 3,5 Mb/s;
¾ nivelul mediu (principal), corespunz ător rezoluț iei formatului
4:2:0, care reprezintă nivelul cu defini ție standard SDTV
(Standard Definition TV) , cu debitul între 4 ÷ 6 Mb/s;
¾ nivelul înalt (1440) , corespunz ător aplica țiilor incipiente HDTV
(cu rezolu ția 1440× 1152 pixeli) sau nivelul cu defini ție mărită
EDTV (Enhanced Definition TV) , cu debitul de 11 Mb/s;
¾ nivelul cu definiț ie înaltă sau nivelul cu defini ție HDTV (High
Definition TV) , optim pentru rezoluț ii de până la 1920×1152
pixeli), cu debitul de 30 Mb/s.
Descrierea celor cinci profile, asoc iate cu fiecare nivel, este ceva
mai complicată .
¾ profilul simplu (SP – Simple Profile) este definit pentru a
simplifica codorul și decodorul în cazul unui debit ridicat, prin
aceasta neutilizându-se o predic ție bidirec țională (imaginile de tip
B);
¾ profilul principal (MP – Main Profile) reprezint ă la acest moment
cel mai bun compromis într e rata de compresie și cost, el utilizând
toate cele trei tipuri de imagine ( I, P, B ), dar conducâ nd la codare
și decodare ceva mai complicate;
¾ profilele scalabile SNR și spațial (SNR and Spatially Scalable
Profiles) sunt realizate prin tr-o codare ierarhic ă și sunt definite în
scopul unor utiliz ări ulterioare. Aceste profile permit transmiterea
unei calități de bază a imaginii ( base layer ) în termeni de rezolu ție
spațială (Spatially Scalable Profile ) sau de acurate țe a digitiză rii
(SNR Scalable Profile ), precum și a unei informa ții suplimentare
(enhanced layer ) permi țând posibilitatea modific ării
caracteristicilor imaginii. Aceasta poate fi utilizat ă, de exemplu,
pentru a transmite într-o form ă compatibil ă aceleași programe,
într-o rezoluț ie de baz ă pentru decodoare standard ș i într-o
rezoluție superioar ă pentru decodoare HD speciale sau, în mod
alternativ, pentru a permite recep ția unei calit ăți de baz ă în
174 Cap. 6. Standarde de compresie audio-video
condiții de recepț ie dificile și schimbarea calit ății, în condi ții de
recepție favorabile ( TV terestrial).
¾ profilul înalt (High Profile) este specific pentru aplicaț iile de
difuzare HDTV în formatele 4:2:0 și 4:2:2.
Există o compatibilitate ascendent ă între profilele prezentate,
aceasta însemnând c ă un decodor realizat pentru un profil dat va fi
capabil să realizeze decodarea tuturor profilelor inferioare celui c ăruia îi
este destinat.
Cea mai important ă combina ție, utilizat ă atât în aplica țiile de
difuziune în standardele Europene cît și în cele Americane, este
cunoscută sub denumirea Profilul principal al nivelului principal
MP@ML (Main Profile at Main Level) . Acesta corespunde cod ării video
MPEG-2 cu explorare între țesută în formatul 4:2:0, cu o rezolu ție de 720
× 480 pixeli, la frecvenț a cadrelor de 30 Hz sau cu rezolu ția de 720 ×
576 pixeli, la frecven ța cadrelor de 25 Hz, incluzând codarea tuturor
tipurilor de cadre I, P sau B. În mod dependent de compromisul dintre
debitul binar și calitatea imaginii, debitul va fi în general cuprins între 4
Mb/s (determinând o calitate comparabil ă cu cea furnizat ă de sistemele
analogice PAL, SECAM sau NTSC ) și 9 Mb/s (aproape de calitatea de
studio definit ă prin Recomandarea 601 CCIR ).
6.3.3.2. Organizarea multiplexului MPEG
a) Secven ța binară program
Secvența elementar ă ES (Elementary Stream) reprezint ă o
împachetare a șirurilor elementare de date de la diferite surse: video,
audio sau alte secven țe particulare și informa ții auxiliare cu diverse
funcțiuni. Aceast ă combinare a diferitelor surse, efectuat ă într-o manier ă
organizată, trebuie s ă permită separarea acestor informa ții elementare în
decodor printr-o opera ție de demultiplexare invers ă.
Funcțiile de baz ă ale acestui nivel, care urmeaz ă imediat nivelului
de compresie sunt urm ătoarele:
¾ împachetarea și combinarea multiplelor secvenț e elementare într-o
singură secvență binară;
¾ adăugarea codului de timp în vederea realiz ării sincroniz ării;
¾ inițializarea și administrarea bufferelor necesare decod ării ES.
Rezultatul acestor proceduri determin ă definirea secvenței
elementare împachetate – PES (Packet Elementary Stream). Pachetul
Cap. 6. Standarde de compresie audio-video 175
PES începe cu un header a că rui structur ă este ilustrată în Figura 6.17 și
este detaliat ă în Tabelul 6.1.
Partea de sistem MPEG-2 (ISO/IEC 13818-1) , care define ște
organizarea multiplexului, pr evede utilizarea a dou ă metode diferite
pentru multiplexarea PES, în scopul form ării a două tipuri diferite de
secvențe binare în mod de pendent de aplica ție.
Fig. 6.17. Structura headerului pentru PES MPEG -2
Tabelul 6.1. Structura header-ului PES MPEG-2
Câmpul Definiție Nr. de bi ți
Start_code_prefix Codul de start (00 00 01 hex) 24
Stream_id Identificare PES 8
Packet_length Lungimea pachetului (în byte) 16
PES_scrambling_control Indică dacă PES este supus procedurii de
scrambling + nume cuvânt control 2
Flags Diverși indicatori 14
PES_header_length Lungimea p ărții rămase din PES 8
PES_header_subfields Câmp variabil ce depinde de indicatori x byte
Stuffing Info suplimentar ă opțională y byte
PES-header-len gth 1 byte
Start_code_prefix
Start_code_prefix
Start_code_prefix
Stream_id
Packet_length
Packet_lenght
Flag
dependent
sub-fields 3 flag_bytes
PES_scrambling_control (2 bi ți) PES-header-flags
PES – header
sub – fields
Stuffing
176 Cap. 6. Standarde de compresie audio-video
Secvența program MPEG-2 este alc ătuită din unul sau mai multe
pachete PES (video, audio sau informa ție auxiliară ), dar care în mod
necesar trebuie să aibă aceeași referință temporală : semnalul de tact STC
(System Time Clock) . Acest tip de secven ță este potrivit pentru aplica țiile
care trebuie să implice introducerea unui num ăr minim de erori de
propagare, fiind caracterizate printr-o rată a erorilor de bit BER (Bit
Error Rate) mai mic ă de 10-10. Astfel de medii de propagare sunt
denumite medii QEF (Quasi Error Free) . Acesta este în general cazul
aplicațiilor multimedia bazate pe CD-ROM sau hard disk-uri. În aceste
cazuri pachetele pot fi relativ lungi (de cca. 2048 bytes) și necesită o
organizare a secven ței de date similar ă MPEG-1.
Acest tip de multiplexare se utilizeaz ă pentru stocarea informa ției
video în format MPEG-2 pe discurile di gitale versatile DVD , care sunt
deja disponibile pe pia ță.
b) Secven ța binară transport
Această secven ță determin ă în primul rând transportul
programelor TV pe o distanță lungă, prin intermediu l unui suport sau
mediu de transmisie susceptibil de introducerea unui num ăr mare de
erori (caracterizat de o rat ă a erorilor de bit BER mai mare decât 10-4).
Aceste tipuri de medii de pr opagare sunt definite ca error-prone .
PT1 PT2 PT3 PT4 PT5 PT6
184 byte
188 byte 184 byte Pachetul PES1 (>184 bytes)
<184 byte 184 byte Pachetul PES2 =184 bytes
Pachetul PES
Secvența
pachetului
transport
PT7
Câmp de adaptare
Header PES DATE (video, audio, etc.) Header pachet de transport
Fig. 6.18. Formarea secven ței de transport MPEG-2
Cap. 6. Standarde de compresie audio-video 177
În aceste cazuri, lungim ea pachetelor trebuie s ă fie relativ mic ă,
pentru a permite implementarea unui algoritm de corec ție eficient.
Lungimea pachetului de tr ansport MPEG-2 a fost fixat ă la valoarea de
188 byte pentru transmisia programelor TV via satelit, cablu sau
difuziune terestr ă în conformitate cu standardul european DVB.
Acest tip de secven ță poate combina în structura multiplexului mai
multe programe pentru care nu este necesar s ă se urmărească aceeași
referință temporal ă, deci nu trebuie s ă existe o baz ă de timp unic ă.
Pachetele PES diferite care fac parte din acela și program trebuie îns ă
dirijate de acela și semnal de tact, pentru a face posibil ă sincronizarea lor
la decodare.
Figura 6.18 ilustreaz ă modalitatea în care se organizeaz ă pachetele
în cazul unei structuri de transport multiplexate.
c) Compunerea pachetului de transport MPEG-2
Pachetul transport alc ătuit din 188 byte este format dintr-un
header cu lungimea de 4 bytes și cu partea util ă (payload) de pân ă la
184 bytes, precedat ă de un câmp de adaptare op țional (vezi Figura 6.19).
câmp de adapta re
date utile
184 – x
188 byte x byte
Header-ul pachetului 4
Fig. 6.19. Con ținutul pachetului transport
8 biți 13 biți 2 2 4 biț i
PIDSync.
0 × 47
Continuity
counter
Transport_priority
Payload_unit_start_indicator
Transport_error_indicator
Fig. 6.20. Detaliu al header-ului pachetului transport
178 Cap. 6. Standarde de compresie audio-video
În acest context, prin partea util ă se înțelege partea care con ține
datele pachetului elementar corespunz ătoare programului TV, la care se
adaugă o anumit ă cantitate de date care să permită decodorului s ă
determine propria direc ție în secven ța de transport MPEG-2. Formatul
header-ului pachetului transport este ilustrat ă în Figura 6.20 și detaliată
în Tabelul 6.2.
Tabelul 6.2. Structura header-ului pachetului de transport MPEG-2
Câmpul Definiție (comentarii) Nr. de bi ți
Sync_byte Bit de sincronizare (1000 0111 = 47 hex) 8
EI Error_indicator (Indicator eroare din etapa anterioar ă) 1
PUSI Payload_unit_start_indicator (start PES) 1
TPR Transport_priority (I ndicator prioritate) 1
PID Packet_identifier (identific ă conținut pachet) 13
SCR_flags Transport_scrambling_flags (tipul procedurii de scrambling) 2
AF Adaptation_field_flag (prezen ța câmpului de adaptare în
pachet) 1
PF Payload_flag (prezen ța datelor payload în pachet) 1
CC Continuity_counter (între por țiuni PES trunchiate) 4
ISO/IEC 13818-1 prescrie faptul c ă pachetul de transport trebuie
să dirijeze doar date care sosesc de la un pachet PES și că un pachet PES
trebuie să se afle întotdeauna la începutul pă rții utile a PT și trebuie s ă se
termine la sfâr șitul pachetului de transport.
Deoarece pachetul transport ( 188 byte, incluzând 4 byte header)
este în general mai scurt decât pachetele PES (de exemplu 2048 byte),
acestea din urm ă trebuiesc divizate în blocuri de date de câ te 184 byte.
Deoarece lungimea pachetelor PES nu este în general un multiplu
de 184 byte, ultimul pachet de transport care dirijeaz ă un pachet PES
trebuie să înceapă cu un câmp de adaptare, a c ărui lungime va fi egal ă cu
184 bytes mai pu țin numărul de byte care r ămân în pachetul PES (vezi
Figura 6.21).
În plus față de această funcție de “completare”, câmpul de
adaptare va fi folosit pentru transportul diferitelor date op ționale, precum
și a referin țelor temporale PCR (Program Clock Reference) , care au
același rol ca ș i în cazul MPEG-1. Rata de repetiț ie minim ă a PCR este
de 10 perioade pe secund ă. În unele cazuri, payload-ul pachetului de
transport poate fi compus numai dintr-un câmp de adaptare de 184 byte
(de exemplu pentru transportul date lor auxiliare). Figura 6.22 ilustreaz ă
Cap. 6. Standarde de compresie audio-video 179
formatul general al câmpului de adaptare, al c ărui conținut este detaliat
în Tabelul 6.3.
Fig. 6.21. Formarea pachetului transport pentru sfâr șitul PES
Fig. 6.22. Detaliu asupr a câmpului de adaptare
Tabelul 6.3. Câmpul de adaptare MPEG-2
Câmpul Definiție Nr. de bi ți
Adaption_field_length Lungime total ă (y-1 bytes) 8
Flags Informația din câmpul urm ător 8
Optional_fields Câmpul op țional de date ( x bytes) x* × 8
Stuffing Valoarea FFh (y-1-x) × 8
6.3.4. Standardul MPEG-4
6.3.4.1. Originea ș i caracteristicile standardului MPEG-4
Progresul tehnologic extrem de rapid din ultima perioad ă a făcut
ca un standard dezvoltat pentru o anume aplica ție să fie rapid transferat
și către alte aplica ții. Acest lucru s-a întâmplat și în cazul standardelor
MPEG-1 și MPEG-2. Dezvoltarea rapidă a Internetului și a H
AFPES
Pachetul transport Sfârșitul PES
184 -x x
y 1 x
Flags
Adaption field length Optional field Stuffing 1 y-x-1 (bytes) y
180 Cap. 6. Standarde de compresie audio-video
comunicaț iilor mobile au condus la cre șterea extrem de rapid ă a
cerinț elor de standardizare într-un set extrem de larg de aplica ții. În acest
context a ap ărut și a fost dezvoltat standardul MPEG-4 .
Aplicațiile în care se utilizeaz ă standardele MPEG-1 și MPEG-2
se înscriu în domeniile comunicaț iilor, calculatoarelor și industriei de
divertisment. Aceste domenii se caracterizează printr-un proces continuu
de convergen ță, care este de a șteptat să continue și în viitorul apropiat.
Ideea de convergen ță a mediilor și tehnologiilor constituie un puternic
impuls pentru stimularea activit ății principalelor organisme implicate în
activitatea de standardizare. Din acest motiv, unul dintre scopurile
MPEG-4 a fost acela de a crea un cadru standard care s ă permită
integrarea cât mai larg ă a aplicațiilor convergente.
Pentru introducerea elementelor de noutate ale standardului
MPEG-4 este necesar ă o prealabil ă prezentare comparativ ă a modelelor
de referin ță pentru diversele standarde din familia MPEG . Modelele
generale de referin ță pentru standardele MPEG-1 și MPEG-2 sunt
prezentate în Figurile 6.23, respectiv 6.24.
Fig. 6.23. Modelul general de referin ță pentru MPEG-1
S
U
R
S
Ă T
R
A
N
S
P
O
R
T
D
E
M
U
X V
I
D
E
O
A
U D
I
O
T
R
A N
S
P
O
R
T
D
E
M
U
X
Video
Audio
Interacț iune
S
U
R
S
Ă
Fig. 6.24. Modelul general de referin ță pentru MPEG-2
Cap. 6. Standarde de compresie audio-video 181
Legat de aceste mo dele de referin ță trebuie remarcat faptul c ă,
deși sunt foarte simple, ele caracterizeaz ă principalele elemente specifice
standardelor respective. Ele simbolizeaz ă faptul c ă ambele standarde
adresează domeniul transmiterii la o anumit ă rată și cu o anumit ă calitate
a semnalelor audio și video, considerate ca un tot unitar. Pe de alt ă parte,
inovația important ă a standardului MPEG-2 este aceea de a introduce
funcția de interac țiune. Datorită necesităț ilor tot mai mari de interac țiune
în majoritatea aplica țiilor, a fost creat grupul de standardizare MHEG
(Multimedia and Hyperm edia Experts Group) , care a condus la crearea
standardului numit MHEG-5, care extinde func ționalitățile care permit
lucrul cu MPEG-2 și alte metode de compresie.
MHEG-5 nu este de fapt un standard de compresie, dar permite
compunerea unor s cene care adaug ă text, imagini fixe și animații grafice
la secvențele audio-video suportate și de MPEG-2. Aceste elemente sunt
introduse de c ătre autorul aplica ției, dar exist ă anumite grade de
interactivitate care permit utilizatorului s ă modifice evolu ția scenelor,
prin intermediul meniurilor de selec ție și prin introducerea de text.
În majoritatea aplica țiilor multimedia, o secven ță video este de
cele mai multe ori doar o component ă, chiar dac ă foarte important ă, a
unei scene. De cele mai multe ori este necesar ă adăugarea unor imagini
fotografice, a unor logo-uri, a unor texte explicative, precum și a unor
butoane și meniuri care s ă asigure interactivitatea. O situa ție tipică în
acest sens este prezentat ă în Figura 6.25.
Standardul MHEG-5 define ște o reprezentare codat ă a unei scene,
adică sintaxa și semantica asociat ă, care permit autorului s ă compună o
scenă bidimensional ă, cu următoarele caracteristici:
a) componentele de ie șire sunt secven țe audio și imagini
rectangulare de tip
¾ șiruri de text
¾ imagini statice
¾ animații grafice
¾ secvențe audio-vizuale
b) componentele de intrare sunt de tip
¾ text
¾ meniuri de selec ție (butoane, hot spot-uri)
c) desfăș urarea unei scene este conform ă cu evenimentele care
acționează asupra componentelor de ie șire sau de intrare.
Din aceste motive, evolu ția unei scene este programat ă de autor și
poate fi modificat ă de către utilizator, cu constr ângerile impuse de c ătre
autor.
182 Cap. 6. Standarde de compresie audio-video
Fig. 6.25. Structura unei aplica ții multimedia tipice
Modelul genera l de referință pentru MHEG-5 este prezentat în
Figura 6.26.
Fig. 6.26. Modelul general de referin ță pentru MHEG-5
MHEG-5 define ște un format de fi șier format din:
¾ un fișier "aplica ție", adică descrierea tuturor scenelor MHEG-5
care compun aplica ția și a relației dintre ele;
S
U
R
S
Ă T
R
A
N
S
P
O
R
T
D
E
M
U
X MHEG
Audio
Interacț iune
Animaț ieVideo
Text
C
O
M
P
O
Z
I
Ț
I
E
DSM-CC
Cap. 6. Standarde de compresie audio-video 183
¾ un fișier "scenă" pentru fiecare din scenele MHEG-5.
Diferitele tipuri de date pot fi incluse în fi șier sau pot fi enumerate
într-un spa țiu definit, unde pot fi reg ăsite prin intermediul protocolului
DSM-CC , care realizeaz ă interactivitatea (conform Figurii 6.26).
Denumirea DSM-CC provine de la "Digital Storage Media –
Command and Control" , fiind un standard interna țional din Iulie 1996.
El reprezint ă specificaț ia unui set de protocoale care descriu func țiile de
control și operațiunile specifice pentru lucrul cu șirurile de bi ți MPEG .
Aceste protocoale pot fi utilizate pentru dezvoltarea de aplica ții atât în
medii de re țele de sine st ătătoare cât și în medii de re țele heterogene. În
modelul DSM-CC , un șir este furnizat de un Server și livrat către un
Client, ambii fiind considera ți drept Utilizatori de c ătre rețeaua DSM-
CC. DSM-CC define ște o entitate logic ă numită SRM (Session and
Resource Manager) , care furnizeaz ă un management centralizat logic al
sesiunilor și resurselor DSM-CC . Figura 9.19 prezint ă modelul DSM-CC .
Standardul MPEG-4 preia toate ideile acestor predecesori ș i le
dezvoltă prin acceptarea unui grad mai mare de interac țiune din partea
utilizatorului și prin utilizarea unor metode noi de compresie video,
orientate pe obiecte. De asemenea, MPEG-4 oferă capacități extinse și
mai multe opp țiuni pentru codarea sunetului și a vocii. În plus, MPEG-4
permite utilizarea informa țiilor audio și video naturale sau sintetizate,
sau chiar a unei combina ții a acestora. Figura 6.27 prezint ă modelul
general de referin ță pentru MPEG-4. Se poate observa cu u șurință din
acest model, c ă este vorba despre un sta ndard extrem de diferit fa ță de
MPEG-1 și MPEG-2 , precum și că este o extensie a standardului
MHEG-5 prin includerea structurii MPEG .
Fig. 6.27. Modelul general de referin ță pentru MPEG-4
S
U
R
S
Ă T
R
A N
S
P
O
R
T
D
E
M
U
X BIFS
Audio
Interacț iune
Animaț ieVideo
Text
C
O
M
P
O
Z
I
Ț
I
E
P
R
E
Z
E
N
T
A R
E
184 Cap. 6. Standarde de compresie audio-video
6.3.4.2. Descrierea scenelor MPEG-4
Diferen ța esențială dintre MPEG-4 și standardele anterioare
MPEG-1 și MPEG-2 este aceea c ă standardul MPEG-4 se bazeaz ă pe
descompunerea unei scene în componente (numite obiecte audio-
vizuale ), pe codarea acestor obiecte și apoi pe reconstituirea scenelor din
aceste obiecte.
Figura 6.28 prezintă un exemplu tipic de compozi ție a unei scene
MPEG-4 din obiecte audio-vizuale AVO (Audio-Visual Objects) . O scenă
audio-vizual ă este compus ă din mai multe obiecte audio-vizuale AVO ,
organizate ierarhic. La ba za acestei ierarhii se g ăsesc obiectele primitive,
care pot fi:
¾ fundal fix bidimensional;
¾ imagini naturale (de ex . persoana care vorbe ște din Fig. 6.28);
¾ secvențe audio naturale (de ex. vocea asociat ă persoanei din Fig.
6.28);
¾ obiecte sintetizate (de ex. biroul sau globul din Fig. 6.28);
¾ imagini sintetizate;
¾ sunete sintetizate (fundal muzical);
¾ texturi. Astfel, scena este descompus ă, fiecare obiect fiind codat și
comprimat separat, rezultatele fiind organizate sub forma unui șir de date
cu denumirea de format binar al scenelor BIFS (Binary Format of
Scenes) în vederea transmiterii c ătre decodor. La nivelul decodorului,
informația BIFS este decodată , componentele scenei sunt decompresate
și este refăcută scena ini țială.
Există o serie de avantaje lega te de utilizarea descompunerii
scenelor și a codării separate a componentelor.
¾ Cel mai important avantaj este acela c ă o anumit ă metodă de
compresie nu mai trebuie utilizat ă pentru comprimarea unei scene
complexe care include oameni, obiecte cu o form ă arbitrară și,
posibil, text. Odat ă descompunerea realizat ă, fiecare obiect
component poate fi comprima t separat, printr-o tehnic ă cât mai
bine adaptat ă sursei specifice de provenien ță a obiectului.
¾ Alt avantaj important este acela c ă șirul de date ob ținut are
proprietatea de scalabilitate . Cu alte cuvinte, șirul de date poate fi
modificat prin înl ăturarea sau adaptarea con ținutului, în func ție de
lățimea benzii de tran smisie disponibile și de cerinț ele de
Cap. 6. Standarde de compresie audio-video 185
complexitate a scenei. Acest con cept este extrem de important și
inovativ. De exemplu, dac ă este necesar ă la un moment dat
micșorarea ratei de transmisie, în loc de a se renunț a la biț i de
rezoluție, care vor afecta calitatea în tregii scene, se poate renun ța
doar la unul din obiectele mai pu țin importante din scen ă, fără a
afecta calitatea de ansamblu a acesteia.
Fig. 6.28. Compunerea unei scene MPEG-4
¾ Un alt avantaj al utiliz ării descompunerii scenelor și compresiei
bazate pe obiecte este acela c ă utilizatorul poate fi autorizat s ă
acceseze diverse obiecte din scen ă și să schimbe con ținutul
acesteia în func ție de interesele sale particulare.
186 Cap. 6. Standarde de compresie audio-video
Figura 6.29 prezintă o modalitate de de scompunere ierarhic ă a
scenei exemplificate în Fi gura 6.28. Scena este rupt ă în mai multe
obiecte audio și video (persoan ă, fundal, mobilier) și o prezentare audio-
vizuală. Prin urmare exist ă în scenă obiecte și componente, ca de
exemplu fundalul, care este de a șteptat să rămână în scenă pentru un
timp mai îndelungat. Aceste co mponente sunt codate separat și nu este
necesar ca ele s ă fie recodate și retransmise din nou pân ă în momentul în
care se modific ă. De asemenea, trebuie notat faptul c ă obiectul persoană
este la rândul s ău descompus într-o formă video (sprite) și o voce , care
pot fi codate separat. Desigur c ă acestea se schimbă constant, de aceea
ele trebuie codate și transmise permanent, spre deosebire de imaginea de
fundal. Prezentarea audio-vizual ă poate con ține secven țe audio de înaltă
calitate, care trebuie c odate prin tehnici speci fice. Global vorbind,
abordarea orientat ă pe obiecte conduce la posibilitatea unei compresii
mai bune decât în cazul utiliz ării unui algoritm clasic de compresie care
nu trebuie s ă lucreze cu un num ăr atât de mare și variat de intr ări.
Scena
Prezentare
audio-video
Persoană
Fundal 2D
Mobilier
Voce
Imagine
Glob
Birou
Fig. 6.29. Descompunerea ierarhic ă a scenelor
Cap. 6. Standarde de compresie audio-video 187
6.3.4.3. Structura codorului MPEG-4
Figura 6.30 prezintă schema bloc a algoritmului de compresie
MPEG- 4 utilizat pentru codarea secven țelor video de form ă rectangular ă
sau arbitrar ă.
DCT Q Codare
textură
Q-1
DCT-1
Memorie
cadru
Multiplex
video
Fig. 6.30. Structura codorului video MPEG-4
Structura de baz ă pentru codarea form elor arbitrare, cu
compensarea mi șcării se bazeaz ă pe utilizarea cod ării cu transformare
cosinus discret ă DCT pe blocuri de 8 × 8 sau 16 × 16 pixeli. Pentru
tratarea diferen țiată a diferitelor obiecte în care este descompus ă scena se
utilizează diferite metode de predic ție pentru compensarea mi șcării.
Intrare
videoIeșire
MPEG +
C
o
m
u
t
a
t
o
r
Predictor 1
Predictor 2
Predictor 3
Estimare
mișcare
Codare
formă + + –
188 Cap. 6. Standarde de compresie audio-video
6.3.5. Standardul MPEG-7
Standardul MPEG-7, aflat înc ă în fază de dezvoltare, continu ă
procesul de abstractizare demarat prin MPEG-4 prin punerea accentului
pe funcționalitate cel pu țin în aceea și măsură în care se pune pe tehnicile
de compresie. Standardul mai este denumit și Interfață de Descriere a
Conținutului Multimedia MCDI (Mu ltimedia Content Description
Interface) și pune accentul pe interpretarea informa ției astfel încât s ă
poată fi utilizat ă sau căutată în baze de date de c ătre calculatoare sau alte
dispozitive electronice. Aplica țiile posibile se refer ă la căutarea de
informație pe baza con ținutului, la clasificarea informaț iilor audio și
video, precum și la accelerarea accesului la site-uri Internet.
Diagrama din Figura 6.31 realizeaz ă o prezentare de ansamblu a
aplicațiilor posibile pentru standardul MPEG-7. Aceea și schemă prezintă
și elementele utilizate de acest standard: un set de descriptori D
(Descriptors) , un set de scheme de descriere DS (Description Schemes)
și un limbaj de descriere a defini țiilor DDL (Description Definition
Language) . Acesta din urm ă este realizat pe scheletul limbajului XML .
Conținut
Multimedia
Utilizator / sistem
prelucrare date Generare
descriere Limba j descriere
definiții (DDL)
Fig. 6.31. Prezentarea abstract ă a standardului MPEG-7
Pasul de generare a schemelor de descriere este extrem de
important, având în vedere scopul principal al MPEG-7 de a permite un
grad mare de abstractizare și de "înțelegere" a caracteristicilor scenelor
de către dispozitivele automate. În consecin ță, acest pas va necesita Descriere
MPEG-7
Codor
Decodor Descriere
codată
MPEG-7 Scheme de
descriere (DS)
Descriptori (D)Motor de
căutare
Filtre
Utilizator
(uman /
sistem)
Cap. 6. Standarde de compresie audio-video 189
algoritmi pentru extrager ea caracteristicilor, dar specificarea tipului de
algoritmi nu intr ă în preocuparea standardului MPEG-7. Acest lucru este
explicabil prin faptul c ă se dore ște deschiderea c ătre dezvolt ările
ulterioare și crearea pentru diverș i competitori a oportunit ății de a-și
dezvolta proprii algoritmi, care s ă le personalizeze sistemele.
6.4. Standarde de compresie audio
6.4.1. Compresia audio NICAM
Termenul NICAM provine de la Near Instantaneous Companding
Audio Multiplex . Sistemul NICAM se utilizeaz ă în locul canalului audio
stereo clasic, reprezentând o tehnic ă de codare numeric ă capabilă să
reducă cantitatea de date necesară pentru transmiterea informa ției audio.
Sistemul NICAM a fost proiectat pentru a transmite dou ă canale
audio de 15 kHz. Frecven ța de eșantionare utilizat ă este de 32 kHz, iar
numărul inițial de biți/eșantion este de 14. Aceast ă situație ar conduce
însă la o rată de date prea mare pentru uti lizarea în sistemele de difuzare
terestră PAL. Din acest motiv, cei 14 bi ți/eșantion ini țiali sunt
comprima ți la doar 10 bi ți/eșantion, printr-un procedeu digital u șor
diferit de cel utilizat în compandarea analogic ă folosită pentru reducerea
zgomotului în sistemele audio. Procedura de compresie opereaz ă prin împ ărțirea șirului de
eșantioane în blocuri de câte 32 e șantioane. Formatul numeric utilizat
pentru codarea e șantioanelor nu este binar or dinar, ci complement de 2
(creat prin inversarea biț ilor și adunarea lui unu). Bitul cel mai
semnificativ MSB (Most Significant Bit) are semnifica ți a d e s e m n a l
eșantionului.
În continuare este se lectat cel mai mare e șantion din bloc, acesta
fiind utilizat apoi pentru definirea modului în care se prelucreaz ă blocul
respectiv. Figura 6.32 reprezint ă schematic procedura de codare NICAM .
Domeniul de varia ție al semnalului (în valoare absolută ) este
împărțit în cinci domenii de codare, relativ la amplitudinea maxim ă
unitară a acestuia. Aces te domenii sunt:
¾ de la 1 la 0,5
¾ de la 0,5 la 0,25
¾ de la 0,25 la 0,125
¾ de la 0,125 la 0,0625
¾ de la 0,0625 la 0
190 Cap. 6. Standarde de compresie audio-video
M S B LSB Factor scal ă
0 1 1 1 1 1 1 1 1 1 1 1 1 1
: : : : : : : : : : : : : : 1 1 1
0 1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 1 X X X X X X X X X X X 1 1 0
0 0 0 1 X X X X X X X X X X 1 0 1
0 0 0 0 1 X X X X X X X X X 0 1 1
0 0 0 0 0 1 X X X X X X X X
0 0 0 0 0 0 1 X X X X X X X
0 0 0 0 0 0 0 1 X X X X X X
0 0 0 0 0 0 0 0 1 1 1 1 1 1
0 0 0 0 0 0 0 X X X X X X X
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 X X X X X X X
1 1 1 1 1 1 1 1 0 0 0 0 0 0
1 1 1 1 1 1 1 0 X X X X X X
1 1 1 1 1 1 0 X X X X X X X
1 1 1 1 1 0 X X X X X X X X
1 1 1 1 0 X X X X X X X X X 0 1 1
1 1 1 0 X X X X X X X X X X 1 0 1
1 1 0 X X X X X X X X X X X 1 1 0
1 0 1 1 1 1 1 1 1 1 1 1 1 1
: : : : : : : : : : : : : : 1 1 1
1 0 0 0 0 0 0 0 0 0 0 0 0 0
Fig. 6.32. Codarea NICAM
Domeniul de codare care urmeaz ă a fi utilizat de fiecare bloc este
determinat printr-un cuvânt de trei bi ți, numit factor de scal ă (Scale
Factor) . Dacă blocul de e șantioane este situat în primul domeniu de
codare (în conformitate cu cel mai mare e șantion al blocului), atunci cei
mai puțin semnificativi 4 biț i ai fiecărui eșantion sunt neglija ți. Dacă
blocul de e șantioane este situat în al doilea domeniu de codare, atunci
Cap. 6. Standarde de compresie audio-video 191
sunt neglija ți cei mai pu țin semnificativi 3 biț i, împreun ă cu bitul cel mai
semnificativ (cu excep ția celui de semn). Procedura se continu ă și pentru
celelalte trei domenii de codare, ajungâ ndu-se în final la o reprezentare a
semnalului pe doar 10 bi ți, indiferent de domeniul în care se situeaz ă
acesta. Este îns ă de remarcat faptul c ă neglijarea a câte 4 biț i se face
dinamic, pentru minimizarea erorilo r. În Figura 6.32 sunt eviden țiați biții
care se înl ătură în funcție de dinamica semnalului.
Semnalul NICAM este transmis în șiruri de bi ți cu structura de
cadre a câte 728 bi ți. Fiecare cadru este transm is în aproximativ 1 msec.
Trebuie îns ă făcută precizarea c ă nu trebuie f ăcută o confuzie între
utilizarea termenului de cadru NICAM și cadrele utilizate în sistemele de
televiziune. Prin urmare rata de transmisie în sistemele NICAM este de
728.000 bi ți / secund ă (728 kbit/sec).
Structura unui cadru NICAM 728 este prezentat ă în Figura 6.33 și
în Tabelul 6.4.
Fig. 6.33. Structura cadrului NICAM 728
Cuvântul de aliniere cadru FAW (Frame Alignment Word) este un
cuvânt de 8 bi ți (0100 1110) transmis la începutul fiec ărui nou cadru
NICAM . Scopul s ău este de a permite decodorului NICAM sincronizarea
cadrelor. În anumite sisteme de acces condiț ionat se rearanjeaz ă ordinea
biților din acest cuvânt de sincro nizare, rezultând în acest mod
imposibilitatea de sincronizare a decodorului.
FAW C
AD A1 B1 A2 B2
A32
B32 728 biți, 1 ms
64×11 biți, audio + paritate
C0C1 C2 C3 C40 1 0 0 1 1 1 0 AD0AD1 AD9AD10
D5 D6 D7 D8 PD9 D4 D3 D2 D1 D0
192 Cap. 6. Standarde de compresie audio-video
Tabelul 6.4. Semnifica ția cadrului NICAM 728
Tipul de dat ă Lungime (bi ți) Rata de bi ți (kbit/s)
Cuvânt aliniere cadru (Frame Alignment
Word) 8 8
Informație de control (Control
Information) 5 5
Date suplimentare (Additional Data) 11 11
Sunet și control de paritate (Sound and
Parity) 704 704
Informația de control C este transmis ă prin intermediul unui
cuvânt de cinci bi ți. Primul bit, C0, este bitul indicator de cadru. El este
activ pentru primele 8 cadre și inactiv pentru urm ătoarele 8 cadre.
Următorii trei bi ți, C1, C2 și C3 sunt utiliza ți pentru a semnaliza aplica ția.
Ei sunt denumi ți și biți de control al aplica ției. Bitul C3 este utilizat
pentru a semnala neces itatea de sunet adi țional sau de prelucrare
suplimentară a datelor. Ș i acest bit este utilizat în sistemele de criptare
pentru realizarea accesului condi ționat. Dac ă acest bit este activ, atunci
decodoarele f ără logica de decriptare necesară vor bloca ie șirea audio.
Bitul C4 este utilizat ca și bit de rezervă pentru indicarea comut ării
sunetului.
Semnifica ția biț ilor C1, C2 și C3 este prezentat ă în Tabelul 6.5.
Tabelul 6.5. Semnifica ția biților C 1, C2 și C 3
C1 C 2 C3 Conț inutul blocului de sunet de 704 bi ți
0 0 0 Semnal stereo – e șantioane alternative canal A și canal B
0 1 0 2 canale mono independente (M 1 și M 2), transmise în cadre
alternative
1 0 0 2 canale mono independente (M 1 și M 2), transmise în cadre
alternative
1 1 0 1 canal de date de 704 bi ți
Biții adiționali de date AD (Additional Data) sunt în num ăr de 11.
Utilizarea acestor bi ți nu a fost definit ă oficial în nici o specifica ție. Ei
pot fi utiliza ți pentru identificarea serviciu lui. De asemenea poate fi
inserat un cod pentru controlul subtitră rii prin serviciul de teletext.
Modalitatea de transmisie a informa ției audio (Audio) în cadrul
celor 64 grupe de câte 11 bi ți se face în mod diferit în func ție de calitatea
sunetului transmis. În cazul sunetului monofonic, cele 64 grupuri de câte
11 biți (total 704 bi ți) se transmit de la aceea și sursă . Împreun ă cu biții
adiționali (11 bi ți) și cei de control (5 bi ți) formeaz ă un bloc de codare.
Cap. 6. Standarde de compresie audio-video 193
În cazul unor transmisii mixte, între pachetele de sunet pot fi intercalate
și pachete de date. Niciodat ă însă nu se mixeaz ă biți de sunet și de date
în același pachet.
În cazul unei surse de sunet stereofonic, e șantioanele provenite de
la cele dou ă canale sunt între țesute pentru a forma un singur bloc de
codare. În Fig. 6.33, e șantioanele corespunz ătoare canalului stâng sunt
împachetate pe grupuri de câte 64 bi ți, notate cu A 1 până la A 32, iar cele
corespunz ătoare canalului din dreapta sunt împachetate pe grupuri de
câte 64 bi ți, notate cu B 1 până la B 32. În acest mod se p ăstrează relația de
fază între e șantioanele stereo manipulate. Trebuie men ționat de
asemenea faptul c ă pentru protec ție se utilizeaz ă câte un singur bit de
paritate pentru fiecare grup de 10 bi ți de codare a sunetului.
Petru realizarea transmisiunilor NICAM se utilizezaz ă modulația
DQPSK (Differentially Encoded Q uadrature Phase Shift Keying) , care
permite reducerea benzii necesare pentru transmiterea informa ției.
Fiecare schimbare de faz ă reprezint ă o pereche de bi ți sau doi biț i
independen ți de date. Formatul de modula ție este clar și lipsit de
ambiguitate. O pereche de bi ți poate fi oricând recuperat ă la recepție prin
compararea fazei prezente a purt ătoarei cu faza imediat anterioar ă.
6.4.2. Sistemul Dolby AC-3
Sistemul Dolby AC-3 reprezint ă de fapt o familie de codere
realizate prin tehnica cod ării cu transformare, cu accentul pe realizarea
unui bun compromis între întârzierea de codare și rata de bit ob ținută.
Fără a intra în detaliile matematice, trebuie s ă menționăm faptul c ă
sistemul utilizeaz ă transformata cosinus discret ă modificat ă pe ferestre
ale semnalului, cu un factor de supr apunere a domeniilor de 50 %. Drept
urmare se obț ine un num ăr aproximativ dublu de coeficien ți față de
necesarul de codare. Se utilizeaz ă o sub-e șantionare cu factor
aproximativ 2, ceea ce conduce la pos ibile erori de aliere. Noutatea
introdusă de acest sistem const ă în modificarea transformatei în a șa fel
încât eroarea produs ă în cea de-a doua jumă tate a unei ferestre s ă fie
egală și de semn opus erorii din prima jum ătate a ferestrei urm ătoare. În
acest mod se realizeaz ă compensarea erorii la reconstruc ția semnalului.
Aceasstă metodă este cunoscut ă sub denumirea de anulare a erorii de
aliere în domeniul timp TDAC (Time-Domain Aliasing Cancellation) .
Schema bloc de principiu a codorului Dolby AC-3 este prezentat ă
în Figura 6.34. Intrarea audio este divizat ă în blocuri (ferestre) de câte
512 eșantioane, cu un factor de supr apunere de 50 % între blocuri.
194 Cap. 6. Standarde de compresie audio-video
Aceste blocuri sunt apoi supuse alternativ transform ărilor cosinus și
sinus modificate, care produc 512 coeficienț i pentru fiecare bloc. Dup ă
înlăturarea redundan ței, se ajunge la 256 coeficien ți pentru fiecare bloc.
M
U
Blocuri
suprapusCuantizor
adaptiv
Fig. 6.34. Schema bloc a codorului Dolby AC-3
Coeficien ții au o rezolu ție în frecven ță ridicată și sunt combina ți
selectiv în sub-benzi care aproximeaz ă benzile audio critice. În interiorul
fiecă rei sub-benzi, coeficien ții sunt normaliza ți și exprima ți în format
virgulă mobilă, cu exponen ți comuni. Se poate demonstra matematic
faptul că exponen ții poartă informa ția referitoare la înf ășurătoarea
spectrală a semnalului și că ei pot fi utiliza ți pentru operarea modelului
perceptual care efectueaz ă alocarea de biț i. Mantisele coeficien ților
transformatelor sunt recuantiza ți în funcție de alocarea bi ților.
Șirul de biți de la ieșirea codorului este format prin multiplexarea
șirului de coeficien ți recuantiza ți și a ș irului de exponen ți care
caracterizează înfăș urătoarea spectral ă. La nivelul exponen ților exist ă
însă o mare redundan ță, motiv pentru care doar primul coeficient din
fiecare bloc (corespunzând celei mai mici frecven țe) se transmite în
valoare absolut ă. Restul exponen ților se transmit diferen țial, datorit ă
faptului c ă probabilitatea cea ma i mare este ca ace știa să difere foarte
puțin între ei.
La nivelul decodorului, exponen ții ce caracterizeaz ă
înfăș urătoarea spectral ă sunt utiliza ți pentru deserializarea mantiselor
coeficienților în cuvinte de cod de lungime corect ă. Exponen ții
redundanți sunt decoda ți începând cu cel corespunz ător celei mai mici
frecvențe a primului bloc. Exponen ții sunt utilizaț i pentru a readuce
coeficienții la exprimarea în format cu virgula fix ă. Transf.
sin/cos
modificat ă
Compr.
sub-
bandă
(virgulă PCM
audio Coef.
cuantizați
Ieșire
audio
mobilă) X Alocare
dinamică
biCodare
exponenți
ți
Cap. 6. Standarde de compresie audio-video 195
Codoarele AC-3 se utilizeaz ă în principal pentru transmiterea
sunetului în sistemele de televiziune prin satelit și prin cablu, dar
variante ale sale sunt aplicabile și la produc ția de CD-uri. Este de
remarcat faptul c ă activitatea interna țională de standardizare în domeniul
Dolby AC-3 este înc ă în curs de desf ășurare, noi metode fiind propuse în
special în ceea ce prive ște alocarea dinamic ă a biților.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: 144 Cap. 6. Standarde de co mpresie audio-video Cap. 6. Standarde de compresie audio-video 6.1. Rolul standardelor în comunica țiile multimedia… [613523] (ID: 613523)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
