home
***
CD-ROM
|
disk
|
FTP
|
other
***
search
/
PC World Komputer 1998 June B
/
Pcwk6b98.iso
/
Cdinst
/
Txt
/
MPEG3.TXT
< prev
next >
Wrap
Text File
|
1998-04-22
|
10KB
|
185 lines
MP3 - mistrz iluzji
===================
Wielk╣ furorΩ w Internecie robi tajemniczy MP3. Uwa┐any jest za
najlepszego kuriera dƒwiΩku wysokiej jako£ci: bije konkurent≤w sw╣
szybko£ci╣ i poziomem us│ug, a dziΩki niewielkim rozmiarom wci£nie
siΩ wszΩdzie. W rzeczywisto£ci to mistrz iluzji: nabiera nas tak
subtelnie, ┐e zupe│nie nie£wiadomie poddajemy siΩ jego urokowi.
Przyjrzyjmy siΩ wiΩc z bliska panu MP3.
SKÑD PRZYBYWA?
--------------
Korzenie MP3 le┐╣ jeszcze w czasach powstawania standardu p│yt CD.
W≤wczas postanowiono, ┐e cyfrowy dƒwiΩk bΩdzie rejestrowany jako
wierna kopia sygna│u analogowego (czyli naturalnego), ale tylko w
pa£mie do 20 kHz, bo wy┐szych dƒwiΩk≤w normalny homo sapiens i tak
nie s│yszy. To ograniczenie by│o te┐ na rΩkΩ in┐ynierom, kt≤rzy nie
musieli pracowaµ nad zbyt skomplikowanymi uk│adami elektronicznymi.
Dlaczego?
DƒwiΩk - jak ka┐de zjawisko - istnieje w pewnych wymiarach. Oceniamy
jego g│o£no£µ (fachowo: natΩ┐enie) i wysoko£µ (czΩstotliwo£µ). Tak
te┐ pokazuj╣ go najczΩ£ciej wykresy - jako natΩ┐enie pewnych
czΩstotliwo£ci. »eby zamieniµ sygna│ analogowy na cyfrowy trzeba go
pr≤bkowaµ: podzieliµ na jak najmniejsze, r≤wne kawa│ki (pr≤bki),
zmierzyµ warto£µ ka┐dej takiej pr≤bki wed│ug skali, a wynik pomiaru
zapisaµ w postaci cyfrowej.
DƒwiΩk CD to 16-bitowe pr≤bki wykonywane z czΩstotliwo£ci╣ 44,1 kHz
dla ka┐dego kana│u z osobna. W jednej sekundzie powstaje wiΩc 1411,2
kilobit≤w danych (16*44,1*2), co daje ok. 10 MB na minutΩ utworu.
Nie dziwne, ┐e £cie┐ki audio CD w postaci pliku wave zajmuj╣ tyle
miejsca, a ┐aden modem - nawet ISDN 128 kbps - nie prze│knie takiej
transmisji.
PO CO PRZYBYWA?
---------------
P│yty CD mia│y wielk╣ wadΩ: nie da│o siΩ ich zapisywaµ tak, jak
kasety czy dyskietki. Powsta│ wiΩc DAT - ma│a kaseta z ta£m╣ do
zapisu cyfrowego o jako£ci CD lub lepszej (wy┐sza czΩstotliwo£µ
pr≤bkowania) i jeszcze wiΩkszej pojemno£ci. Lecz obawy o masowe
piractwo uniemo┐liwi│y zadomowienie siΩ tego wynalazku. W≤wczas
Philips rozpocz╣│ prace nad Digital Compact Cassette (DCC), a Sony
postawi│ na MiniDisc (MD). Obie firmy za│o┐y│y, ┐e ich no£niki nie
zmieszcz╣ takiej ilo£ci danych, jakiej wymaga dƒwiΩk CD. Idea by│a
prosta: upakowaµ dane do maksimum, ale bez utraty jako£ci sygna│u.
Wydawa│o siΩ to niemo┐liwe, lecz z pomoc╣ przysz│a niedoskona│o£µ
ludzkiego ucha.
JAK OSZUKUJE?
-------------
Teoretycznie s│yszymy dƒwiΩki z zakresu od 20 Hz do 20 kHz, wiΩc
p│yta CD oferuje nam pe│n╣ skalΩ dozna±. Jednak w rzeczywisto£ci
wiΩkszo£µ ludzi jest g│ucha na wszystko powy┐ej 16-17 kHz, choµ
odczuwa wysokie dƒwiΩki samym m≤zgiem i cia│em (je£li nie wierzycie,
weƒcie dowolny program do edycji audio typu Cool Edit, i w│╣czcie 17
kHz). Na dodatek ucho najlepiej reaguje na pasmo 2 do 4 kHz (mowa
mie£ci siΩ w zakresie tzw. pasma telefonicznego - 0,5 do 2 kHz).
Pozosta│e dƒwiΩki trzeba bardziej wzmocniµ, by sta│y siΩ s│yszalne.
Dalsze badania ods│oni│y kolejne wady ludzkiego s│uchu. Gdy s│yszymy
silny dƒwiΩk, blokuje on percepcjΩ dƒwiΩk≤w o podobnej
czΩstotliwo£ci, lecz mniejszym natΩ┐eniu. Musz╣ byµ znacznie
g│o£niejsze ni┐ to wynika z normalnej charakterystyki ucha, by£my
mogli je wychwyciµ. Mocny dƒwiΩk zwie siΩ maskuj╣cym, s│abszy za£ -
maskowanym. Zjawisko maskowania mo┐e wystΩpowaµ nie tylko przy
jednoczesnym pojawieniu siΩ dw≤ch dƒwiΩk≤w o r≤┐nym natΩ┐eniu i
podobnej czΩstotliwo£ci. Istnieje ono tak┐e w funkcji czasu
(ogranicza percepcjΩ innych dƒwiΩk≤w w nastΩpnych sekundach).
Wykorzystuj╣c tΩ psychoakustyczn╣ u│omno£µ zmys│u, stworzono
kodowanie podzakresowe SBC, kt≤rego podstawowym za│o┐eniem jest
odrzucanie wszystkich zbΩdnych informacji o maskowanych
czΩstotliwo£ciach. A jako ┐e jest ich sporo, efekt kodowania okazuje
siΩ rewelacyjny. Co prawda sygna│ wyj£ciowy nie odpowiada
orygina│owi, ale ucho ludzkie tego nie rozr≤┐nia.
Og≤lny algorytm postΩpowania koder≤w jest nastΩpuj╣cy: sygna│
wej£ciowy zostaje najpierw podzielony na podzakresy
czΩstotliwo£ciowe dla danej jednostki czasu (po ludzku: co jaki£
czas branych jest ile£ pr≤bek pasma). Podzakresy por≤wnywane s╣ z
orygina│em i na podstawie analizy modelu psychoakustycznego koder
okre£la pr≤g s│yszalno£ci dla pr≤bki. NastΩpnie ka┐da z pr≤bek jest
kwantowana (zamieniana na postaµ cyfrow╣) tak, by s│owo j╣ opisuj╣ce
by│o na tyle ma│e, ┐eby szum kwantowania nadal znajdowa│ siΩ poni┐ej
progu s│yszalno£ci. D│ugo£µ s│owa uzyskuje siΩ przez podzielenie
warto£ci poziomu stosunku sygna│u do szumu przez 6 (wspomniane
wcze£niej r≤wnanie 1 bit kwantyzacji = 6 dB) i zaokr╣glenie wyniku
wzwy┐. Przyk│adowo, je┐eli dƒwiΩk maskuj╣cy ma 70 dB, a maskowane
przez niego dƒwiΩki znajduj╣ siΩ poni┐ej poziomu 50 dB, to r≤┐nica
wynosi 20 dB i jest to stosunek sygna│u do szumu w danym
podzakresie. B│╣d kwantowania w tym podzakresie mo┐e wiΩc byµ du┐y,
bo i tak szum zostanie zakryty dƒwiΩkiem maskuj╣cym. Do opisu pr≤bek
wystarcz╣ wtedy 4 bity (20/6) zamiast 16, jak w CD.
Z gotowych danych koder formuje strumie±, dziel╣c go na czasowe
ramki, by dekoder siΩ nie pogubi│. Dodatkowo umieszcza informacje o
uk│adzie bit≤w na przestrzeni widma, czyli w kt≤rym miejscu ile
bit≤w opisuje pr≤bki. Sam dekoder jest prostszy, bo nie wymaga
modelu psychoakustycznego. Rozpakowuje jedynie ramki, dekoduje
pr≤bki z podzakres≤w i mapowaniem przywraca do postaci sygna│u
audio.
CZEMU TAKIE IMI╩?
-----------------
MP3 to wcale nie MPEG-3! Ten skr≤t wzi╣│ siΩ jedynie z rozszerzenia
plik≤w wΩdruj╣cych po Internecie. W rzeczywisto£ci nazwa wywodzi siΩ
z MPEG-1 Layer 3. Zar≤wno standard MPEG-1, jak i MPEG-2 zawieraj╣ 3
warstwy obs│ugi kana│≤w audio: najprostsz╣ i najstarsz╣ Layer 1
(opracowan╣ g│≤wnie z my£l╣ o DCC), Layer 2 i Layer 3 (powsta│╣ w
1991 roku w niemieckim Instytucie Fraunhofera). Im wy┐szy numer
warstwy, tym wiΩksza kompresja danych, a wiΩc ni┐sze pasmo
transmisji i wielko£µ pliku wyj£ciowego. W Layer 1 kompresja sygna│u
stereo CD wynosi 4:1, wiΩc dane wΩdruj╣ z szybko£ci╣ 384 kbps. W
Layer 2 stopie± upakowania wzr≤s│ do 6:1...8:1, co da│o 256...192
kbps. Layer 3 za£ to najbardziej zaawansowana technologia z
kompresj╣ 10:1...12:1 umo┐liwiaj╣c╣ transmisjΩ 128...112 kbps.
Oczywi£cie wi╣┐e siΩ to z wiΩksz╣ moc╣ i z│o┐ono£ci╣ koder≤w oraz
odmiennymi metodami kodowania, choµ we wszystkich warstwach kodery
dziel╣ sygna│ na ramki zawieraj╣ce po 384 pr≤bki - po 12 z ka┐dego z
32 podzakres≤w.
Layer 1 dzieli pasmo na podzakresy o tym samym rozrzucie
czΩstotliwo£ci, a model psychoakustyczny wykorzystuje tylko
maskowanie czΩstotliwo£ciowe. Layer 2 w filtrowaniu kieruje siΩ
trzema ramkami (razem 1152 pr≤bki): poprzedni╣, obecn╣ i nastΩpn╣,
wykorzystuje wiΩc trochΩ maskowania czasowego. Layer 3 wprowadza
nier≤wny rozdzia│ czΩstotliwo£ci w podzakresach (uwzglΩdnia r≤┐n╣
czu│o£µ ucha dla r≤┐nych czΩstotliwo£ci - z naciskiem na przedzia│ 2
do 4 kHz), u┐ywa zaawansowanego maskowania czasowego, redukuje
powtarzalno£µ sygna│≤w stereo (gdy oba kana│y maj╣ te same lub
bardzo podobne warto£ci w ni┐szym przedziale pasma, s╣ │╣czone w
jeden strumie±; cz│owiek nie wie, z jakiego kierunku rozchodz╣ siΩ
dƒwiΩki poni┐ej pewnej czΩstotliwo£ci, st╣d idea subwoofer≤w) i
u┐ywa znanego algorytmu kompresji Huffmana.
CO MA DLA NAS?
--------------
DziΩki kodowaniu Layer 3 mo┐emy skurczyµ dƒwiΩk CD do 12 razy bez
utraty jako£ci i przesy│aµ go z sensown╣ szybko£ci╣ (nawet 112
kbps). Co prawda por≤wnanie oryginalnego sygna│u z CD i jego wersj╣
MP3 w wiΩkszo£ci wypadk≤w wyraƒnie wskazuje ucinanie dƒwiΩk≤w
powy┐ej 16 kHz (wcze£niej s╣ one prawie identyczne), ale pocieszmy
siΩ, ┐e koder dzia│a tak, jak nasze ucho. Usuwa wiΩc to, co
zag│uszy│yby ni┐sze dƒwiΩki. Zdarzaj╣ siΩ jednak sytuacje, gdy
rzeczywi£cie koderowi brakuje bit≤w przy z│o┐onej muzyce, np.
symfonicznej i zniekszta│ca dƒwiΩk (pos│uchajcie plik≤w 128.mp3 i
256.mp3 z naszej p│yty). Testy ods│uchowe wykaza│y, ┐e dopiero przy
256 kbps eksperci nie mogli odr≤┐niµ pr≤bek MP3 od orygina│u z ta£m
DAT. Lecz kompresja 6:1 daje dwa razy wiΩksze pliki i jest zbyt
niska do transmisji na ┐ywo. Dlatego mimo wszystko MPEG Layer 3 jest
na razie najlepszy, choµ mo┐e zostaµ zdetronizowany przez nowe,
wydajniejsze formaty AAC i TwinVQ.
Na naszej p│ycie CD-ROM znajdziecie wszystkie najpopularniejsze
kodery i odtwarzacze standardu MP3. Kt≤re s╣ najlepsze? Kwestia
potrzeb i gustu. W przypadku odtwarzaczy wa┐nym kryterium jest
szybko£µ, czy raczej stopie± obci╣┐enia procesora. Pod tym wzglΩdem
kr≤luje WinPlay opracowany w Instytucie Fraunhofera. Ma jednak s│abe
funkcje interfejsu. TrochΩ wolniejszy, ale doskonale zaprojektowany
WinAMP ma najwiΩksz╣ rzeszΩ u┐ytkownik≤w w Internecie. Natomiast
najszybszym i jednocze£nie najlepszym w jako£ci dƒwiΩku odtwarzaczem
jest NAD 0.90 (gdy pisa│em ten artyku│, by│ jeszcze w fazie beta).
Kodery czy nak│adki?
--------------------
Kodery to zupe│nie inna historia. W zasadzie s╣ tylko trzy prawdziwe
kodery MP3, reszta to jedynie nak│adki, interfejsy graficzne do
nich. Przy kodowaniu (dokonuje siΩ tego z plik≤w wave; trzeba wiΩc
u┐yµ programu do zrzucania £cie┐ek audio z CD, np. WinDAC32) wa┐ny
jest czas procesu i jako£µ pliku wyj£ciowego. Gdy czas nie jest
istotny, warto kodowaµ z najwy┐sz╣ jako£ci╣ ("HQ") i do pasma 128
kbps. Ni┐sze warto£ci s╣ zdecydowanie szybsze (nawet kilkukrotnie),
lecz wtedy dƒwiΩk z pliku MP3 bΩdzie trochΩ "p│ywa│", jak na
kiepskim magnetofonie. Za najlepszy koder uwa┐any jest komercyjny
program MP3 Producer, pochodz╣cy tak┐e z Instytutu Fraunhofera.
Identyczny - czytaj: kradziony - kod zastosowano w MP3 Compressorze,
przez co program znikn╣│ z oficjalnych stron w Internecie, choµ
nadal │atwo go znaleƒµ (poszukajcie pliku o nazwie mp3compr09f.exe).
Darek Rzeƒnicki