01   >   komunikace   >   MP3 zní skv∞le!
 

Autor: Ivan Dole₧al


Kvalitní zvuk býval ve sv∞t∞ PC spíÜe popelkou, ne₧ se na Internetu objevily malé zvukové soubory a v nich skv∞le zn∞jící nahrávky. KoneΦn∞ technologie, kterou vyvinuli profesionálové! Její principy jsou základem v∞tÜiny moderních kompresních standard∙ typu RealAudio. Poj∩te si o ní p°eΦíst n∞co víc.
Kde se vzal, tu se vzal, objevil se...
Není pravda, ₧e poΦítaΦe um∞jí jenom Ame-riΦané, Japonci a Rusové. Evropa dala poΦítaΦ∙m teoretické základy, vyrobila domácí ZX Spectrum, fanouÜkovský operaΦní systém Linux a práv∞ kompresi MP3. Posledn∞ zmín∞ná vznikla v rámci profesionálního projektu digitálního rozhlasu EUREKA EU147, znám∞jÜího spíÜe jako Digital Audio Broadcasting, ji₧ v roce 1987 (!) v rámci spolupráce Ústavu integrovaných obvod∙ akciové spoleΦnosti Fraunhofer s Erlangenskou univerzitou v N∞mecku (i kdy₧ p°i proΦítání seznamu spolupracovník∙ zjistíte, ₧e i Asiaté se zde dosti vydovád∞li).
Vzniklá komprese byla akceptována jako dostateΦn∞ kvalitní algoritmus pro kompresi zvuku organizací Motion Picture Experts Group (MPEG), která pracuje pod záÜtitou ISO a IEC. Tato organizace se ji₧ p°edtím zabývala jinými podobnými algoritmy pro své formáty MPEG-1 a MPEG-2 pro p°enos komprimovaného ozvuΦeného obrazu (za tyto standardy obdr₧ela v r. 1996 presti₧ní americkou televizní cenu Emmy). Ji₧ d°íve na stejných principech vznikly formáty pro kompresi zvuku Audio Layer I a Audio Layer II a jejich zdokonalením se teprve objevil Audio Layer III ("audio layer" = "zvuková vrstva"). Odtud tedy MP3. Pod t∞mito oznaΦeními byly komprese p°evzaty i do norem ISO (nap°. ISO-MPEG Audio Layer-3). Jsou pochopiteln∞ p°edm∞tem zájmu presti₧ních mezinárodních profesních spoleΦností jako Audio Engineering Society.
...soubor rozhodn∞ menÜí ne₧ váÜ b∞₧ný WAV,...
Kdy₧ budete zaznamenávat a ukládat zvuk b∞₧ným programem a technologií pou₧ívanou na souΦasných audio CD, vyprodukujete ka₧dou sekundu práv∞ 88 200 Üestnáctibitových Φísel, která popisují dva zvukové kanály (tedy zpravidla stereo). Ka₧dé Φíslo °íká, jaké nap∞tí by se m∞lo objevit v dané 1/44100 sekundy na výstupu Φíslicov∞ analogového p°evodníku ve vaÜí zvukové kart∞. Prostou násobilkou zjistíte, ₧e vyprodukujete konstantní datový proud (bitstream) 1 411 200 bit∙/s (1,34 Mb/s), bez ohledu na to, p°enáÜíte-li ticho nebo death metal. A to je pon∞kud luxus. MPEG ustavil formáty, které p°ináÜejí výrazné zlepÜení, a to se jeÜt∞ p°izp∙sobují skuteΦné informaΦní hustot∞ p°enáÜeného signálu, tak₧e následující hodnoty jsou pouze p°ibli₧né: pro Layer I (který se vyno°il ze tmy p°ed n∞kolika lety v tzv. Digital Compact Cassette firmy Philips, a spolu s ní op∞t zmizel z mého obzoru) se udává jako dostaΦující datový proud pro zachování kvality srovnatelné poslechem s CD cca 384 Kb/s, pro Layer II 192-256 Kb/s a pro Layer III dokonce jenom 112-128 Kb/s. Hovo°íme tedy jenom asi o jedné dvanáctin∞ p∙vodního objemu! A pokud chceme p°enáÜet lidský hlas a jde nám pouze o zachování základní srozumitelnosti (a samoz°ejm∞ v monofonním provedení), vystaΦíme si s asi 8-16 kb/s (tj. a₧ 1 : 96 oproti "monofonnímu CD", abychom srovnávali srovnatelné). Této kompresi se neoficiáln∞ °íká MPEG 2,5.
Datovému proudu se navíc p°i kódování/dekódování p°izp∙sobí podle definic MP3 i re₧im mono/stereo a výsledná Üí°ka pásma
p°i p°ehrávání viz tabulka. P°ipomínám, ₧e ideální lidské ucho vnímá kmitoΦtový rozsah 20-20 000 Hz, s v∞kem tato hranice rychle klesá, tak₧e dneÜní padesátníci slyÜí u₧ Φasto jen do cca 12 kHz. A jeÜt∞ dva p°íklady pro srovnání: Φasové znamení ╚eského rozhlasu p°edstavuje 6 pípnutí o frekvenci 1 kHz. SouΦasné VKV rozhlasové vysílání ve stereu je z d∙vodu kódování p°enosu stereofonní sm∞rové informace zám∞rn∞ kmitoΦtov∞ omezeno tak, aby nep°enáÜelo zvuk do více ne₧li 15 kHz.
Dodávám, ₧e tyto audio layery byly p°eneseny a dovybaveny ve formátu MPEG-2, který "umí" a₧ 5 audiokanál∙ pro vytvo°ení lepÜího prostorového dojmu + 1 spoleΦný "nízkokmitoΦtový" LFE (low frequency enhancement Φlov∞k neumí rozeznat, odkud k n∞mu p°icházejí velmi hluboké kmitoΦty, proto p°íliÜ nezále₧í na tom, odkud je pouÜtíte, ale jestli na to máte vhodný, zpravidla v∞tÜí reproduktor) místo pouhého dvoukanálového sterea, a na druhou stranu p°ipouÜtí i velmi nízkou kvalitu zvuku za cenu nízkého datového proudu.
...kvalitn∞jÜí ne₧ p°edchozí kompresní metody,...
Zatímco se pracovalo na kompresních technologiích, ze kterých vzeÜly tyto layery, existovaly i r∙zné jiné sm∞ry vývoje. Ve své dob∞ poslou₧ily, ale milovníci dobrého zvuku by od nich m∞li dát rad∞ji ruce dál. Komprese spoΦívala v tom, ₧e místo aby se p°enáÜela celá Üestnáctibitová slova, vysílala se pouze hrubá informace typu "následující hodnota vzorku je o n v∞tÜí/menÜí ne₧li p°edchozí". N∞kdy tyto komprese ani neudávaly, o kolik se nová hodnota liÜí proti staré a p°edpokládalo se, ₧e v₧dy o 1, p°ípadn∞ o r∙zné Cimrmanovy konstanty. Fungování t∞chto kompresí ve sv∞t∞ PC je nevalné. Zvuk zní zpravidla zkreslen∞, vÜelijak prská a Üumí a kupodivu, pokud by m∞ly tyto komprese hrát opravdu p∞kn∞, nep°ináÜejí úsporu v∞tÜí ne₧ 1 : 2. Jejich poz∙statky najdete mo₧ná stále jeÜt∞ ve svých Windows, kdy₧ v Ovládacím panelu kliknete na polo₧ku Multimédia, na kartu Up°esnit a otev°ete slo₧ku Kodeky pro kompresi zvuku. Pak vzdejte tichý hold dílk∙m jako Kodek ADPCM (Kodér/dekodér adaptivní delta pulzn∞ kódované Modulace to je obecný terminus technicus pro jeden z princip∙, o kterých zde píÜi) firmy Microsoft, a pak potichu doufejte, ₧e u₧ jej nebudete nikdy pot°ebovat.
...a na zcela jiném principu.
Lidské ucho je, podobn∞ jako oko, pom∞rn∞ nedokonalý orgán. Pozorování na pokusných králících, pardon, posluchaΦích, ukázala, ₧e kdy₧ souΦasn∞ zn∞jí dva tóny jeden siln∞jÜí a jeden slabÜí, a jsou si kmitoΦtov∞ velmi blízko, ucho rozezná pouze jeden z nich (frequence masking). Uchu dokonce n∞jakou chvíli trvá, ne₧ je op∞t schopno zaΦít vnímat onen slabÜí zvuk, i kdy₧ siln∞jÜí u₧ dozn∞l (temporal masking). U r∙zných dvojic kmitoΦt∙ ucho reaguje jinak i provedly se rozsáhlé pokusy a vytvo°ily se tabulky, které popisují "pr∙m∞rné ucho". Podle nich pak vznikly r∙zné psychoakustické modely (Musicam, AT&T), které popisují, co vÜechno lze zahodit, aby se hodn∞ uÜet°ilo a jen málo to vadilo.
P°estaneme tedy uva₧ovat o zvuku tak, ₧e bychom jej popisovali jako n∞jaké vzorky v Φase. Rozsekáme zvuk na krátké úseky v délce °ádov∞ desítek milisekund ("granule") a v nich pak pomocí matematických metod (zpravidla diskrétních transformací) rozeznáme v p°edepsaných 32 kmitoΦtových pásmech, jak silná je pro tu chvíli skupina zvuk∙ té které výÜky. Tím dostaneme informaci ve frekvenΦní domén∞. Takto vytvo°ené údaje vyhodnotíme a odstraníme z nich ta data, která posluchaΦovo ucho nebude bez náhrady pot°ebovat. Výsledek výpoΦt∙, jen₧ by m∞l být "°idÜí", budeme chápat jako bitové pole, na n∞₧ nasadíme Huffmanovo kódování (algoritmus pro bezeztrátovou kompresi dat; n∞co podobného, jako kdy₧ komprimujete pomocí ARJ), výsledek zabezpeΦíme protichybovým kódem CRC a prokládáme synchronizaΦními slovy, která umo₧≥ují dekodér∙m zorientovat se i v náhodn∞ roztrhaných kouscích soubor∙ viz rozhlasová minulost soubor∙: takto lze zaΦít p°ijímat bitový proud v libovolném okam₧iku vysílání, ale také synchronizovat zvuk s obrazem.
Mezi synchronizaΦní slova a data vkládáme "hlaviΦku", která obsahuje informace podobné t∞m, je₧ jsou v datových stopách klasického audio CD jako "Toto je copyrighted material.", "Toto je kopie souboru.", "mono / stereo / joint-stereo / dual zvuk". Najdeme zde pochopiteln∞ bity udávající správnou rychlost reprodukce podle standardizované tabulky, i informaci, zda je na zvuk aplikováno "preemphasis" výrazné zd∙razn∞ní vysokých kmitoΦt∙ v nahrávce. To-to bývá aplikováno i u b∞₧ných CD proto, aby se mírn∞ zdokonalil odstup signál/Üum v reprodukΦním za°ízení po D/A p°evodu a zpracování v analogové Φásti by m∞lo být jednoduchým prvkem v p°ehrávaΦi toto zd∙razn∞ní op∞t potlaΦeno (deemphasis). (Mimochodem, je docela dob°e mo₧né, ₧e pokud jste si zvuk z takového CD p°ekopírovali pomocí vhodné CD--ROM jednotky digitální cestou do souboru WAV prost°ednictvím vhodného softwaru, patrn∞ te∩ máte od zlomové frekvence 3,2 kHz zd∙razn∞né výÜky v nahrávce.) Výsledek práce pak odbavujeme jako rámce (frames) datového proudu.
Podrobné vysv∞tlování fungování algoritm∙ komprese Φi rozdíl∙ mezi jednotlivými layery by bylo pom∞rn∞ nároΦné a patrn∞ p°ísluÜí spíÜe jiným Φasopis∙m a Φtená°∙m, kte°í se váÜniv∞ kochají brilantními matematickými znalostmi. Ve výsledku lze ale °íci, ₧e Layer I p°i zpracování slot∙ nedbá d∙sledn∞ na okolí granulí, a nedoká₧e tak p°i redukci vyu₧ít temporal masking. Layer III oproti p°edchozím layer∙m pou₧ívá navíc modifikovanou diskrétní kosinovou transformaci (abych p°ilo₧il alespo≥ n∞co v∞dy) pro vylepÜení frekvenΦního rozliÜení. Dosahuje 18x lepÜího frekvenΦního rozliÜení oproti Layeru II a potlaΦí tak kvantizaΦní zkreslení. Entropickým kódováním sní₧í redundanci dat. Doká₧e také lépe redukovat objem dat u "joint-stereofonního" signálu (stereo s velmi podobným signálem v obou kanálech) zohled≥ováním obsahu obou kanál∙ p°i zpracování. A s pomocí "bitového rezervoáru" lépe oÜet°í artefakty p°i kritických zm∞nách zvuku. Znalci videokompresí JPEG v∞dí, o Φem píÜi.
Nevýhodou kompresí je zpo₧d∞ní, které vytvá°ejí kodeky v praxi je to u kodek∙ Layeru III zhruba 150 ms a více, co₧ v n∞kterých p°ípadech (p°ímé p°enosy) m∙₧e p°ináÜet u₧ivatel∙m problémy, které musejí být kompenzovány zpo₧∩ovacími linkami.
8 0716/JL

MPEG je ambiciózní, a urΦit∞ bude zajímavé alespo≥ prob∞hnout jeho standardy:

- MPEG-1 °eÜí problém synchronizace datových proud∙ pro obraz a zvuk. Standardizuje zp∙sob kódování videosekvencí vhodný pro evropskou i americkou televizi s datovým proudem kolem 1,5 Mb/s pomocí diskrétní kosinové transformace s kauzální a nekauzální predikcí pohybu v obraze. Dále standardizuje
zp∙sob audiokódování (viz p°edchozí text). Popisuje, jak ov∞°it správnost implementace t∞chto postup∙, a jako neve°ejnou Φást standardu obsahuje plnou softwarovou implementaci kodeku.
- MPEG-2 vychází ze standardu MPEG-1, ale Φiní tento standard vÜeobecn∞ji pou₧itelným. P°ichází nap°íklad s p°enosem prostorového obrazu Multiview, Φi s vícekanálovým zvukem. A popisuje protokol pro zpracování datových proud∙ technologií server/klient v heterogenních sítích.
- MPEG-3 neexistuje! Zd∙raz≥uji to jeÜt∞ jednou, abych vyko°enil zab∞haný omyl ve vysv∞tlování zkratky "MP3".
- MPEG-4, který by m∞l být p°ijat v prosinci r. 1998, bude popisovat tzv. media objects multimediální formáty vhodné pro objekty vzniklé snímáním nebo um∞lým vytvá°ením. Bude té₧ popisovat optimální technologické postupy pro skládání t∞chto objekt∙. Bude se zabývat multiplexem a synchronizací dat, reprezentujících tyto objekty tak, aby mohly být p°enáÜeny po rozsáhlých sítích, a bude popisovat standardní technologické postupy pro °eÜení interakce mezi objektem a u₧ivatelem (má ambice zavést k tomu nový protokol DMIF, který jakoby konkuroval a zárove≥ rozÜi°oval HTTP). K p°enosu zvuku po sítích se staví Φelem zavád∞ním nových algoritm∙ CELP (6-24 Kb/s) speciáln∞ pro mluvené slovo a AAC a TwinVQ pro obecný signál se vzorkovacími frekvencemi od 8 kHz a kvalitou srovnatelnou se st°edovlnným rozhlasem.
Standard, který je pom∞rn∞ objemný, má jeÜt∞ mnoho dalÜích sm∞lých ambicí (v audiooblasti jeÜt∞ nap°. jazyk pro syntézu zvuku SAOL nebo "Text-To-Speech") a za jeden z d∙le₧itých cíl∙ si rovn∞₧ klade výrazné zkomplikování nelegálního Üí°ení materiál∙ chrán∞ných autorskými právy po sítích.
- MPEG-7 "Multimedia Content Description Interface" by m∞lo být v budoucnu standardizované rozhraní postavené nad MPEG-1,
-2 a -4, které by pomocí zvláÜtního jazyka (Description Definition Language) umo₧≥ovalo hledacím stroj∙m identifikovat multimediální objekty tak, aby je bylo mo₧no organizovat, t°ídit a prohledávat.

Download!
Myslím, ₧e v∞dy u₧ asi bylo dost, a proto vás odká₧u na trochu praxe. Domnívám se, ₧e k p°ehrávání soubor∙ MP3 je dnes asi nejoblíben∞jÜí velmi elegantní sharewarový program WinAmp a jeho freewarové imitace, pokud máte pomalejÜí poΦítaΦ (486), osv∞dΦí se vám mo₧ná lépe ovládáním pon∞kud t∞₧kopádný program WinPlay3. Tento algoritmus je dokonce poskytován pro ukládání i samotným Microsoftem ale v omezené mí°e, kterou poskytuje program Záznam zvuku, s nekompatibilní koncovkou WAV a s n∞kterými netypickými formáty, s nimi₧ pak má WinAmp potí₧e. K vytvá°ení MP3 z p°ipravených soubor∙ WAV tedy poslou₧í lépe MP3 Compressor a ke stahování zvuku digitální cestou z CD (tzv. grabbing) je s oblibou vyu₧íván program CD Copy. V této souvislosti pochopiteln∞ upozor≥uji na platnou právní úpravu, která uvádí, ₧e z "copyrighted" materiálu si smíte po°ídit pouze jednu kopii pro vlastní pot°ebu (tak₧e chcete-li mít nap°íklad v práci sbírku vaÜí oblíbené hudby a nechcete-li si s sebou neustále p°evá₧et svá CD, která máte doma, vy°eÜte to MP3 na vaÜem osobním poΦítaΦi). Na záv∞r tedy snad jen dv∞ výmluvná URL, na nich₧ najdete snadno vÜe pot°ebné: www.mp3.com a www.mp3.cz. Dobrý poslech!