home *** CD-ROM | disk | FTP | other *** search
/ PC World Komputer 1998 June B / Pcwk6b98.iso / Cdinst / Txt / MPEG3.TXT < prev    next >
Text File  |  1998-04-22  |  10KB  |  185 lines

  1. MP3 - mistrz iluzji
  2. ===================
  3.  
  4. Wielk╣  furorΩ w  Internecie robi  tajemniczy MP3.  Uwa┐any jest  za
  5. najlepszego kuriera  dƒwiΩku wysokiej jako£ci:  bije konkurent≤w sw╣
  6. szybko£ci╣ i  poziomem us│ug, a dziΩki  niewielkim rozmiarom wci£nie
  7. siΩ  wszΩdzie. W  rzeczywisto£ci to  mistrz iluzji:  nabiera nas tak
  8. subtelnie,  ┐e  zupe│nie  nie£wiadomie  poddajemy  siΩ jego urokowi.
  9. Przyjrzyjmy siΩ wiΩc z bliska panu MP3.
  10.  
  11. SKÑD PRZYBYWA?
  12. --------------
  13. Korzenie MP3  le┐╣ jeszcze w czasach  powstawania standardu p│yt CD.
  14. W≤wczas  postanowiono, ┐e  cyfrowy dƒwiΩk  bΩdzie rejestrowany  jako
  15. wierna kopia  sygna│u analogowego (czyli  naturalnego), ale tylko  w
  16. pa£mie do 20  kHz, bo wy┐szych dƒwiΩk≤w normalny  homo sapiens i tak
  17. nie s│yszy. To ograniczenie by│o  te┐ na rΩkΩ in┐ynierom, kt≤rzy nie
  18. musieli pracowaµ nad  zbyt skomplikowanymi uk│adami elektronicznymi.
  19. Dlaczego?
  20.  
  21. DƒwiΩk - jak ka┐de zjawisko - istnieje w pewnych wymiarach. Oceniamy
  22. jego g│o£no£µ  (fachowo: natΩ┐enie) i  wysoko£µ (czΩstotliwo£µ). Tak
  23. te┐  pokazuj╣  go  najczΩ£ciej  wykresy  -  jako  natΩ┐enie  pewnych
  24. czΩstotliwo£ci. »eby zamieniµ sygna│  analogowy na cyfrowy trzeba go
  25. pr≤bkowaµ:  podzieliµ na  jak najmniejsze,  r≤wne kawa│ki  (pr≤bki),
  26. zmierzyµ warto£µ ka┐dej takiej pr≤bki  wed│ug skali, a wynik pomiaru
  27. zapisaµ w postaci cyfrowej.
  28.  
  29. DƒwiΩk CD to 16-bitowe pr≤bki  wykonywane z czΩstotliwo£ci╣ 44,1 kHz
  30. dla ka┐dego kana│u z osobna. W jednej sekundzie powstaje wiΩc 1411,2
  31. kilobit≤w danych  (16*44,1*2), co daje  ok. 10 MB  na minutΩ utworu.
  32. Nie dziwne,  ┐e £cie┐ki audio CD  w postaci pliku wave  zajmuj╣ tyle
  33. miejsca, a ┐aden modem - nawet  ISDN 128 kbps - nie prze│knie takiej
  34. transmisji.
  35.  
  36. PO CO PRZYBYWA?
  37. ---------------
  38. P│yty  CD mia│y  wielk╣ wadΩ:  nie da│o  siΩ ich  zapisywaµ tak, jak
  39. kasety  czy dyskietki.  Powsta│ wiΩc  DAT -  ma│a kaseta  z ta£m╣ do
  40. zapisu  cyfrowego o  jako£ci  CD  lub lepszej  (wy┐sza czΩstotliwo£µ
  41. pr≤bkowania)  i jeszcze  wiΩkszej  pojemno£ci.  Lecz obawy  o masowe
  42. piractwo  uniemo┐liwi│y  zadomowienie  siΩ  tego  wynalazku. W≤wczas
  43. Philips rozpocz╣│  prace nad Digital Compact  Cassette (DCC), a Sony
  44. postawi│ na MiniDisc  (MD). Obie firmy za│o┐y│y, ┐e  ich no£niki nie
  45. zmieszcz╣ takiej  ilo£ci danych, jakiej wymaga  dƒwiΩk CD. Idea by│a
  46. prosta: upakowaµ  dane do maksimum, ale  bez utraty jako£ci sygna│u.
  47. Wydawa│o siΩ  to niemo┐liwe, lecz  z pomoc╣ przysz│a  niedoskona│o£µ
  48. ludzkiego ucha.
  49.  
  50. JAK OSZUKUJE?
  51. -------------
  52. Teoretycznie s│yszymy  dƒwiΩki z zakresu  od 20 Hz  do 20 kHz,  wiΩc
  53. p│yta  CD oferuje  nam pe│n╣  skalΩ dozna±.  Jednak w rzeczywisto£ci
  54. wiΩkszo£µ  ludzi jest  g│ucha na  wszystko powy┐ej  16-17 kHz,  choµ
  55. odczuwa wysokie dƒwiΩki samym m≤zgiem i cia│em (je£li nie wierzycie,
  56. weƒcie dowolny program do edycji audio typu Cool Edit, i w│╣czcie 17
  57. kHz). Na  dodatek ucho najlepiej reaguje  na pasmo 2 do  4 kHz (mowa
  58. mie£ci siΩ  w zakresie tzw.  pasma telefonicznego -  0,5 do 2  kHz).
  59. Pozosta│e dƒwiΩki trzeba bardziej wzmocniµ, by sta│y siΩ s│yszalne.
  60.  
  61. Dalsze badania ods│oni│y kolejne wady ludzkiego s│uchu. Gdy s│yszymy
  62. silny   dƒwiΩk,   blokuje   on   percepcjΩ   dƒwiΩk≤w   o   podobnej
  63. czΩstotliwo£ci,  lecz   mniejszym  natΩ┐eniu.  Musz╣   byµ  znacznie
  64. g│o£niejsze ni┐  to wynika z  normalnej charakterystyki ucha,  by£my
  65. mogli je wychwyciµ. Mocny dƒwiΩk  zwie siΩ maskuj╣cym, s│abszy za£ -
  66. maskowanym.  Zjawisko  maskowania  mo┐e  wystΩpowaµ  nie  tylko przy
  67. jednoczesnym  pojawieniu siΩ  dw≤ch  dƒwiΩk≤w  o r≤┐nym  natΩ┐eniu i
  68. podobnej  czΩstotliwo£ci.   Istnieje  ono  tak┐e   w  funkcji  czasu
  69. (ogranicza percepcjΩ innych dƒwiΩk≤w w nastΩpnych sekundach).
  70.  
  71. Wykorzystuj╣c   tΩ  psychoakustyczn╣   u│omno£µ  zmys│u,   stworzono
  72. kodowanie  podzakresowe  SBC,  kt≤rego  podstawowym  za│o┐eniem jest
  73. odrzucanie    wszystkich   zbΩdnych    informacji   o    maskowanych
  74. czΩstotliwo£ciach. A jako ┐e jest ich sporo, efekt kodowania okazuje
  75. siΩ   rewelacyjny.  Co   prawda  sygna│   wyj£ciowy  nie   odpowiada
  76. orygina│owi, ale ucho ludzkie tego nie rozr≤┐nia.
  77.  
  78. Og≤lny  algorytm  postΩpowania   koder≤w  jest  nastΩpuj╣cy:  sygna│
  79. wej£ciowy     zostaje    najpierw     podzielony    na    podzakresy
  80. czΩstotliwo£ciowe  dla danej  jednostki czasu  (po ludzku:  co jaki£
  81. czas branych  jest ile£ pr≤bek  pasma). Podzakresy por≤wnywane  s╣ z
  82. orygina│em  i na  podstawie analizy  modelu psychoakustycznego koder
  83. okre£la pr≤g s│yszalno£ci dla pr≤bki.  NastΩpnie ka┐da z pr≤bek jest
  84. kwantowana (zamieniana na postaµ cyfrow╣) tak, by s│owo j╣ opisuj╣ce
  85. by│o na tyle ma│e, ┐eby szum kwantowania nadal znajdowa│ siΩ poni┐ej
  86. progu  s│yszalno£ci. D│ugo£µ  s│owa uzyskuje  siΩ przez  podzielenie
  87. warto£ci  poziomu  stosunku  sygna│u  do  szumu  przez 6 (wspomniane
  88. wcze£niej r≤wnanie 1  bit kwantyzacji = 6 dB)  i zaokr╣glenie wyniku
  89. wzwy┐. Przyk│adowo,  je┐eli dƒwiΩk maskuj╣cy  ma 70 dB,  a maskowane
  90. przez niego dƒwiΩki  znajduj╣ siΩ poni┐ej poziomu 50  dB, to r≤┐nica
  91. wynosi  20  dB  i  jest  to   stosunek  sygna│u  do  szumu  w  danym
  92. podzakresie. B│╣d kwantowania w tym  podzakresie mo┐e wiΩc byµ du┐y,
  93. bo i tak szum zostanie zakryty dƒwiΩkiem maskuj╣cym. Do opisu pr≤bek
  94. wystarcz╣ wtedy 4 bity (20/6) zamiast 16, jak w CD.
  95.  
  96. Z gotowych  danych koder  formuje  strumie±,  dziel╣c go  na czasowe
  97. ramki, by dekoder siΩ nie  pogubi│. Dodatkowo umieszcza informacje o
  98. uk│adzie  bit≤w na  przestrzeni widma,  czyli w  kt≤rym miejscu  ile
  99. bit≤w  opisuje  pr≤bki.  Sam  dekoder  jest  prostszy, bo nie wymaga
  100. modelu  psychoakustycznego.  Rozpakowuje   jedynie  ramki,  dekoduje
  101. pr≤bki  z  podzakres≤w  i  mapowaniem  przywraca  do postaci sygna│u
  102. audio.
  103.  
  104. CZEMU TAKIE IMI╩?
  105. -----------------
  106. MP3 to wcale nie MPEG-3! Ten  skr≤t wzi╣│ siΩ jedynie z rozszerzenia
  107. plik≤w wΩdruj╣cych po Internecie. W rzeczywisto£ci nazwa wywodzi siΩ
  108. z MPEG-1 Layer 3. Zar≤wno standard  MPEG-1, jak i MPEG-2 zawieraj╣ 3
  109. warstwy  obs│ugi kana│≤w  audio:  najprostsz╣  i najstarsz╣  Layer 1
  110. (opracowan╣ g│≤wnie  z my£l╣ o DCC),  Layer 2 i Layer  3 (powsta│╣ w
  111. 1991  roku w  niemieckim  Instytucie  Fraunhofera). Im  wy┐szy numer
  112. warstwy,  tym   wiΩksza  kompresja  danych,  a   wiΩc  ni┐sze  pasmo
  113. transmisji i wielko£µ pliku wyj£ciowego. W Layer 1 kompresja sygna│u
  114. stereo CD  wynosi 4:1, wiΩc  dane wΩdruj╣ z  szybko£ci╣ 384 kbps.  W
  115. Layer 2  stopie± upakowania wzr≤s│  do 6:1...8:1, co  da│o 256...192
  116. kbps.  Layer  3  za£   to  najbardziej  zaawansowana  technologia  z
  117. kompresj╣  10:1...12:1  umo┐liwiaj╣c╣   transmisjΩ  128...112  kbps.
  118. Oczywi£cie wi╣┐e  siΩ to z  wiΩksz╣ moc╣ i  z│o┐ono£ci╣ koder≤w oraz
  119. odmiennymi metodami  kodowania, choµ we  wszystkich warstwach kodery
  120. dziel╣ sygna│ na ramki zawieraj╣ce po 384 pr≤bki - po 12 z ka┐dego z
  121. 32 podzakres≤w.
  122.  
  123. Layer  1   dzieli  pasmo  na   podzakresy  o  tym   samym  rozrzucie
  124. czΩstotliwo£ci,   a   model   psychoakustyczny   wykorzystuje  tylko
  125. maskowanie  czΩstotliwo£ciowe.  Layer  2  w  filtrowaniu kieruje siΩ
  126. trzema ramkami  (razem 1152 pr≤bki): poprzedni╣,  obecn╣ i nastΩpn╣,
  127. wykorzystuje  wiΩc trochΩ  maskowania czasowego.  Layer 3  wprowadza
  128. nier≤wny  rozdzia│ czΩstotliwo£ci  w podzakresach  (uwzglΩdnia r≤┐n╣
  129. czu│o£µ ucha dla r≤┐nych czΩstotliwo£ci - z naciskiem na przedzia│ 2
  130. do  4  kHz),  u┐ywa  zaawansowanego  maskowania  czasowego, redukuje
  131. powtarzalno£µ  sygna│≤w  stereo  (gdy  oba  kana│y  maj╣ te same lub
  132. bardzo  podobne warto£ci  w ni┐szym  przedziale pasma,  s╣ │╣czone w
  133. jeden strumie±;  cz│owiek nie wie, z  jakiego kierunku rozchodz╣ siΩ
  134. dƒwiΩki  poni┐ej  pewnej  czΩstotliwo£ci,  st╣d  idea subwoofer≤w) i
  135. u┐ywa znanego algorytmu kompresji Huffmana.
  136.  
  137. CO MA DLA NAS?
  138. --------------
  139. DziΩki kodowaniu  Layer 3 mo┐emy skurczyµ  dƒwiΩk CD do 12  razy bez
  140. utraty  jako£ci  i  przesy│aµ  go  z  sensown╣ szybko£ci╣ (nawet 112
  141. kbps). Co prawda por≤wnanie oryginalnego  sygna│u z CD i jego wersj╣
  142. MP3  w  wiΩkszo£ci  wypadk≤w  wyraƒnie  wskazuje  ucinanie  dƒwiΩk≤w
  143. powy┐ej 16  kHz (wcze£niej s╣ one  prawie identyczne), ale pocieszmy
  144. siΩ,  ┐e  koder  dzia│a  tak,  jak  nasze  ucho.  Usuwa  wiΩc to, co
  145. zag│uszy│yby  ni┐sze  dƒwiΩki.  Zdarzaj╣  siΩ  jednak  sytuacje, gdy
  146. rzeczywi£cie  koderowi  brakuje  bit≤w  przy  z│o┐onej  muzyce,  np.
  147. symfonicznej  i zniekszta│ca  dƒwiΩk (pos│uchajcie  plik≤w 128.mp3 i
  148. 256.mp3 z naszej p│yty). Testy  ods│uchowe wykaza│y, ┐e dopiero przy
  149. 256 kbps eksperci nie mogli odr≤┐niµ  pr≤bek MP3 od orygina│u z ta£m
  150. DAT.  Lecz kompresja  6:1 daje  dwa razy  wiΩksze pliki  i jest zbyt
  151. niska do transmisji na ┐ywo. Dlatego mimo wszystko MPEG Layer 3 jest
  152. na  razie najlepszy,  choµ  mo┐e  zostaµ zdetronizowany  przez nowe,
  153. wydajniejsze formaty AAC i TwinVQ.
  154.  
  155. Na  naszej  p│ycie  CD-ROM  znajdziecie  wszystkie najpopularniejsze
  156. kodery  i odtwarzacze  standardu  MP3.  Kt≤re s╣  najlepsze? Kwestia
  157. potrzeb  i  gustu.  W  przypadku  odtwarzaczy  wa┐nym kryterium jest
  158. szybko£µ, czy raczej stopie±  obci╣┐enia procesora. Pod tym wzglΩdem
  159. kr≤luje WinPlay opracowany w Instytucie Fraunhofera. Ma jednak s│abe
  160. funkcje interfejsu. TrochΩ  wolniejszy, ale doskonale zaprojektowany
  161. WinAMP  ma najwiΩksz╣  rzeszΩ u┐ytkownik≤w  w Internecie.  Natomiast
  162. najszybszym i jednocze£nie najlepszym w jako£ci dƒwiΩku odtwarzaczem
  163. jest NAD 0.90 (gdy pisa│em ten artyku│, by│ jeszcze w fazie beta).
  164.  
  165. Kodery czy nak│adki?
  166. --------------------
  167. Kodery to zupe│nie inna historia. W zasadzie s╣ tylko trzy prawdziwe
  168. kodery  MP3, reszta  to  jedynie  nak│adki, interfejsy  graficzne do
  169. nich. Przy kodowaniu  (dokonuje siΩ tego z plik≤w  wave; trzeba wiΩc
  170. u┐yµ programu do  zrzucania £cie┐ek audio z CD,  np. WinDAC32) wa┐ny
  171. jest  czas procesu  i jako£µ  pliku wyj£ciowego.  Gdy czas  nie jest
  172. istotny, warto  kodowaµ z najwy┐sz╣  jako£ci╣ ("HQ") i  do pasma 128
  173. kbps. Ni┐sze warto£ci s╣  zdecydowanie szybsze (nawet kilkukrotnie),
  174. lecz  wtedy  dƒwiΩk  z  pliku  MP3  bΩdzie  trochΩ  "p│ywa│", jak na
  175. kiepskim  magnetofonie. Za  najlepszy koder  uwa┐any jest komercyjny
  176. program  MP3  Producer,  pochodz╣cy  tak┐e  z Instytutu Fraunhofera.
  177. Identyczny - czytaj: kradziony - kod zastosowano w MP3 Compressorze,
  178. przez  co program  znikn╣│ z  oficjalnych stron  w Internecie,  choµ
  179. nadal │atwo go znaleƒµ (poszukajcie pliku o nazwie mp3compr09f.exe).
  180.  
  181.                                                 Darek Rzeƒnicki
  182.  
  183.  
  184.  
  185.