Nemški profesor akustike Eberhard Zwicker je vrsto let preučeval načine, kako ljudje zaznavamo zvoke. Po mnogih eksperimentih je prišel do pomembnega spoznanja: človeško uho ne deluje po enakih načelih kot mikrofon. Je čutilo, ki se je skozi evolucijo posebej prilagodilo za razumevanje govora in zaznavanje nevarnosti v naravi, zato je zelo učinkovito pri razumevanju pogovora v hrupnem okolju, nikakor pa ni univerzalni senzor, ki bi bil enako dober za zaznavanje vseh vrst zvoka.
Zwicker je s poskusi ugotovil, da lahko ljudje razlikujemo dva različno visoka tona le, če sta medsebojno dovolj narazen. Ko je njuno frekvenco izenačeval, ju testni poslušalci od neke meje naprej niso več razločili, učinek pa je bil večji, če je bil nižji ton glasnejši. Podoben pojav je zaznal tudi pri zaporedju klikov ali udarcev. Če si klika sledita dovolj hitro, ju poslušalci ne razločijo, pri čemer razlika v njuni jakosti potencira učinek.
Zwickerjev študent in računalniški inženir Dieter Seitzer je ob razmišljanju o tovrstnih posebnostih človeškega sluha, ki so jih poimenovali psihoakustično maskiranje, prišel na idejo, da bi jih lahko uporabili za krčenje podatkov pri digitalnem zapisu zvoka. Če bi znali odstraniti le tiste podatke, ki jih človeško uho ne more zaznati, bi bil zapis krajši, hkrati pa nihče ne bi opazil, da karkoli manjka.
Ko so leta 1982 za zapis zvoka uvedli zgoščenke oziroma CD-plošče, se je zdelo, da gre za velikanski napredek tehnologije, a Seitzer ob tem ni bil pretirano navdušen, saj je bil prepričan, da bi večino podatkov z zgoščenk lahko mirno zbrisali, ne da bi poslušalec to sploh opazil. Zapis na zgoščenkah porabi za sekundo stereo zvoka približno 1,4 milijona bitov podatkov, Seitzer pa je bil prepričan, da bi lahko primerljivo kakovost dosegli tudi s hitrostjo zapisa zgolj 128.000 bitov na sekundo. Za realizacijo te ideje pa je potreboval pomoč. Našel jo je v mladem študentu elektrotehnike Karlheinzu Brandenburgu, ki je kmalu tudi prevzel vodenje projekta iskanja algoritma za učinkovito stiskanje zvočnih posnetkov.
Brisanje nepomembnih podatkov v zapisu zvoka
Pri digitalnem zapisu zvoka moramo posnetek najprej razbiti na osnovne elemente, ki si jih lahko predstavljamo kot nekakšne zvokovne verzije digitalnih pik, iz katerih je sestavljena slika na računalniškem zaslonu. Brandenburg si je zadal nalogo, da na osnovi spoznanj psihoakustike iz digitaliziranega zapisa odstrani tiste »zvokovne pike«, ki za človeško uho niso pomembne.
Ker je človeški sluh najboljši v obsegu frekvenc, ki približno ustrezajo človeškemu govoru, je najprej ugotovil, da lahko natančnost zvokovnih pik zmanjša pri zelo visokih in zelo nizkih frekvencah. Prav tako lahko za zvoke, ki so po višini blizu drug drugemu, manj pik nameni tistim, ki so malenkost višji, saj nižji pri zaznavi prevladajo. Ker človeško uho filtrira hrup, ki sledi glasnemu poku, lahko manj natančno zapiše podatke o zvokih, ki mu neposredno sledijo. Presenetljivo se je izkazalo, da človeško uho ne upošteva niti zvokov nekaj trenutkov pred glasnim pokom, ker potrebuje uho nekaj časa za njihovo analizo, ki pa jo glasni pok prekine, zato lahko manj podatkov nameni tudi zvokom nekaj trenutkov pred glasnim dogodkom.
Brandenburg je opravil veliko poskusov, da je ugotovil, katere zvokovne točke lahko izbriše, ne da bi se izgubila kvaliteta posnetka. Po dolgotrajnih raziskavah mu je uspelo formulirati matematična pravila za stiskanje zvočnih podatkov, ki jih je lahko večkrat zaporedno apliciral na isti posnetek. Leta 1986 je vložil patent za psihoakustično kompresijo zvoka, kmalu zatem pa so ga kot raziskovalca povabili na Fraunhoferjev inštitut, ki je veljal za velik od države sponzoriran inkubator tehnološkega razvoja, v katerem so razvijali nove tehnologije in produkte. Na inštitutu je spoznal mladega programerja in hkrati izvrstnega glasbenika Bernharda Grilla, ki mu je uspelo njegove matematične formule pretvoriti v učinkovit računalniški algoritem, tega pa so nato s testnimi poslušalci še dolgo časa izpopolnjevali.
Junija 1990 je bil algoritem stiskanja zvoka že dovolj dober, da so se odločili sodelovati na natečaju mednarodnega združenja strokovnjakov za digitalni zapis zvoka in videa Moving Picture Experts Group (MPEG), ki potrjuje univerzalne standarde za digitalno kodiranje. Na srečanju združenja v Stockholmu je testna skupina mladih švedskih študentov in študentk dvojno slepo poslušala testne vzorce različnih skladb in zvokov, zakodiranih v formatih, ki so jih pripravili po različnih algoritmih.
Rezultati so marsikoga presenetili, saj so testi kot najboljša izpostavili dva algoritma: Brandenburgovega in izdelek konzorcija MUSICAM, za katerim je stala tovarna Philips. Komisija se je nato še več mesecev odločala, katere standarde naj predlaga v splošno uporabo. Ob tem je bilo pomembno, da je Brandenburg s svojim algoritmom enako kakovost zvoka dosegel z manj ohranjenimi podatki oziroma z manjšo datoteko kot konkurenca, vendar je za kodiranje potreboval več računalniške procesorske moči.
Na koncu so MPEG-u predlagali kompromis. Kot standard bodo poleg izdelka konzorcija MUSICAM predlagali tudi algoritem Fraunhoferjevega inštituta, a le pod pogojem, da v svoj program dodajo tudi dodatek (banko zvočnih filtrov), za katerega ima patent Philips. Ker dodatek algoritma ni izboljšal, ampak ga je nasprotno poslabšal, saj je zdaj potreboval še več procesorske moči, je šlo pri »kompromisu« očitno za zakulisna lobiranja oziroma neformalne pritiske močnega podjetja na komisijo strokovnjakov.
Vendar je inštitut Fraunhofer po intenzivni interni razpravi na dodatne pogoje vseeno pristal, zato je konzorcij MPEG aprila 1991 razglasil tri standarde, ki jih predlaga za uporabo: MPEG Audio Layer I se je kratek čas uporabljal na digitalnih kasetah, a je hitro zamrl; MPEG Audio Layer II je algoritem konzorcija MUSICAM, ki ga poznamo tudi kot mp2; Brandenburgova metoda pa je dobila oznako MPEG Audio Layer III ali popularno mp3.
Nenavadne poti uveljavljanja novih tehnologij
Žal pa se, kljub podpori konzorcija MPEG, standard mp3 nikakor ni prijel pri nobeni od novih aplikacij. Vsi po vrsti, digitalni radio, interaktivni CD-ROM, VCD, HDTV in drugi so raje izbrali standard mp2. Inženirji so vedno znova pojasnjevali, da mp3 zahteva preveč procesorske moči, kar je bilo delno posledica tudi tega, da so morali pod prisilo vanj vgraditi še nepotrebno Philipsovo tehnologijo. Čeprav so pri izpopolnjevanju algoritma mp3 leta 1994 dosegli kar dvanajstkratno krčenje pri zelo dobro ohranjeni kakovosti zvoka, jim tudi to ni pomagalo, da bi jih leta 1995 izbrali vsaj za standard zapisa zvoka na DVD-jih.
Kot ugotavlja Stephen Witt v knjigi How Music Got Free: The End of an Industry, the Turn of the Century, and the Patient Zero of Piracy (Viking 2015), so bili internetni glasbeni pirati tisti, ki so prvi dojeli potencial mp3-tehnologije in jo popularizirali. Ko so bili izumitelji formata mp3 že povsem obupani, da jim bo sploh kdaj uspelo prodati svoj izdelek, so poskusili srečo še neposredno pri končnih uporabnikih. Naredili so preprost zastonjski program, s katerim je lahko vsakdo doma svojo glasbeno zbirko pretvoril v mp3-datoteke, ki jih je nato poslušal kjerkoli. To početje prva leta niti ni bilo tako preprosto, saj so bili denimo leta 1993 šele Intelovi procesorji pentium na domačih računalnikih dovolj zmogljivi, da so lahko brez zatikanja predvajali glasbo v mp3-obliki. Kodiranje je bilo takrat še izjemno počasno, saj je pentium za pretvorbo enega CD-ja v mp3-datoteke potreboval kar šest ur. Vendar se je format mp3 med poslušalci glasbe na računalnikih hitro prijel in postal skorajda sinonim za digitalni zapis zvoka.
Sredi devetdesetih je ekipa, ki je ustvarila standard mp3, začela razvijati nov psihoakustični kodirni sistem druge generacije, ki naj bi bil hitrejši, preprostejši in še bolj učinkovit. Poimenovali so ga Advanced Audio Coding (AAC), kasneje pa je postal poznan po oznaki mp4 ali m4a. Danes je večina digitalne glasbe, zvoka in filmov zakodirana prav v tem psihoakustičnem sistemu druge generacije.
Če bi uporabniki sledili le kvaliteti, bi mp3-format izumrl že leta 1996, saj je bil njegov naslednik AAC bistveno boljši. Vendar so se tudi tvorci mp3-formata v letih zavrnitev in razočaranj naučili nekaj podjetniških veščin. Ko so množice enkrat posvojile format mp3, se v to niso več vtikali in so raje pobirali licenčnino. AAC so sprva uporabljali pri telefonih, televiziji visoke ločljivosti in raznih novih aplikacijah, pri poslušanju glasbe v datotekah pa je dolga leta kraljeval prav format mp3.
Brez učinkovitega stiskanja podatkov, ki temelji na sistematičnem izločanju vsega, česar človeško uho ne more zaznati, ne bi prišlo do revolucije v načinih poslušanja in hranjenja glasbe, ki smo ji priča zadnja leta. Ob tem je zanimiv podatek, da je idejni oče psihoakustičnega stiskanja podatkov Dieter Seitzer že pred mnogimi desetletji vložil patent za idejo, da bi glasbo proti plačilu članarine poslušali na daljavo preko mrežnih povezav z osrednjega računalnika, kjer bi bili shranjeni vsi zapisi. Patentni uradniki so ga takrat zavrnili z argumentom, da ideja v praksi ni izvedljiva, ker glasbe ni mogoče stisniti v dovolj majhne datoteke, ki bi jih bilo mogoče sproti med poslušanjem prenašati na daljavo.