Care este mai bine 128 sau 320 kbit. Cele mai comune concepții greșite despre audio digital. Ce compresie este folosită în mod obișnuit?

03.05.2022 Interesant

V-ați întrebat vreodată ce se pierde exact la comprimarea de la lossless la mp3 128 kbps sau 320 kbps?
Am verificat și rezultatul mi s-a părut interesant. În primul rând, vă sugerez să faceți un sondaj pentru a înțelege singur dacă auziți vreo diferență. Dacă nu ești sigur ce auzi sau ești sigur că nu auzi, atunci îți aduc în atenție o idee simplă și elegantă: trebuie să iei și să împingi cu fruntea două unde sonore, dintre care una va fi în antifază, respectiv, la mixarea a două piese, ceea ce se va auzi predominant este că nestins. Nu promit încă grafice interesante, dar puteți auzi singur pe sistemul dvs. ce sunete s-au pierdut în timpul compresiei de la flac la mp3 128\320 kbps, arhivă cu exemple la sfârșitul articolului.
Studiu
Trebuie să descărcați și să ascultați 12 piese a câte 30 de secunde fiecare. Apoi specificați pentru fiecare dintre cele 4 melodii una dintre cele 3 opțiuni (128 kbps, 320 kbps sau lossless).
Sondajul este anonim, dar puteți să specificați un hash unic și să mi-l spuneți sau, în ultimă instanță, să vă publicați părerea aici, dar asigurați-vă că folosiți un spoiler. Sondajul va dura până pe 25 februarie, după care voi publica cheia și statisticile.
Fișiere pe Yandex Disk, oglindă pe Dropbox (~80Mb).
Datele inițiale
The Black Keys - Everlasting Light (flac, 44100 Hz, 24-Bit, 1613 kbps), disponibil la Youtube.
Ludovico Einaudi - Drop (flac, 96000 Hz, 24-Bit, 2354 kbps), disponibil pe Yandex Music.
CC Coletti - Rock and Roll (flac, 192000 Hz, 24-Bit, 4845 kbps), disponibil la Youtube.
Annihilator - Ultra-motion (flac, 44100 Hz, 16-bit, 1022 kbps), disponibil la Youtube.
opțiuni de conversie mp3
44,1 kHz, stereo, 128 kbps sau 320 kbps
Descrierea experimentului
Fișierele sursă sunt tăiate în bucăți de câte 10 secunde fiecare, fiecare bucată este exportată în wav. După importarea pieselor rezultate, 2 secunde de tăcere și un al doilea semnal de ton sunt adăugate la începutul fiecăreia, apoi convertite în mp3. După importarea fișierelor mp3, se dovedește că, în raport cu originalul, fișierul rezultat a „mers înainte”. Acesta nu este un bug, este. Sincronizăm cu un anumit semnal de ton din original (am încercat mai multe valori pentru fiecare fișier mp3, pe care ulterior l-am rafinat la cel mai bun rezultat), scăpăm de semnalul de ton, tăcem și exportăm piesele rezultate în wav. Acum tot ce rămâne este să inversezi piesele pentru a obține vârfuri multidirecționale și să le amesteci cu originalul.
Rezultat
Nu voi descoperi America... Da, există o diferență. Da, mai ales când este comprimat la 128 kbps. Da, depinde de muzica. Da, chiar mai mult din calea audio.
Puteți trage propria concluzie și puteți auzi diferența descărcând fișierele pe

Rata de biți este indicată ca una dintre principalele caracteristici ale înregistrărilor video și audio. Majoritatea utilizatorilor sunt obișnuiți să creadă că aceasta determină calitatea fișierului descărcat. Dar ce sunt ratele de biți și cum se caracterizează de fapt fișiere muzicale si videoclipuri? Să ne uităm la asta mai detaliat.

Ce sunt ratele de biți?

Bitrate este o valoare care afișează numărul de unități de informații (megabiți sau kilobiți) conținute într-o secundă de redare a fișierului. În consecință, se măsoară în megabiți pe secundă (Mbps) sau kilobiți pe secundă (Kbps). În caz contrar, rata de biți poate fi descrisă ca lățime de bandă. Această caracteristică este importantă pentru cei care doresc să convertească fișiere deoarece, având aceeași durată, o rată de biți mai mare va avea ca rezultat un fișier mai mare. Pe lângă dimensiune, se modifică și calitatea sunetului. Reducerea dimensiunii pe măsură ce rata de biți scade se numește compresie.

Un fișier muzical obișnuit este un fișier audio comprimat în așa măsură încât până la 12 ore de muzică pot încăpea pe un disc standard. În același timp, calitatea rămâne destul de ridicată datorită compresiei psihoacustice: sunetele cu acele frecvențe și niveluri de volum care nu sunt captate de urechea umană sunt eliminate din întreaga gamă. Sunetele selectate sunt formate în blocuri separate numite cadre. Cadrele au aceeași durată a sunetului și sunt comprimate conform unui algoritm dat. Când se redă muzică, semnalul este recreat din blocurile decodate într-o anumită secvență.

Ce compresie este folosită în mod obișnuit?

Rata de biți audio este cel mai adesea de 256 Kbps. La această valoare, înregistrarea audio este comprimată de aproximativ 6 ori, permițându-vă să înregistrați de 6 ori mai multă muzică pe un disc decât înainte de comprimare. Dacă rata de biți este redusă la 128 Kbps, atunci un disc va potrivi de 12 ori mai multă muzică, dar calitatea sunetului va fi vizibil mai scăzută. Muzica înregistrată la o calitate de 128 Kbps este oferită cel mai adesea pentru ascultare pe Internet, deoarece în căutarea creșterii vitezei de încărcare a paginii, proprietarii de resurse fac orice sacrificii. Mulți utilizatori notează că calitatea sa este departe de a fi ideală.

Acum că este clar ce sunt ratele de biți, este timpul să le stabilim nivelul optim. Atât amatorii, cât și profesioniștii dezbat la nesfârșit modul în care bitrate afectează calitatea sunetului, dacă este deloc. Albumele muzicale indică de obicei rata de biți. Același disc, înregistrat la 128 Kbit/s și 256 Kbit/s, va fi de două ori mai scump.

Rată de biți optimă în diferite condiții de ascultare

Pentru mulți oameni, compresia de 12x nu dăunează, în timp ce alții susțin că nu pot asculta muzică cu un bitrate mai mic de 320 Kbps. Paradoxal, ambele au dreptate. Faptul este că în cele din urmă calitatea redării depinde nu de, ci de condițiile de redare și chiar de tipul muzicii.

De exemplu, o melodie este redată pe un magnetofon instalat într-o mașină domestică. În acest caz, calitatea la 192 Kbps va fi destul de suficientă. Un bitrate mai mare va îmbunătăți calitatea sunetului, dar diferența nu va fi vizibilă din cauza nivel inalt zgomot în timpul călătoriei. Dacă se aude muzica computer de acasă sau player portabil, atunci este necesar cel puțin 256 Kbps. Dacă semnalul nu suferă modificări, acesta este transmis către dispozitive externeși este scos la difuzoare scumpe importate, ar trebui să recurgeți la compresie minimă ori de câte ori este posibil. Este posibil la un bitrate de 320 Kbps.

Rată de biți optimă pentru diferite stiluri de muzică

Muzica cu rata de biți mare nu este întotdeauna necesară. Muzica populară sună de obicei destul de bine la o rată de biți de 192-256 Kbps. Este posibil să setați o calitate mai mare, dar nu are rost să faceți acest lucru: melodiile pop nu durează mult, așa că economisirea spațiului pe disc ar trebui să fie o prioritate. În plus, calitatea înregistrărilor sursă este, de asemenea, mediocră, astfel încât creșterea ratei de biți poate să nu afecteze calitatea fișierului redat. Pentru ascultarea în transport și la petreceri informale, calitatea medie este suficientă.

Dacă vorbim de muzică clasică, lucrări ale trupelor rock legendare sau melodii originale rare, atunci calitatea ar trebui să fie mai presus de toate. Când cumpărați o astfel de muzică, trebuie să vă uitați la rata de biți indicată pe ambalajul discului. Dacă melodia este descărcată de pe Internet, atunci astfel de informații ar trebui să fie prezente pe pagina de descărcare. În plus, rata de biți este afișată în player în timpul redării.

Ratele de biți ale fișierelor video

Am discutat mai sus ce sunt ratele de biți ale înregistrărilor audio. Dar ce este rata de biți video? Având în vedere că videoclipul este redat ca o secvență de sunete și imagini, definiția ratei de biți va fi similară. Prezența video face fișierul mai greu, dar în cele din urmă imaginile pentru procesor sunt aceleași zerouri și aceleași ca sunetele. Principiul criptării informațiilor este același pentru toate tipurile de fișiere.

În acest articol vom vorbi despre setările de codificare audio care îi afectează calitatea sunetului. Înțelegerea setărilor de conversie vă va ajuta să alegeți cea mai potrivită opțiune de codificare audio în ceea ce privește raportul dintre dimensiunea fișierului și calitatea sunetului.

Ce este bitrate?

Bitrate este cantitatea de date pe unitatea de timp folosită pentru a transmite un flux audio. De exemplu, o rată de biți de 128 kbps înseamnă 128 de kilobiți pe secundă și înseamnă că 128 de mii de biți sunt utilizați pentru a codifica o secundă de audio (1 octet = 8 biți). Dacă convertim această valoare în kiloocteți, se dovedește că o secundă de sunet durează aproximativ 16 KB.

Astfel, cu cât rata de biți a unei piese este mai mare, cu atât ocupă mai mult spațiu pe computer. Dar, în același timp, în cadrul aceluiași format, un bitrate mai mare vă permite să înregistrați sunet cu o calitate mai bună. De exemplu, dacă convertiți un CD audio în mp3, atunci cu un bitrate de 256 kbps, sunetul va fi de o calitate mult mai mare decât cu un bitrate de 64 kbps.

Deoarece spațiul pe disc a devenit destul de ieftin acum, vă recomandăm să faceți conversia în mp3 cu un bitrate de cel puțin 192 kbps.

Există, de asemenea, o distincție între ratele de biți constante și variabile.

Diferența dintre rata de biți constantă (CBR) și rata de biți variabilă (VBR)

Cu o rată de biți constantă, același număr de biți este utilizat pentru a codifica toate părțile audio. Dar structura sunetului este de obicei diferită și, de exemplu, codificarea tăcerii necesită mult mai puțini biți decât codificarea sunetului bogat. Rata de biți variabilă, spre deosebire de rata de biți constantă, ajustează automat calitatea codificării, în funcție de complexitatea sunetului la anumite intervale. Adică, pentru secțiunile care sunt simple din punct de vedere al codării se va folosi o rată de biți mai mică, iar pentru secțiunile care sunt complexe se va folosi o valoare mai mare. Utilizarea ratei de biți variabile vă permite să obțineți mai mult Calitate superioară sunet cu o dimensiune mai mică a fișierului.

Care este rata de eșantionare?

Acest concept apare la transformare semnal analog la digital și se referă la numărul de eșantioane (măsurători ale nivelului de semnal) pe secundă care sunt efectuate pentru a converti semnalul.

Care este numărul de canale responsabile?

Un canal, în ceea ce privește codificarea audio, este un flux audio independent. Mono - un flux, stereo - două fluxuri. Pentru a desemna numărul de canale, este adesea folosită abrevierea n.m, unde n este numărul de canale audio cu drepturi depline și m este numărul de canale de joasă frecvență (de exemplu, 5.1).

format MP3. Calitate. (In cuvinte simple)
mp3 - reprezentare digitală a unui semnal analogic, care este discreditat (digitizat) la intervale regulate (cu o frecvență specificată în herți) și prezentat în binar(cu o precizie dată - adâncimea de biți).

Artist - Titlu.mp3
192 kbps 48 kHz 16 biți CBR stereo

1. Ce înseamnă 16kbps sau 320kbps sau 192kbps etc?
Numărul înseamnă câte date digitale au fost necesare pentru codificare.
kbps - „kilobyte pyo secundă”, adică kiloocteți pe secundă.
Biți pe secundă, bps (biți pe secundă în engleză, bps) - o unitate de bază de măsură a vitezei de transmitere a informațiilor.

*Cu cât această valoare este mai mare, cu atât calitatea și volumul (Mb) sunetului sunt mai mari.

* 1 octet = 8 biți
* 1 kilobit = 1024 biți = 128 octeți (B)
* 1 megabit = 1048576 biți = 131072 octeți = 128 KB

Începătorii confundă adesea kilobytes cu kilobiți, așteptând o viteză de 256 KB/s de la un canal de 256 Kb/s (pe un astfel de canal viteza va fi de 31,25 KB/s). Adică, pentru a descărca un megaoctet (1 MB) de informații pe un astfel de canal va dura 32.768 de secunde.

2.Ce înseamnă 44100 Hz sau 44 kHz?

Frecvența de eșantionare - rata de eșantionare la conversia analogică semnal sonorîn digital. Exprimată în mostre pe secundă sau Hertzi, rata de eșantionare a timpului în format CD este de 44,1 kHz.

(În cuvinte simple - la ce frecvență este sunetul digitalizat)

*Plăcile de sunet acceptă frecvențe comune, la fel ca jucătorii.
Deși în editori poți salva de la 2000 Hz la 192.000 Hz. Cu cât frecvența este mai mare, cu atât sunetul este mai mare (Mb) și de mai bună calitate.

3. Ce este 16 biți sau 24 de biți.
Valorile amplitudinii sunetului sunt reprezentate folosind diferite numere de biți (adâncime de biți); Piesa audio este de obicei digitalizată cu o adâncime de biți de 12 până la 24 de biți.
*Cu cât această valoare este mai bună, cu atât mai precis și clar se vor auzi instrumente diferite, dar cu sunet similar, și afectează foarte mult calitatea sunetului.
4. Ce este ABR, CBR, VBR
ABR înseamnă Average Bit Rate, adică rata medie de biți, care este un hibrid între VBR și CBR: rata de biți în kbit/s este setată de utilizator, iar programul o variază, ajustându-l constant la rata de biți dată.

*Cu cuvinte simple, la salvarea audio mp3 și la selectarea VBR 128kbps, aceasta va însemna că sunetul va fi codificat cu o rată de biți variabilă (dacă este necesar) care nu depășește 128 kbps. Cu tăcere va fi de aproximativ 16 kbps.

CBR este o calitate constantă care nu depășește valoarea specificată, dar chiar și în tăcere va exista o valoare specificată.
acestea. codând CBR 320kbps 1 minut de sunet și 1 minut de tăcere, fișierele finale vor ocupa aceeași valoare Mb.

ABR - codificat cu o valoare specificată constantă (de exemplu 128 kbps), dar dacă este necesar, 128 kbps este întrerupt și se ia o valoare mai mare.
*În ceea ce privește calitatea, este mai bine să luați VBR cu o frecvență de 48Hz, apoi CBR, ABR, VBR 44.1Hz.
5. Mono. Stereo.Toată lumea pare să știe.

Restul le scriu mai tarziu...

Avantaje și dezavantaje ale MP3 128 kbps

Comprimarea datelor audio este un lucru complicat. Nimic nu poate fi spus în avans... Cel mai răspândit format astăzi - MPEG Layer3 cu un flux de 128 kbit/s - oferă o calitate care la prima vedere nu diferă cu nimic de originalul. Se numește frivol - „calitate CD”. Cu toate acestea, aproape toată lumea știe că mulți oameni își întorc nasul la o astfel de „calitate CD”. Ce s-a întâmplat? De ce această calitate nu este suficientă? O întrebare foarte dificilă. Eu însumi sunt împotriva compresiei de 128 kbit, deoarece rezultatul se dovedește uneori stupid. Dar am un număr de înregistrări de 128 kbit la care practic nu le pot găsi de vină. Dacă fluxul 128 este adecvat pentru codificarea acestui sau acel material este, din păcate, determinat numai după ascultarea rezultatului de mai multe ori. Este imposibil să spunem ceva în avans - eu personal nu cunosc semne care să ne permită să stabilim în avans succesul rezultatului. Dar de multe ori fluxul 128 este complet suficient pentru codificarea muzicii de înaltă calitate.

Pentru codificarea de 128 kbps, cel mai bine este să utilizați produse de la Fraunhofer - MP3 Producer 2.1 sau o versiune ulterioară. Cu excepția MP3enc 3.0 - are un bug enervant care duce la o codare foarte proastă frecvente inalte. Versiunile de peste 3.0 nu suferă de acest dezavantaj.

În primul rând, câteva cuvinte generale. Percepția unei imagini sonore de către o persoană depinde foarte mult de transmisia simetrică a două canale (stereo). Diferite distorsiuni în diferite canale sunt mult mai grave decât aceleași. În general vorbind, asigurarea faptului că caracteristicile sunetului în ambele canale sunt cât mai asemănătoare, dar între timp material diferit(altfel ce fel de stereo este) este o mare problemă în înregistrarea sunetului care este de obicei subestimată. Dacă putem folosi 64 kbit/s pentru a codifica mono, atunci 64 kbit/s pe canal nu va fi suficient pentru a codifica stereo în modul de doar două canale - rezultatul stereo va suna mult mai incorect decât fiecare canal separat. Majoritatea produselor Fraunhofer limitează în general mono la 64 kbps - și încă nu am văzut o înregistrare mono (înregistrare curată - fără zgomot sau distorsiune) care ar necesita mai mult bitrate. Din anumite motive, preferințele noastre pentru sunetul monofonic sunt mult mai slabe decât pentru sunetul stereofonic - aparent, pur și simplu nu îl luăm în serios :) - din punct de vedere psihoacustic, este pur și simplu sunetul care emană dintr-un difuzor și nu o încercare. pentru a transmite pe deplin un fel de picturi sonore.

Încercarea de a transmite semnale stereo impune cerințe mult mai stricte - până la urmă, ați auzit vreodată de un model psihoacustic care ține cont de mascarea unui canal de către altul? De asemenea, unele efecte inverse, ca să spunem așa, sunt ignorate - de exemplu, un anumit efect stereo care este proiectat pentru ambele canale simultan. Un canal stâng separat își maschează propria parte a efectului - nu îl vom auzi. Dar prezența canalului drept - a doua parte a efectului - ne schimbă percepția asupra canalului stâng: ne așteptăm subconștient să auzim mai mult partea stângă a efectului și trebuie luată în considerare și această schimbare a psihoacusticii noastre. Cu o compresie slabă - 128 kbiți pe canal (total 256 kbiți), aceste efecte dispar, deoarece fiecare canal este reprezentat suficient pentru a acoperi nevoia de simetrie a transmisiei cu o marjă, dar pentru fluxuri de aproximativ 64 kbiți pe canal aceasta este o mare problemă - transmiterea nuanțelor subtile ale percepției comune a ambelor canale necesită o transmisie mai precisă decât este posibilă în prezent în astfel de fluxuri.

A fost, desigur, posibil să se realizeze un model acustic cu drepturi depline pentru două canale, dar industria a luat o cale diferită, care este în general echivalentă cu aceasta, dar mult mai simplă. Mulți algoritmi cu denumirea generală Joint Stereo reprezintă o soluție parțială la problemele descrise mai sus. Majoritatea algoritmilor se rezumă la selectarea unui canal central și a unui canal diferit - stereo mid/side. Canalul central transportă informațiile audio principale și este un canal mono obișnuit format din două canale originale, iar canalul diferență conține informațiile rămase care vă permit să restabiliți sunetul stereo original. Această operație în sine este complet reversibilă - este doar un mod diferit de a reprezenta cele două canale, cu care este mai ușor de lucrat atunci când comprimați informații stereo.

În continuare, canalele central și diferența sunt de obicei comprimate separat, profitând de faptul că canalul diferență în muzica reală este relativ sărac - ambele canale au multe în comun. Echilibrul de compresie în favoarea canalelor centrale și diferențelor este selectat din mers, dar, în general, un flux mult mai mare este alocat canalului central. Algoritmii complexi decid ce vrem acest moment de preferat - o imagine spațială mai corectă sau o calitate a transmiterii informațiilor comune ambelor canale, sau pur și simplu compresie fără stereo mid/side - adică în modul dual channel.

Destul de ciudat, dar compresia stereo este cea mai mare slăbiciune rezultatul compresiei în Layer3 128 kbit/s. Nu puteți critica creatorii formatului - acesta este încă cel mai puțin rău posibil. Informațiile stereo subtile nu sunt aproape percepute în mod conștient (dacă nu țineți cont de lucruri evidente - aranjarea grosieră a instrumentelor în spațiu, efecte artificiale etc.), așa că calitatea stereo este ultimul lucru pe care o evaluează o persoană. De obicei, ceva ne împiedică întotdeauna să ajungem la acest punct: difuzoarele computerului, de exemplu, introduc deficiențe mult mai semnificative și pur și simplu nu ajunge la astfel de subtilități precum transmiterea incorectă a informațiilor spațiale.

Nu trebuie sa va ganditi ca ceea ce impiedica acest neajuns sa se auda pe acustica calculatorului este ca difuzoarele sunt amplasate la o distanta de 1 metru, pe lateralele monitorului, fara a crea o baza stereo suficienta. Nici măcar nu e ideea... În primul rând, dacă este vorba de astfel de difuzoare, atunci o persoană se așează chiar în fața lor - și acest lucru creează același efect ca difuzoarele din colțurile camerei și chiar mai mare: la acustica normală și volum bun, aproape că nu vei reuși niciodată să identifici locația spațială exactă a sunetelor (nu vorbim despre o imagine sonoră, pe care, dimpotrivă, difuzoarele computerului nu o vor construi niciodată, ci despre percepția directă, conștientă a diferenței între canale). Difuzoare(V utilizare standard) sau căștile oferă o experiență stereo imediată mult mai clară decât acustica muzicală convențională.

Sincer vorbind, pentru percepția directă, informațională și cognitivă a sunetului, nu avem nevoie de informații stereo precise. Detectarea directă a diferenței în acest aspect între original și Layer3 128 kbps este destul de dificilă, deși este posibil. Ai nevoie fie de multă experiență, fie de întărirea efectelor interesului. Cel mai simplu lucru care poate fi făcut este să distanțați virtual canalele mai mult decât este posibil fizic. De obicei, acest efect este inclus în ieftin tehnologia calculatoarelor Butonul „Sunet 3D”. Sau în cutii cu boom, ale căror difuzoare nu sunt separate de corpul dispozitivului și sunt distanțate prea puțin pentru a transmite un stereo frumos în mod natural. Există o tranziție a informațiilor spațiale în informații audio specifice ambelor canale - diferența dintre canale crește.

Am folosit un efect mai puternic decât este de obicei obișnuit pentru a auzi mai bine diferența. Vedeți cum ar trebui să sune - după codificare la 256 kbps cu un canal dublu (256_channels_wide.mp3, 172 kB) și cum sună după codificare la 128 kbps cu stereo comun (128_channels_wide.mp3, 172 kB).

Retragere. Ambele fișiere sunt mp3 de 256 kbps codificate folosind mp3 producer 2.1. Nu vă încurcați: în primul rând, testez mp3 și, în al doilea rând, postez rezultatele testării mp3-ului în mp3 ;). A fost cam așa: mai întâi am codificat o piesă muzicală în 128 și 256. Apoi am decomprimat aceste fișiere, am aplicat procesare (extensor stereo), le-am comprimat în 256 - doar pentru a economisi spațiu - și le-am postat aici.

Apropo, doar la 256 kbps în mp3 Producer 2.1 stereo comun este oprit și canalele duale sunt pornite - două canale independente. Chiar și 192 kbps în Producer 2.1 este un fel de stereo comun, deoarece exemplele mele au fost comprimate foarte incorect într-un flux mai mic de 256 kbps. Acesta este principalul motiv pentru care calitatea „deplină” începe de la 256 kbit/s - istoric, orice flux mai mic din produsele comerciale standard de la Fraunhofer (înainte de 98) este stereo comun, ceea ce în orice caz este inacceptabil pentru un transfer complet corect. Alte produse (sau ulterioare), în principiu, vă permit să alegeți în mod arbitrar stereo comun sau canal dublu pentru orice flux.

Despre rezultate

În original (care în acest caz corespunde exact la 256 kbps), am auzit sunet cu canalul de diferență amplificat și canalul central atenuat. Reverberația vocii a fost foarte clar audibilă, precum și tot felul de reverberații artificiale și ecouri în general - aceste efecte spațiale merg în principal către canalul de diferență. Mai exact, în acest caz au fost 33% din canalul central și 300% din diferență. Efectul absolut - 0% din canalul central - este activat pe echipamente precum centrele muzicale cu un buton precum „karaoke vocal fader”, „voice cancellation/remove” sau similar, al cărui scop este eliminarea vocii din fonogramă. Semnificația operației este că vocea este de obicei înregistrată numai pe canalul central - prezență egală în canalele stânga și dreapta. Prin eliminarea canalului central, eliminăm vocea (și multe altele, așa că această funcție este viata reala destul de inutil). Dacă aveți așa ceva, vă puteți asculta singur mp3-urile cu el - obțineți un detector stereo comun amuzant.

Pe în acest exemplu Poți deja să înțelegi indirect ce am pierdut. În primul rând, toate efectele spațiale au devenit vizibil mai rele la auzit - pur și simplu s-au pierdut. Dar, în al doilea rând, gâlgâitul este rezultatul tranziției informațiilor spațiale în sunet. Cu ce ​​corespundea în spațiu - doar tot timpul componentele sunetului în mișcare aproape aleatoriu, un anumit „zgomot spațial” care nu era în fonograma originală (poate rezista cel puțin la o tranziție completă a informațiilor spațiale în sunet fără apariția unui efecte străine). Se știe că acest tip de distorsiune la codificarea în fluxuri joase apare adesea direct, fără niciuna tratamente suplimentare. Doar că distorsiunile directe ale sunetului (care sunt aproape întotdeauna absente) sunt percepute în mod conștient și imediat, în timp ce distorsiunile stereofonice (care cu stereo comun sunt întotdeauna prezente în cantități mari) sunt percepute doar subconștient și în timpul procesului de ascultare pe o perioadă de timp.

Acesta este motivul principal care împiedică sunetul Layer3 128 kbps să fie considerat calitate completă a CD-ului. Faptul este că transformarea în sine sunet stereoîn mono dă efecte negative puternice - adesea același sunet este repetat pe canale diferite cu o ușoară întârziere, care atunci când este mixat dă pur și simplu un sunet neclar în timp. Audio mono realizat din audio stereo sună mult mai rău decât înregistrarea mono originală. Canalul de diferență, pe lângă centru (canal mono mixt), oferă o separare inversă completă în dreapta și stânga, dar absența parțială a canalului de diferență (codificare insuficientă a acestuia) aduce nu numai o imagine spațială insuficientă, ci și aceste neplăcute. efecte de amestecare a sunetului stereo într-un canal mono.

Când toate celelalte obstacole sunt îndepărtate - echipamentul este bun, colorarea tonală și dinamica sunt neschimbate (fluxul este suficient pentru a codifica canalul central) - va rămâne în continuare. Dar există fonograme înregistrate în așa fel încât efectele negative ale compresiei bazate pe stereo mid/side să nu apară - și atunci 128 kbit/s oferă aceeași calitate completă ca și 256 kbit/s. Un caz special este o fonogramă, poate bogată în ceea ce privește informațiile stereo, dar săracă informații audio- de exemplu, cântând încet la pian. În acest caz, pentru codificarea canalului de diferență, este alocat un flux care este destul de suficient pentru a transmite informații spațiale precise. Există, de asemenea, cazuri mai dificil de explicat - un aranjament activ plin cu o varietate de instrumente, totuși, sună foarte bine la 128 kbps - dar acest lucru este rar, poate într-un caz din cinci până la zece. Cu toate acestea, se întâmplă.

De fapt, la sunet. Este dificil de identificat defectele directe ale sunetului canalului central în Layer3 128 kbps. Lipsa de transmitere a frecvențelor de peste 16 kHz (apropo, sunt foarte rare, dar totuși transmise) și o anumită scădere a amplitudinii celor foarte mari - strict vorbind în sine - este pur și simplu un nonsens. În câteva minute, o persoană se obișnuiește complet cu astfel de distorsiuni tonale; acest lucru pur și simplu nu poate fi considerat un factor negativ puternic. Da, acestea sunt distorsiuni, dar pentru percepția de „calitate deplină” sunt departe de a fi minore. Din partea canalului audio central, direct, sunt posibile probleme de alt fel - o limitare accentuată a fluxului disponibil pentru codificarea acestui canal, cauzată pur și simplu de o coincidență - informații spațiale foarte abundente, un moment încărcat cu sunete variate, frecvente blocuri scurte ineficiente și, ca o consecință a tuturor acestora, un buffer de flux de rezervă complet utilizat. Acest lucru se întâmplă, dar relativ rar și chiar dacă un astfel de fapt apare, de obicei este vizibil în fragmente mari în mod continuu.

Este foarte greu să arăți defecte de acest fel suficient de clar pentru ca oricine să le observe. Ele pot fi observate cu ușurință chiar și fără procesare de către o persoană care este obișnuită să se ocupe de sunet, dar pentru un ascultător obișnuit necritic, acesta poate părea un sunet complet care nu se poate distinge de original și un fel de aprofundare abstractă în ceva care de fapt nu există. .. Totuși, uită-te la exemplu. Pentru a-l izola, a trebuit să aplicăm o procesare puternică - reducem foarte mult conținutul de frecvențe medii și înalte după decodare. Îndepărtând frecvențele care interferează cu auzirea acestor nuanțe, perturbăm, desigur, funcționarea modelului de codificare, dar acest lucru va ajuta să înțelegem mai bine ce pierdem. Deci - cum ar trebui să sune (256_bass.mp3, 172 kB) și ce se întâmplă după decodarea și procesarea unui flux de 128 kbps (128_bass.mp3, 172 kB). Observați o pierdere vizibilă de continuitate și netezime în sunetul basului, precum și alte anomalii. Transfer frecvente joaseîn acest caz, sacrificat în favoarea frecvențelor mai mari și a informațiilor spațiale.

De menționat că funcționarea modelului de compresie acustică poate fi observată (cu studiu atent și având ceva experiență de lucru cu sunetul) la 256 kbit/s, dacă folosești un egalizator mai mult sau mai puțin puternic. Dacă faci asta și apoi asculți, uneori (destul de des) vei observa efecte neplăcute (țiuit/gâlgâit). Mai important, sunetul după o astfel de procedură va avea un caracter neplăcut, neuniform, care este foarte greu de observat imediat, dar se va observa după o ascultare prelungită. Singura diferență între 128 și 256 este că într-un flux de 128 kbit/s aceste efecte există adesea fără nicio prelucrare. De asemenea, sunt greu de observat imediat, dar sunt acolo - exemplul cu bas oferă o idee despre unde să le căutați. Este pur și simplu imposibil să auzi asta în fluxuri înalte (peste 256 kbit/s) fără procesare. Această problemă nu se aplică fluxurilor înalte, dar există ceva care uneori (foarte rar) împiedică chiar și Layer3 - 256 kbit/s să fie considerat original - aceștia sunt parametrii de sincronizare (mai multe detalii vor fi într-un articol separat mai târziu: vezi MPEG Layer3 - 256 / link către alt articol/).

Există fonograme care nu sunt afectate de această problemă. Cel mai simplu mod este să enumerați factorii care, dimpotrivă, duc la apariția distorsiunilor descrise mai sus. Dacă niciuna dintre ele nu este îndeplinită, există șanse mari de a reuși complet, sub acest aspect, codificarea în Layer3 - 128 kbps. Totuși, totul depinde de materialul specific...

În primul rând, zgomot, să spunem, zgomot hardware. Dacă fonograma este vizibil zgomotoasă, este foarte nedorit să o codificăm în fluxuri mici, deoarece prea mult din flux se duce la codificarea informațiilor inutile, care, în plus, nu este foarte susceptibilă de o codificare rezonabilă folosind un model acustic.

  • Doar zgomot - tot felul de sunete străine. Zgomotul monoton al orașului, străzii, restaurantului etc., împotriva căruia are loc acțiunea principală. Aceste tipuri de sunete oferă un flux foarte bogat de informații care trebuie codificate, iar algoritmul va fi forțat să sacrifice ceva în materialul principal.
  • Efecte stereo puternice nenaturale. Acest lucru se referă mai degrabă la punctul anterior, dar, în orice caz, prea mult din flux merge către canalul de diferență, iar codificarea canalului central este foarte deteriorată.
  • Distorsiuni de fază puternice, diferite pentru diferite canale. În principiu, acest lucru se referă mai mult la deficiențele algoritmilor de codare răspândiți în prezent decât la standard, dar totuși. Cele mai sălbatice distorsiuni încep din cauza defalcării complete a întregului proces. În cele mai multe cazuri, astfel de distorsiuni ale fonogramei originale rezultă din înregistrarea pe tehnologia casetei și digitizarea ulterioară, mai ales atunci când sunt redate pe casetofone ieftine cu revers de calitate scăzută. Capetele sunt strâmbe, banda se înfășoară oblic, iar canalele sunt ușor întârziate unul față de celălalt.
  • Este doar un record prea ocupat. Aproximativ vorbind, o mare orchestră simfonică cântă dintr-o dată :). De obicei, ca urmare a compresiei la 128 kbit/s, rezultatul este ceva foarte incomplet - camera, alamă, tobe, solist. Se găsește, desigur, nu numai la clasici.

Celălalt pol este cel care de obicei se comprimă bine:

  • Un instrument solo cu un sunet relativ simplu - chitară, pian. Vioara, de exemplu, are un spectru prea complet și de obicei nu sună foarte bine. Piesa în sine depinde de fapt de vioara violonistului. Mai multe instrumente sunt de obicei comprimate destul de bine - barzi sau KSP, de exemplu (instrument + voce).
  • Calitate superioară producție modernă muzică. Aceasta nu înseamnă calitate muzicală, ci calitatea sunetului - mixare, aranjare a instrumentelor, absența categorică a efectelor globale complexe, sunete decorative și, în general, orice de prisos. De exemplu, tot pop modern se încadrează cu ușurință în această categorie, precum și ceva rock și, în general, destul de mult din toate.
  • Muzică agresivă, „chitară electrică”. Ei bine, pentru a da un exemplu, Metallica timpurie (și Metallica modernă în general). [Amintiți-vă, nu este vorba despre stiluri muzicale! doar un exemplu.]

Este demn de remarcat faptul că compresia Layer3 este aproape neimpresionată de parametri precum prezența/absența frecvențelor înalte, bass, colorație ternă/sunet etc. Există o dependență, dar este atât de slabă încât poate fi ignorată.

Din păcate (sau din fericire?), se reduce la persoana însăși. Mulți oameni, fără pregătire și selecție prealabilă, aud diferența dintre fluxurile de aproximativ 128 kbit/s și original, în timp ce mulți nici măcar nu percep exemplele extreme sintetice ca diferențe. Primii nu trebuie convinși de nimic, dar cei din urmă nu pot fi convinși de astfel de exemple... S-ar putea spune pur și simplu că pentru unii există o diferență și pentru alții nu există nicio diferență, dacă nu pentru un singur lucru: în procesul de ascultare a muzicii, în timp, percepția noastră devine din ce în ce mai mult timp se îmbunătățește. Ceea ce părea de bună calitate ieri poate să nu mai pară așa mâine - asta se întâmplă întotdeauna. Și dacă este destul de inutil (cel puțin după părerea mea) să comprimați la 320 kbit/s față de 256 kbit/s - câștigul nu mai este foarte important, deși de înțeles, atunci stocarea muzicii la cel puțin 256 kbit/s este încă merită.