Mi a jobb 128 vagy 320 kbps. A leggyakoribb tévhitek a digitális hangról. Mi az általánosan használt tömörítés

03.05.2022 Érdekes

Elgondolkodott már azon, hogy pontosan mi vész el a veszteségmentes 128 kbps vagy 320 kbps mp3 tömörítés során?
Megnéztem és érdekesnek tűnt az eredmény. Mindenekelőtt azt javaslom, hogy készítsen egy felmérést, hogy megértse, hall-e különbséget egyáltalán. Ha nem biztos abban, hogy hall, vagy biztos abban, hogy nem hall, akkor felhívom a figyelmüket egy egyszerű és elegáns ötletre: el kell fogadnia és meg kell nyomnia a homlokával két hanghullámot, amelyek közül az egyik ellenfázisú lesz, illetve két szám keverésekor főleg azt fogja hallani, ami nem aludt ki. Érdekes grafikát még nem ígérek, de a rendszereden pontosan hallhatod majd, hogy milyen hangok vesztek el flac-ről mp3-ra 128\320 kbps-ra tömörítve, archív példákkal a cikk végén.
Interjú
12 számot kell letöltened és 30 másodpercig meghallgatnod. Ezután adjon meg egyet a 3 lehetőség közül mind a 4 dalhoz (128 kbps, 320 kbps vagy veszteségmentes).
A felmérés anonim, de megadhat egyedi hash-t, és elmondhatja nekem, végső esetben tegye közzé a véleményét itt, de mindig spoiler alatt. A felmérés február 25-ig tart, utána teszem közzé a kulcsot és a statisztikákat.
Fájlok a Yandex lemezen, tükrözés a Dropboxon (~ 80 Mb).
Kezdeti adatok
The Black Keys – Everlasting Light (flac, 44100 Hz, 24 bites, 1613 kbps), elérhető itt: Youtube.
Ludovico Einaudi - Drop (flac, 96000 Hz, 24 bites, 2354 kbps), megtalálja a Yandex Music oldalán.
CC Coletti – Rock and Roll (flac, 192000 Hz, 24 bites, 4845 kbps), elérhető a következő címen: Youtube.
Annihilator - Ultra-motion (flac, 44100 Hz, 16 bites, 1022 kbps), elérhető a következő címen: Youtube.
mp3 konvertálási lehetőségek
44.1kHz, sztereó, 128kbps vagy 320kbps
A kísérlet leírása
A forrásfájlokat 10 másodperces darabokra vágják, és mindegyiket a wav-ba exportálják. A fogadott számok importálása után mindegyik elejéhez 2 másodperc csend és egy második hangjelzés kerül, majd mp3 formátumba konvertálódik. Az mp3 fájlok importálása után kiderül, hogy az eredetihez képest a kapott fájl "előre maradt". Ez nem hiba, ez egy . Szinkronizálást végzünk az eredeti hangjelhez viszonyítva (minden mp3 fájlhoz több értéket is kipróbáltam, amit később finomítottam a legjobb eredményre), megszabadulunk a hangjeltől, elnémítjuk és a kapott számokat exportáljuk wav-ba. . Most már csak meg kell fordítani a sávokat, hogy többirányú csúcsokat kapjunk, és keverjük az eredetivel.
Eredmény
Nem fedezem fel Amerikát... Igen, van különbség. Igen, különösen 128 kbps-ra tömörítve. Igen, ez a zenétől függ. Igen, még inkább a hangútról.
Független következtetést vonhat le, és hallhatja a különbséget a fájlok letöltésével

A bitráta a video- és hangfelvételek egyik fő jellemzője. A legtöbb felhasználó hozzászokott ahhoz, hogy ez határozza meg a letöltött fájl minőségét. De mik azok a bitrátok, és hogyan jellemzik valójában a zenei fájlokat és videókat? Tekintsük ezt részletesebben.

Mik azok a bitráták?

A bitráta egy olyan érték, amely a fájllejátszás egy másodpercében található információegységek számát (megabit vagy kilobit) mutatja. Ennek megfelelően megabit per másodpercben (Mbps) vagy kilobit per másodpercben (Kbps) mérik. Egyébként a bitráta sávszélességként írható le. Ez a jellemző azok számára fontos, akik fájlokat szeretnének konvertálni, mert azonos időtartam mellett nagyobb bitráta nagyobb fájlt eredményez. A méret mellett a hangminőség is változik. A méretcsökkenést a bitsebesség csökkenésével tömörítésnek nevezzük.

A közönséges zenei fájl olyan hangfájl, amelyet olyan mértékben tömörítenek, hogy akár 12 órányi zene is elférjen egy szabványos lemezen. Ugyanakkor a pszichoakusztikus tömörítés miatt a minőség továbbra is meglehetősen magas: az emberi fül által nem érzékelhető frekvenciájú és hangerős hangok a teljes tartományból kikerülnek. A kiválasztott hangok különálló blokkokká, úgynevezett keretekké alakulnak. A képkockák hanghossza azonos, és egy adott algoritmus szerint tömörítik őket. Zene lejátszásakor a dekódolt blokkokból a jel egy bizonyos sorrendben újra létrejön.

Mi az általánosan használt tömörítés?

Az audio bitráta leggyakrabban 256 Kbps. Ez a beállítás körülbelül hatszorosára tömöríti a hangfelvételt, így akár 6-szor több zene rögzíthető egy lemezre, mint a tömörítés előtt. Ha a bitrátát 128 Kbps-ra csökkentjük, akkor 12-szer több zene fér egy lemezre, de a hangminőség érezhetően gyengébb lesz. A 128 Kbps sebességgel rögzített zenét leggyakrabban az interneten kínálják meghallgatásra, mivel az erőforrás-tulajdonosok minden áldozatot meghoznak az oldalbetöltési sebesség növelése érdekében. Sok felhasználó megjegyzi, hogy minősége messze nem ideális.

Most, hogy világossá vált, hogy mik a bitráták, ideje meghatározni azok optimális szintjét. Az amatőrök és a profik is végtelenül vitatkoznak arról, hogy a bitráta hogyan befolyásolja a hangminőséget, és egyáltalán befolyásolja-e. A zenei albumokon általában a bitrátát jelzik. Ugyanaz a lemez, amelyet 128 Kbps és 256 Kbps sebességgel rögzítettek, kétszer különbözik az árban.

Optimális bitráta különböző hallgatási körülmények között

Sokak számára a tizenkétszeres tömörítés nem jelent kárt, míg mások azt állítják, hogy nem hallgathatnak 320 Kbps-nál kisebb bitsebességű zenét. Paradox módon mindkettőnek igaza van. A helyzet az, hogy a reprodukció minősége végül nem a reprodukálás körülményeitől, hanem a zene típusától függ.

Például egy dalt egy háztartási autóba szerelt magnón játszanak le. Ebben az esetben a 192 Kbps-os minőség elég lesz. A nagyobb bitsebesség javítja a hangminőséget, de a különbség nem lesz észrevehető az utazás során tapasztalható magas zajszint miatt. Ha a zenét otthoni számítógépen vagy hordozható lejátszón játssza le, akkor legalább 256 Kbps szükséges. Ha a jel nem változik, külső eszközökre kerül, és drága importált hangszórókra kerül, akkor lehetőség szerint minimális tömörítést kell alkalmazni. 320 Kbps bitsebességgel lehetséges.

Optimális bitráta különféle zenei stílusokhoz

Nem mindig van szükség nagy bitrátájú zenére. A népszerű zene általában elég jól szól 192-256 kbps sebességgel. Magasabb minőséget is be lehet állítani, de ennek semmi értelme: a popdalok rövid életűek, ezért a lemezterület megtakarítása prioritás legyen. Ráadásul az eredeti felvételek minősége is közepes, így a bitráta növelése semmilyen módon nem befolyásolhatja a lejátszott fájl minőségét. A közlekedésben és a nem hivatalos bulikon való hallgatáshoz az átlagos minőség is elég.

Ha komolyzenéről, legendás rockzenekarok műveiről vagy ritka szerzői dalokról beszélünk, akkor a minőség legyen mindenekelőtt. Ilyen zene vásárlásakor meg kell nézni a lemez csomagolásán feltüntetett bitrátát. Ha a dalt az internetről töltik le, akkor ennek az információnak jelen kell lennie a letöltési oldalon. Ezenkívül lejátszás közben a lejátszóban megjelenik a bitsebesség.

A videofájlok bitsebessége

Fentebb beszéltünk arról, hogy mik a hangfelvételek bitrátája. De mi az a videó bitráta? Figyelembe véve, hogy a videót hangok és képek sorozataként játsszák le, a bitsebesség meghatározása hasonló lesz. A videoszekvencia jelenléte megnehezíti a fájlt, de végül a processzor képei ugyanazok a nullák és egyesek, mint a hangok. Az információtitkosítás elve minden fájltípusnál ugyanaz.

Ebben a cikkben a hangminőséget befolyásoló hangkódolási beállításokról lesz szó. A konverziós beállítások megértése segít kiválasztani a legjobb hangkódolási lehetőséget a fájlméret és a hangminőség arány szempontjából.

Mi az a bitráta?

A bitráta az időegységenkénti adatmennyiség, amelyet egy hangfolyam továbbítására használnak fel. Például a 128 kbps a 128 kilobit/s sebességet jelenti, és azt jelenti, hogy 128 ezer bitet használnak fel egy másodperc hang kódolására (1 bájt = 8 bit). Ha ezt az értéket kilobájtokra fordítjuk, akkor kiderül, hogy egy másodpercnyi hang körülbelül 16 KB-ot vesz igénybe.

Így minél nagyobb egy sáv bitsebessége, annál több helyet foglal el a számítógépen. Ugyanakkor ugyanazon a formátumon belül a nagyobb bitráta lehetővé teszi, hogy jobb minőségű hangot rögzítsen. Például, ha egy audio cd-t konvertál mp3-ba, akkor 256 kbps bitsebességgel a hang sokkal jobb lesz, mint 64 kbps bitsebességgel.

Mivel mostanra a lemezterület meglehetősen olcsóvá vált, javasoljuk, hogy konvertáljon mp3-ba legalább 192 kbps bitsűrűséggel.

Különbséget tesznek rögzített és változó bitráták között is.

Az állandó bitráta (CBR) és a változó bitráta (VBR) közötti különbség

Állandó bitsebesség mellett ugyanannyi bitet használnak a hang minden részének kódolására. De a hang szerkezete általában eltérő, és például sokkal kevesebb bitre van szükség a csend kódolásához, mint a gazdag hang kódolásához. A változó bitsebesség az állandóval ellentétben automatikusan beállítja a kódolás minőségét, a hang összetettségétől függően bizonyos időközönként. Ez azt jelenti, hogy a kódolás szempontjából egyszerű szakaszok esetében alacsonyabb bitrátát használnak, az összetetteknél pedig magasabb értéket. A változó bitsebesség használatával jobb hangminőséget érhet el kisebb fájlmérettel.

Mi a mintavételi frekvencia?

Ez a fogalom egy analóg jel digitálissá alakításakor merül fel, és a minták (jelszint mérések) számát jelenti másodpercenként, amelyeket a jel átalakítására hajtanak végre.

Mennyi a csatornák száma?

A csatorna az audio kódolással kapcsolatban egy független audio adatfolyam. A mono egy folyam, a sztereó két adatfolyam. Az n.m rövidítést gyakran használják a csatornák számának jelzésére, ahol n a teljes értékű audiocsatornák száma, m pedig az alacsony frekvenciájú csatornák száma (például 5.1).

MP3 formátum. Minőség. (egyszerűen)
Az mp3 egy analóg jel digitális ábrázolása, amelyet rendszeres időközönként (hertzben megadott frekvenciával) diszkreditálnak (digitalizálnak), és bináris formában (adott pontossággal - bitmélységgel) ábrázolnak.

Előadó - Title.mp3
192 kbps 48 kHz 16 bites CBR sztereó

1. Mit jelent a 16kbps vagy 320kbps vagy 192kbps stb.
A szám azt jelenti, hogy mennyi digitális adatra volt szükség a kódoláshoz.
kbps - "kilobyte per másodperc" azaz. kilobájt másodpercenként.
Bits per second, bps (angolul bits per second, bps) - az információátvitel sebességének alapvető mértékegysége.

*Minél nagyobb ez az érték, annál jobb és terjedelmesebb (Mb) a hang.

* 1 bájt = 8 bit
* 1 kilobit = 1024 bit = 128 bájt (B)
* 1 megabit = 1048576 bit = 131072 bájt = 128 KB

A kezdők gyakran összekeverik a kilobájtokat a kilobitekkel, 256 KB / s sebességet várva egy 256 Kbps-os csatornától (egy ilyen csatornán a sebesség 31,25 KB / s). Vagyis 32,768 másodpercet vesz igénybe egy megabájt (1 MB) információ letöltése egy ilyen csatornán.

2. Mit jelent a 44100 Hz vagy 44 kHz.

Mintavételezési frekvencia - a mintavételezés gyakorisága az analóg audiojel digitálissá alakításakor. Másodpercenkénti mintában vagy hertzben kifejezve a CD formátumú időmintavételi frekvencia 44,1 kHz.

(Egyszerű szavakkal - milyen frekvenciával digitalizálják a hangot)

*A hangkártyák támogatják a közös frekvenciákat, akárcsak a lejátszók.
Bár a szerkesztők 2000 Hz-től 192 000 Hz-ig spórolhatnak. Minél magasabb a frekvencia, annál több (Mb) és jobb a hang.

3.Mi az a 16 bites vagy 24 bites.
A hangamplitúdóértékek eltérő számú bittel vannak ábrázolva (bitmélység); a hangsávot általában 12-24 bites bitmélységgel digitalizálják.
*Minél jobb ez az érték, annál pontosabban és tisztábban lesznek hallhatóak a különböző, de hangzásukban hasonló hangszerek, ami a hangminőséget is nagyban befolyásolja.
4. Mi az ABR, CBR, VBR
Az ABR az Average Bit Rate, azaz az átlagos bitsebesség rövidítése, amely a VBR és a CBR hibridje: a kbps-ban megadott bitsebességet a felhasználó állítja be, és a program változtatja, folyamatosan a megadott bitsebességhez igazítva.

*Egyszerű szavakkal, ha mp3 hangot mentünk el, és a VBR 128kbps-t választjuk, ez azt jelenti, hogy a hang változó (ha szükséges) bitrátával lesz kódolva, amely nem haladja meg a 128kbps-t, csendben pedig körülbelül 16kbps lesz.

A CBR egy állandó minőség nem több, mint a megadott, de csend mellett is lesz egy meghatározott érték.
azok. CBR kódolás 320 kbps 1 perc hang és 1 perc csend, a végső fájlok ugyanazt a Mb értéket foglalják el.

ABR - állandó megadott értékkel (például 128kbps) kódolva, de ha szükséges, a 128kbps sérül, és magasabb értéket vesz fel.
*Minőség szempontjából érdemesebb a 48Hz-es VBR-t venni, majd a CBR, ABR, VBR 44,1Hz-et.
5. Mono. Sztereó.Mindenki tudja.

A többit később közzéteszem...

Előnyök és hátrányok MP3 128 kbps

A hangadatok tömörítése bonyolult. Semmit nem lehet előre megmondani... A ma legelterjedtebb formátum - MPEG Layer3 128 kbps-os adatfolyammal - olyan minőséget biztosít, amely első ránézésre nem különbözik az eredetitől. Enyhén "CD-minőségűnek" hívják. Azt viszont szinte mindenki tudja, hogy ilyen "CD minőségen" sokan ütik fel az orrukat. Mi a baj? Miért nem elég ez a minőség? Nagyon nehéz kérdés. Jómagam a 128 kb-os tömörítés ellen vagyok, mert az eredmény néha hülyeségnek bizonyul. De van egy sor 128 kb-os rekordom, amiben aligha találok hibát. Hogy a 128-as adatfolyam alkalmas-e ennek vagy annak az anyagnak a kódolására - sajnos csak az eredmény többszöri meghallgatása után derül ki. Nem mondhatok semmit előre - személy szerint nem ismerem azokat a jeleket, amelyek lehetővé tennék, hogy előre meghatározzam az eredmény sikerét. De gyakran a 128-as adatfolyam teljesen elegendő a kiváló minőségű zenekódoláshoz.

A 128 kbps-os kódoláshoz a legjobb a Fraunhofer MP3 Producer 2.1 vagy újabb termékek használata. Az MP3enc 3.0 kivételével egy bosszantó hibája van, ami a magas frekvenciák nagyon rossz kódolását eredményezi. A 3.0 feletti verziók nem szenvednek ettől a hiányosságtól.

Először is néhány általános szó. A hangkép egy személy általi érzékelése nagymértékben függ a két csatorna szimmetrikus átvitelétől (sztereó). A különböző csatornákban lévő különböző torzítások sokkal rosszabbak, mint az azonosak. Általánosságban elmondható, hogy a lehető legnagyobb mértékben azonos hangkarakterisztikát biztosítunk mindkét csatornán, de közben más anyagból (egyébként milyen sztereóról van szó) nagy probléma a hangrögzítésnél, amit általában alábecsülnek. Ha monó kódolásra 64 kbps-t tudunk használni, akkor a sztereó kódoláshoz mindössze két csatorna módban a 64 kbps csatornánként nem elég - a sztereó eredmény sokkal helytelenebb lesz, mint az egyes csatornák külön-külön. A legtöbb Fraunhofer termék általában 64 kbps-ra korlátozza a monó sebességet – és még nem láttam olyan monó felvételt (tiszta felvétel – nincs zaj vagy torzítás), amely nagyobb adatfolyamot igényelne. Valamiért a monofonikus hangzástól való függőségünk valamiért sokkal gyengébb, mint a sztereofonikustól - láthatóan egyszerűen nem vesszük komolyan :) - pszichoakusztikus szempontból ez csak egy hangszóróból jövő hang, és nem kísérlet valamilyen festmény teljes közvetítésére.

A sztereó jelek továbbítása sokkal szigorúbb követelményeket támaszt – elvégre hallottál már olyan pszichoakusztikus modellről, amely figyelembe veszi az egyik csatorna másik általi elfedését? Ezenkívül néhány fordított, mondjuk, effektust figyelmen kívül hagy – például egy bizonyos sztereó effektust, amelyet egyszerre mindkét csatornára terveztek. Egyetlen bal oldali csatorna elfedi magában a hatás részét – nem fogjuk hallani. De a jobb csatorna jelenléte - a hatás második része - megváltoztatja a bal csatornáról alkotott felfogásunkat: tudat alatt azt várjuk, hogy jobban halljuk a hatás bal oldalát, és ezzel a pszichoakusztikánk változásával is számolnunk kell. Alacsony tömörítésnél - csatornánként 128 kbps (összesen 256 kbps) ezek a hatások eltűnnek, mivel minden csatorna teljesen le van fedve, hogy fedezze az átviteli szimmetria szükségességét, de csatornánként körülbelül 64 kbps-os adatfolyamok esetén ez nagy probléma - mindkét csatorna érzékelésének finom árnyalatainak átadása pontosabb átvitelt igényel, mint az ilyen streamekben jelenleg lehetséges.

Természetesen két csatornára is lehetett teljes értékű akusztikus modellt készíteni, de a szakma más utat választott, ami általában ezzel egyenértékű, de sokkal egyszerűbb. A Joint Stereo általános elnevezésű algoritmusok részleges megoldása a fent leírt problémákra. A legtöbb algoritmus a középső csatorna és a különbségi csatorna – közép/oldalsó sztereó – kiemelésére irányul. A központi csatorna a fő hanginformációkat hordozza, és két eredeti csatornából kialakított normál monó csatorna, míg a különbségi csatorna hordozza a többi információt, amely lehetővé teszi az eredeti sztereó hang visszaállítását. Önmagában ez a művelet teljesen visszafordítható – ez csak egy másik módja a két csatorna ábrázolásának, amivel könnyebben lehet dolgozni a sztereó információk tömörítésekor.

Ezután a központi és a differenciálcsatornát általában külön-külön tömörítik, kihasználva azt a tényt, hogy a valódi zenében a differenciálcsatorna viszonylag gyenge - mindkét csatornában sok a közös. A kompresszió egyensúlyát a középső és a differenciálcsatorna javára menet közben választják ki, de általában sokkal nagyobb áramlást rendelnek a középső csatornához. Komplex algoritmusok döntik el, hogy jelenleg mi a jobb számunkra - helyesebb térbeli kép vagy mindkét csatornára jellemző információ átviteli minősége, vagy egyszerűen tömörítés közép-/oldalsztereó nélkül - vagyis kétcsatornás módban.

Furcsa módon, de a sztereó tömörítés a tömörítési eredmény leggyengébb pontja Layer3 128 kbps-ban. Lehetetlen kritizálni a formátum alkotóit – ez még mindig a lehetséges kisebbik rossz. A finom sztereó információkat szinte nem érzékeljük tudatosan (ha nem vesszük figyelembe a nyilvánvaló dolgokat - a hangszerek durva elrendezését a térben, mesterséges effektusokat stb.), így a sztereó minőség az utolsó, amit az ember értékel. Általában valami mindig megakadályozza, hogy elérje: például a számítógép hangszórói sokkal jelentősebb hibákat vezetnek be, és a dolgok egyszerűen nem jutnak el olyan finomságokig, mint a helytelen térinformációk továbbítása.

Nem szabad azt gondolni, hogy a számítógépes akusztika e hiányossága az akadályozza meg, hogy a hangszórók 1 méter távolságra vannak a monitor oldalán, anélkül, hogy megfelelő sztereó alapot hoznának létre. Nem is ez a lényeg, soha nem fogod tudni elkülöníteni a hangok pontos térbeli elrendezését (ez nem hangkép, amit éppen ellenkezőleg, a számítógép hangszórói sosem fognak felépíteni, hanem a különbség közvetlen, tudatos érzékelése csatornák). A számítógép hangszórói (normál használatban) vagy fejhallgató sokkal tisztább közvetlen sztereó élményt nyújtanak, mint a hagyományos zenei hangszórók.

Őszintén szólva, a hang közvetlen, informatív és kognitív érzékeléséhez nem igazán van szükségünk pontos sztereó információra. Elég nehéz közvetlenül kimutatni a különbséget ebből a szempontból az eredeti és a Layer3 128 kbps között, bár lehetséges. Vagy sok tapasztalatra van szüksége, vagy fokozza az érdeklődés hatását. A legegyszerűbb dolog, amit tehetünk, az, hogy a csatornákat gyakorlatilag messzebbre terjesztjük, mint amennyire fizikailag lehetséges. Általában ezt az effektust kapcsolják be az olcsó számítástechnikában a "3D hang" gombbal. Vagy boom boxokban, amelyek hangszórói nem válnak el a készülék testétől, és túl gyengén vannak elhelyezve ahhoz, hogy természetes módon továbbítsák a gyönyörű sztereót. Megtörténik a térinformáció átmenete mindkét csatorna specifikus hanginformációjába - a csatornák közötti különbség nő.

A szokásosnál erősebb hatást alkalmaztam, hogy jobban halljam a különbséget. Nézze meg, hogyan kell hangzani kétcsatornás 256 kbps-os kódolás után (256_channels_wide.mp3 , 172 kB), és hogyan hangzik 128 kbps-os kódolás után közös sztereóval (128_channels_wide.mp3 , 172 kB).

Visszavonulás. Mindkét fájl 256 kbps sebességű mp3, mp3 Producer 2.1-gyel kódolva. Ne tévesszen meg: először is tesztelem az mp3-at, másodszor pedig az mp3 tesztelésének eredményét közzéteszem mp3-ba ;). Ez így volt: először 128-ban és 256-ban kódoltam egy zenét. Utána ezeket a fájlokat kicsomagoltam, feldolgoztam (sztereo expander), 256-ba tömörítettem - csak helytakarékosság miatt - és felraktam ide.

Egyébként az mp3 Producer 2.1-ben csak 256 kbps-nál kapcsol ki a közös sztereó, és kapcsol be a két csatorna – két független csatorna. A Producer 2.1-ben a 192 kbps is valamiféle közös sztereó, mert a példáim nagyon rosszul lettek tömörítve 256 kbps alatti streambe. Ez a fő oka annak, hogy a "teljes" minőség 256 kbps-tól kezdődik - a hagyományos Fraunhofer kereskedelmi termékeiben (98 előtt) minden alacsonyabb adatfolyam közös sztereó, ami mindenesetre elfogadhatatlan egy teljesen korrekt átvitelhez. Más (vagy későbbi) termékek elvileg lehetővé teszik, hogy tetszőlegesen válasszon - közös sztereó vagy kétcsatornás - bármilyen streamhez.

Az eredményekről

Az eredetiben (ami ebben az esetben pontosan 256 kbps-nak felel meg) a hangot a különbségi csatornával felerősítve, a középső csatornát gyengítve hallottuk. A hang visszhangja nagyon jól hallható volt, valamint általában mindenféle mesterséges visszhang és visszhang – ezek a térhatások főleg a különbségi csatornára mennek. Konkrétan, ebben az esetben a központi csatorna 33%-a volt, a különbség pedig 300%. Az abszolút hatás - a központi csatorna 0%-a - olyan berendezéseken kapcsol be, mint például a zenei központok olyan gombokkal, mint a „karaoke vocal fader”, „voice cancelation/remove” vagy hasonlók, amelyek célja a hang eltávolítása a fonogram. A művelet jelentése az, hogy a hangot általában csak a központi csatornán rögzítik - ugyanaz a jelenlét a bal és a jobb csatornán. A középső csatorna eltávolításával eltávolítjuk a hangot (és még sok mást, így ez a funkció a való életben eléggé használhatatlan). Ha van ilyened - az mp3-aidat magad is hallgathatod vele - kapsz egy vicces közös sztereó detektort.

Ebben a példában már közvetve megérthetjük, mit veszítettünk. Először is, minden térhatás észrevehetően rosszabb lett – egyszerűen elvesztek. Másodsorban azonban a gurgulázás a térinformáció hanggá való átalakulásának eredménye. Minek felelt meg a térben - igen, csak állandóan szinte véletlenszerűen mozgó hangkomponensek, valamiféle "térzaj", ami nem volt az eredeti fonogramban (legalábbis a térinformáció hanggá való teljes átalakulását kibírja anélkül külső hatások). Ismeretes, hogy ez a fajta torzítás alacsony adatfolyamra történő kódoláskor gyakran közvetlenül, minden további feldolgozás nélkül jelenik meg. Csak arról van szó, hogy a direkt hangtorzításokat (amelyek szinte mindig hiányoznak) tudatosan és azonnal érzékelik, míg a sztereofonikusakat (amelyek mindig és nagy mennyiségben közös sztereóval vannak) csak tudat alatt és egy ideig hallgatják.

Ez a fő oka annak, hogy a Layer3 128 kbps hangja nem tekinthető teljes CD-minőségnek. A helyzet az, hogy a sztereó hang monóvá alakítása önmagában erős negatív hatásokat eredményez - gyakran ugyanaz a hang ismétlődik különböző csatornákon, kis késéssel, ami keverve egyszerűen egy időben elmosódott hangot ad. A sztereó hangzásból készült mono hang sokkal rosszabb, mint az eredeti mono felvétel. A differenciálcsatorna a központi (vegyes mono) csatorna mellett teljes fordított szétválasztást ad jobbra és balra, de a differenciacsatorna részleges hiánya (elégtelen kódolás) nemcsak elégtelen térképet, hanem kellemetlen hatásokat is hoz. a sztereó hang egyetlen monó csatornába keverése.

Ha minden egyéb akadályt elhárítunk - a felszereltség jó, a tónusszín és a dinamika változatlan (a középső csatorna kódolásához elegendő áramlás van) -, akkor is megmarad. De vannak olyan hangfelvételek, amelyeket úgy rögzítettek, hogy a mid / side sztereó alapú tömörítés negatív hatásai nem jelentkeznek - és akkor a 128 kbps ugyanazt a teljes minőséget adja, mint a 256 kbps. Különleges eset a hangfelvétel, amely talán sztereó információkban gazdag, de hanginformációkban szegény – például lassú zongorajáték. Ebben az esetben a differenciális csatorna kódolásához egy olyan adatfolyamot allokálnak, amely elégséges a pontos térinformáció továbbításához. Vannak nehezebben megmagyarázható esetek is - egy aktív hangszerelés sokféle hangszerrel megtöltve, ennek ellenére nagyon jól szól 128 kbps-on -, de ez ritka, talán öt-tízből egy esetben. Azonban előfordul.

Valójában a hangra. Nehéz elkülöníteni az azonnali hibákat a Layer3 128 kbps-os középső csatorna hangjában. A 16 kHz feletti frekvenciák átvitelének hiánya (mellesleg nagyon ritkák, de mégis továbbítják) és a nagyon magasak amplitúdójának bizonyos csökkenése - szigorúan véve önmagában - csak nonszensz. Az ember néhány perc alatt teljesen megszokja, hogy nem ilyen tónusok torzulnak, egyszerűen nem tekinthető erős negatív tényezőknek. Igen, ezek torzítások, de a "teljes minőség" érzékelése szempontjából messze másodlagos jelentőséggel bírnak. A központi, közvetlenül audió csatorna részéről más jellegű problémák lehetségesek - a csatorna kódolásához rendelkezésre álló adatfolyam éles korlátozása, amelyet egyszerűen a körülmények kombinációja okoz - nagyon bőséges térinformáció, különféle hangokkal terhelt pillanat , a gyakori nem hatékony rövid blokkok, és mindezek következtében a teljesen elhasznált tartalék stream puffer. Ez megtörténik, de viszonylag ritkán, majd - ha ilyen tény történik, akkor ez általában nagy töredékeken folyamatosan észrevehető.

Nagyon nehéz az ilyen jellegű hibákat kifejezett formában kimutatni, hogy bárki észrevegye. A hangokkal szokott ember feldolgozás nélkül is könnyen észreveszi őket, de egy hétköznapi, nem kritikus hallgató számára ez az eredetitől teljesen megkülönböztethetetlen hangzásnak és valamiféle elvont beleásásnak tűnhet valamibe, ami nem igazán az. ott .. Mégis, nézd meg a példát. Kivonásához erős feldolgozást kellett alkalmazni - a közepes és magas frekvenciák tartalmát a dekódolás után nagyon csökkenteni kellett. A hallást zavaró frekvencia árnyalatok eltávolításával természetesen megzavarjuk a kódolási modell működését, de ez segít jobban megérteni, mit veszítünk. Tehát - hogyan hangzik (256_bass.mp3 , 172 kB), és mi történik egy 128 kbps-os folyam dekódolása és feldolgozása után (128_bass.mp3 , 172 kB). Figyelje meg a basszus folytonosságának, simaságának észrevehető elvesztését és néhány egyéb rendellenességet. Az alacsony frekvenciák átvitelét ebben az esetben feláldozták a magasabb frekvenciák és a térinformációk javára.

Megjegyzendő, hogy az akusztikus tömörítési modell működése (gondos tanulmányozással és némi hangtapasztalattal) 256 kbps-on figyelhető meg, ha többé-kevésbé erős hangszínszabályzót alkalmazunk. Ha ezt megteszi, majd figyel, akkor néha (elég gyakran) kellemetlen hatásokat (csengés/gurgulázó) észlelhet. Ennél is fontosabb, hogy egy ilyen eljárás után a hang kellemetlen, egyenetlen jellegű lesz, amit nagyon nehéz azonnal észrevenni, de hosszan tartó hallgatással észrevehető lesz. Az egyetlen különbség a 128 és 256 között az, hogy egy 128 kbps-os adatfolyamban ezek a hatások gyakran feldolgozás nélkül léteznek. Nehéz őket azonnal észrevenni, de ott vannak - a basszus példa ad némi ötletet arról, hogy hol kell őket keresni. Ezt egyszerűen lehetetlen hallani magas streamben (256 kbps felett) feldolgozás nélkül. Ez a probléma nem vonatkozik a high streamekre, de van, ami néha (nagyon ritkán) még a Layer3 megszámlálását sem teszi lehetővé - 256 kbps az eredetiből - ezek időparaméterek (a részletekről később külön cikkben lesz szó: ld. MPEG Layer3 - 256 / link egy másik cikkre/).

Vannak olyan hangfelvételek, amelyeket nem érint ez a probléma. A legegyszerűbb, ha felsoroljuk azokat a tényezőket, amelyek éppen ellenkezőleg a fenti torzulások megjelenéséhez vezetnek. Ha egyik sem történik meg, nagy esély van egy teljesen sikeres, ebből a szempontból Layer3 - 128 kbps kódolásra. De minden a konkrét anyagtól függ...

Először is - a zaj, mondjuk, a hardver. Ha a hangfelvétel észrevehetően zajos, nagyon nem kívánatos kis folyamokba kódolni, mivel az adatfolyam túl nagy részét felesleges információk kódolására használják, ami ráadásul nem nagyon alkalmas akusztikus modellel történő ésszerű kódolásra.

  • Csak zaj – mindenféle idegen hang. A város, utca, étterem stb. monoton zaja, ami ellen a fő akció zajlik. Az ilyen típusú hangok nagyon bőséges információáramlást biztosítanak, amelyet kódolni kell, és az algoritmusnak fel kell áldoznia valamit a fő anyagban.
  • Természetellenes erős sztereó effektusok. Ez inkább az előző ponthoz kapcsolódik, de mindenesetre a folyamból túl sok megy a különbségi csatornába, és a központi csatorna kódolása erősen leromlik.
  • Erős fázistorzítás, különböző csatornák esetén. Ez elvileg inkább a jelenleg elterjedt kódolási algoritmusok hiányosságaira utal, mint a szabványra, de mégis. A legvadabb torzulások az egész folyamat teljes megzavarása miatt kezdődnek. A legtöbb esetben a kazettás berendezésen történő rögzítés és az ezt követő digitalizálás az eredeti hangfelvétel ilyen torzulásához vezet, különösen, ha olcsó, rossz minőségű reverse magnóval játsszák le. A fejek görbültek, a szalag ferdén tekercselve, a csatornák kissé késve vannak egymáshoz képest.
  • Egyszerűen túlterhelt. Egészen durván szólva - egy nagy szimfonikus zenekar játszik egyszerre :). Általában a 128 kbps-os tömörítés eredményeként valami nagyon sematikus - kamra, rézfúvók, dobok, szólista - keletkezik. Természetesen nem csak a klasszikusoknál fordul elő.

A másik pólus általában jól összenyomódik:

  • Egy viszonylag egyszerű hangzású szóló hangszer - gitár, zongora. A hegedű például túlságosan teljes spektrummal rendelkezik, és általában nem szól túl jól. Maga a mű tulajdonképpen a hegedűs hegedűjétől függ. Több hangszert is általában elég jól tömörítenek - például a bárdok vagy a CSP (hangszer + hang).
  • Kiváló minőségű modern zenei produkció. Nem a zenei minőségre gondolok, hanem a hang minőségére - keverés, hangszerek elrendezése, összetett globális hatások kategorikus hiánya, díszítő hangok és általában minden felesleges. Ebbe a kategóriába például könnyen esik minden modern popzene, meg némi rock is, és úgy általában elég sok minden.
  • Agresszív, "elektromos" zene. Nos, hogy valami példát mondjak - a korai Metallica (és általában a modern is). [ne feledd, ez nem a zenei stílusokról szól! csak egy példa.]

Érdemes megjegyezni, hogy a Layer3 tömörítést szinte nem nyűgözik le olyan paraméterek, mint a magas frekvenciák jelenléte/hiánya, basszus, tompa/csengő szín stb. Van egy függőség, de annyira gyenge, hogy figyelmen kívül hagyható.

Sajnos (vagy szerencsére?) a dolog magán az emberen múlik. Sokan felkészülés és előzetes szelekció nélkül hallják a különbséget a körülbelül 128 kbps-os adatfolyamok és az eredeti között, sok szintetikus extrém példa sem érzékeli fülből a különbséget. Az előbbit nem kell meggyőzni semmiről, míg az utóbbit nem lehet meggyőzni ilyen példákkal... Egyszerűen azt lehetne mondani, hogy egyesek számára van különbség, mások számára nem, ha nem egy dologban: zenét hallgatva idővel javul az érzékelési időnk. Ami tegnap jó minőségnek tűnt, holnap nem biztos, hogy az lesz – mindig megtörténik. És ha elég értelmetlen (legalábbis szerintem) 320 kbps-on tömöríteni a 256 kbps-hoz képest - a nyereség már nem túl fontos, bár érthető, akkor a zenét legalább 256 kbps-on tárolni még mindig megéri.