А ви коли-небудь замислювалися, що саме губиться при стисканні з lossless у mp3 128 kbps чи 320 kbps?
Я перевірив і результат видався цікавим. Насамперед пропоную пройти опитування, щоб зрозуміти для себе чи чуєте взагалі різницю. Якщо не впевнені, що чуєте або впевнені, що не чуєте, то пропоную до вашої уваги просту і витончену ідею: треба взяти і зіштовхнути чолом дві звукові хвилі, одна з яких перебуватиме в протифазі, відповідно при зведенні двох треків буде переважно чути те, що не згасити. Цікаві графіки поки не обіцяю, зате ви зможете самі на своїй системі почути які саме звуки загубилися при стисканні з flac в mp3 128\320 kbps, архів з прикладами наприкінці статті.

Опитування

Необхідно завантажити та послухати 12 треків по 30 секунд. Потім вказати для кожної з 4 композицій один із 3 варіантів (128 kbps, 320 kbps або lossless).
Опитування анонімне, але можете вказати унікальний хеш і сказати його мені, у крайньому випадку опублікувати свою думку тут, але обов'язково під спойлером. Опитування триватиме до 25.02, після чого опублікую ключ і статистику.
Файли на Яндекс Диску, дзеркало на Дропбоксі (~80Мб).

Вихідні дані

The Black Keys - Everlasting Light (flac, 44100 Hz, 24-bit, 1613 kbps), ознайомитися можна на Youtube.
Ludovico Einaudi - Drop (flac, 96000 Hz, 24-bit, 2354 kbps), ознайомитися можна на Яндекс Музика.
CC Coletti – Rock and Roll (flac, 192000 Hz, 24-Bit, 4845 kbps), ознайомитись можна на Youtube.
Annihilator - Ultra-motion (flac, 44100 Hz, 16-bit, 1022 kbps), ознайомитися можна на Youtube.

Параметри конвертації у mp3

44.1kHz, stereo, 128 kbps або 320 kbps

Опис експерименту

Вихідні файли ріжуться на шматки тривалістю по 10 секунд, кожен із шматочків експортується в wav. Після імпортування отриманих треків на початок кожного додається 2 секунди тиші та секундний тоновий сигнал, потім конвертуються в mp3. Після імпортування mp3 файлів з'ясовується, що щодо оригіналу отриманий файл «пішов вперед». Це не баг, це . Виробляємо синхронізацію щодо заданого тонового сигналу в оригінального (я пробував для кожного файлу mp3 кілька значень, які згодом уточнював до найкращого результату), позбавляємося тонового сигналу, тиші та отримані треки експортуємо у wav. Тепер залишилося інвертувати треки, щоби вийшли різноспрямовані піки, і звести з оригіналом.

Результат

Не відкрию Америку. Так, різниця є. Так, особливо при стиску до 128kbps. Так, залежить від музики. Так, ще більше від аудіотракту.
Зробити самостійний висновок та почути різницю ви можете, завантаживши файли на

Бітрейт вказується як одна з головних характеристик відео та аудіозаписів. Більшість користувачів звикли думати, що він визначає якість файлу, що завантажується. Але що таке бітрейти та як вони насправді характеризують музичні файлита відеоролики? Розглянемо це докладніше.

Що таке бітрейти?

Бітрейт - це величина, яка відображає кількість одиниць інформації (мегабіт або кілобіт), вміщених за одну секунду відтворення файлу. Відповідно, він вимірюється в мегабітах за секунду (Mbps) або кілобітах за секунду (Kbps). Інакше бітрейт можна охарактеризувати як ширину пропускної смуги. Ця характеристика важлива для тих, хто хоче конвертувати файли, тому що за однієї і тієї ж тривалості більший бітрейт призведе до збільшення файлу. Крім розміру, змінюється якість звуку. Зменшення розміру при зниженні бітрейту називається стисненням.

Поширений музичний являє собою аудіофайл, стиснутий настільки, що на стандартний диск поміщається до 12-ти годин музики. При цьому якість залишається досить високою завдяки психоакустичному стиску: з усього діапазону забираються звуки з тими частотами та рівнями гучності, які не вловлюються людським вухом. Відібрані звуки формуються в відокремлені блоки, які називаються кадрами. Фрейми мають однакову тривалість звучання та стискаються за заданим алгоритмом. Коли музика програється, сигнал відтворюється з декодованих блоків у певній послідовності.

Який зазвичай використовується стиск?

Бітрейт аудіо найчастіше становить 256 Кбіт/с. При такому значенні аудіозапис стискається в розмірі приблизно 6 разів, завдяки чому на один диск можна записати в 6 разів більше музики, ніж до стиснення. Якщо бітрейт знизити до 128 Кбіт/с, то один диск поміститься вже у 12 разів більше музики, проте якість звучання буде помітно нижче. Музика, записана як 128 Кбіт/с, найчастіше пропонується для прослуховування в інтернеті, тому що в гонитві за підвищенням швидкості завантаження сторінок власники ресурсів йдуть на будь-які жертви. Багато користувачів відзначають, що її якість далека від ідеальної.

Тепер, коли стало ясно, що таке бітрейти, саме час визначити їхній оптимальний рівень. Як любителі, так і професіонали нескінченно сперечаються, як бітрейт впливає на якість звуку і чи взагалі впливає. На музичних альбомах зазвичай вказується бітрейт. Один і той же диск, записаний як 128 Кбіт/с і 256 Кбіт/с, відрізнятиметься за ціною вдвічі.

Оптимальний бітрейт за різних умов прослуховування

Для багатьох людей дванадцятикратне стиснення не становить жодної шкоди, тоді як інші стверджують, що не можуть слухати музику з бітрейтом нижче, ніж 320 Кбіт/с. Парадоксально, але мають рацію і ті й інші. Справа в тому, що в кінцевому рахунку якість відтворення залежить не від а від умов відтворення і навіть від типу музики.

Наприклад, пісня програється на магнітофоні, встановленому у вітчизняному автомобілі. У такому разі якість на рівні 192 Кбіт/с буде цілком достатньою. Вищий бітрейт покращить якість звуку, але різниця не буде помітна через високого рівняшуму під час подорожі. Якщо ж музика грає на домашньому комп'ютеріабо портативному плеєрі, то потрібно щонайменше 256 Кбіт/с. Якщо сигнал не піддається змінам, передається на зовнішні пристроїі виводиться на дорогі імпортні колонки, слід по можливості вдаватися до мінімального стиску. Воно можливе при бітрейті 320 Кбіт/с.

Оптимальний бітрейт для різних музичних стилів

Музика із високим бітрейтом потрібна не завжди. Популярна музика, як правило, досить добре звучить за бітрейту 192-256 Кбіт/с. Вища якість можна встановити, але сенсу в цьому немає: поп-композиції недовговічні, тому збереження місця на дисках має бути пріоритетним. Крім того, якість вихідних записів теж посередня, тому підвищення бітрейту може ніяк не вплинути на якість файлу, що відтворюється. Для прослуховування у транспорті та на неофіційних вечірках середньої якості цілком вистачить.

Якщо ж йдеться про класичну музику, твори легендарних рок-гуртів або рідкісні авторські пісні, то якість має бути понад усе. При придбанні такої музики потрібно подивитися на бітрейт, що вказаний на упаковці диска. Якщо пісня завантажується з Інтернету, то така інформація має бути присутня на сторінці завантаження. Крім того, бітрейт відображається у програвачі під час програвання.

Бітрейти відеофайлів

Вище йшлося про те, що таке бітрейти аудіозаписів. Але що таке бітрейт відео? Враховуючи, що відео відтворюється як послідовність звуків та зображень, то визначення бітрейту буде аналогічним. Наявність відеоряду обтяжує файл, але зрештою зображення для процесора - це такі ж нулі та одиниці, як і звуки. Принцип шифрування інформації є однаковим для всіх типів файлів.

У цій статті ми поговоримо про налаштування кодування адуіо, що впливають на якість його звучання. Розуміння налаштувань конвертування допоможе вибрати найбільш підходящий варіант кодування звуку з точки зору відношення розміру файлу до якості звучання.

Що таке бітрейт?

Бітрейт - це кількість даних в одиницю часу, що використовується для передачі аудіо потоку. Наприклад, бітрейт 128 kbps розшифровується як 128 кілобіт за секунду і означає, що для кодування однієї секунди звуку використовується 128 тисяч біт (1 байт = 8 біт). Якщо перевести це значення в кілобайти, то вийде одна секунда звуку займає близько 16 Кб.

Таким чином, чим вищий бітрейт треку, тим більше місця він займає у вас на комп'ютері. Але при цьому, в рамках одного формату, більший бітрейт дозволяє записати звук із вищою якістю. Наприклад, якщо конверувати аудіо-cd в mp3, то при бітрейті 256 kbps, звук буде значно якіснішим, ніж при бітрейті 64 kbps.

Оскільки зараз дисковий простір став досить дешевим, ми рекомендуємо конвертрувати в mp3 з бітрейтом не нижче 192 kbps.

Також розрізняють постійний та змінний бітрейти.

Відмінність постійного бітрейту (CBR) від змінного (VBR)

При постійному бітрейті для кодування всіх ділянок звуку використовується однакова кількість біт. Але структура звуку зазвичай різна і, наприклад, для кодування тиші потрібно значно менше біт, ніж кодування насиченого звуку. Змінний бітрейт, на відміну від постійного, автоматично підлаштовує якість кодування, залежно від складності звуку на тих чи інших його інтервалах. Тобто для ділянок простих з точки зору кодування буде використано нижчий бітрейт, а для складних буде застосовуватися більш висока величина. Використання змінного бітрейту дозволяє досягти більше високої якостізвучання за меншого розміру файлу.

Що таке частота дискретизації?

Дане поняття виникає під час перетворення аналогового сигналув цифровій і означає кількість семплів (вимірів рівня сигналу) в секунду, які здійснюються для перетворення сигналу.

За що відповідає кількість каналів?

Канал, стосовно кодування аудіо - це незалежний звуковий потік. Моно – один потік, стерео – два потоки. Для позначення кількості каналів часто використовують скорочення n.m, де n – це кількість повноцінних звукових каналів, а m – кількість низькочастотних каналів (наприклад 5.1).

Формат mp3. Якість. (Простими словами)
mp3 - цифрове подання аналогового сигналу, який дискредитується (оцифровується) через рівні проміжки часу (із заданою в герцях частотою) і подається в двійковому вигляді(Із заданою точністю - розрядністю в бітах).
Виконавець – Назва.mp3
192kbps 48kHz 16bit CBR stereo
1. Що означає 16kbps або 320kbps, або 192kbps і т.д.
Цифра означає, скільки цифрових даних знадобилося для кодування.
kbps - "кілобайт пе секонд" тобто. кілобайт на секунду.
Біт за секунду, біт/с (англ. bits per second, bps) - базова одиниця виміру швидкості передачі.
*Чим більше це значення, тим якісніший і об'ємніший (Mb) звук.
* 1 байт = 8 біт
* 1 кілобіт = 1024 біт = 128 байт (Б)
* 1 мегабіт = 1048576 біт = 131072 байт = 128 Кбайт
Початківці часто плутають кілобайти з кілобітами, очікуючи на швидкість 256 КБ/c від каналу 256 Кбіт/c (на такому каналі швидкість буде 31,25 КБ/с). Тобто, для завантаження одного мегабайта (1 МВ) інформації на такому каналі потрібно 32,768 секунди.
2.Що означає 44100 Hz чи 44 kHz.
Частота дискретизації - частота взяття відліків під час перетворення аналогового звукового сигналуу цифровій. Виражається числом відліків за секунду або герцах, частота дискретизації за часом формату компакт-диска - 44,1 кГц.
(Простими словами - з якою частотою оцифровується звук)
*Звукові карти підтримують поширені частоти, як і плеєри.
Хоча в редакторах можна зберегти від 2000 Hz до 192 000 Hz. Чим вище частота, тим більше (Mb) і якісніший звук.
3.Що таке 16bit чи 24bit.
Значення амплітуди звуку представлені за допомогою різної кількості бітів (розрядності); звукова доріжка, як правило, оцифровується із розрядністю від 12 до 24 біт.
*Чим краще це значення, тим точніше і чіткіше буде чути різні, але схожі за звучанням інструменти, а також сильно впливає на якість звуку.
4. Що таке ABR, CBR, VBR
ABR розшифровується як Average Bit Rate, тобто усереднений бітрейт, який є гібридом VBR та CBR: бітрейт у кбіт/c задається користувачем, а програма варіює його, постійно підганяючи під заданий бітрейт.
*Простими словами при збереженні mp3 звуку і вибравши VBR 128kbps , це означатиме, що звук кодуватиметься зі змінним (за потребою) бітрейтом не перевищуючи 128kbps .При тиші буде близько 16kbps.
CBR - це постійне якість трохи більше зазначеного, але навіть за тиші буде зазначене значення.
тобто. кодуючи CBR 320kbps 1 хвилину звуку і 1 хвилину тиші кінцеві файли будуть займати однакове значення Mb.
ABR - кодується з постійним зазначеним значенням (наприклад 128kbps) , але за потреби 128kbps порушується і береться вищу значення.
* За якістю краще взяти VBR з частотою 48Hz, потім CBR, ABR, VBR 44,1Hz.
5. Mono. Stereo. Начебто всі знають.
Пізніше напишу інше...

Плюси та мінуси MP3 128 kbps

Стиснення аудіо-даних - штука складна. Нічого не можна сказати заздалегідь... Найпоширеніший на сьогодні формат MPEG Layer3 з потоком 128 кбіт/с забезпечує якість, яка на перший погляд нічим не відрізняється від оригіналу. Його так і називають легковажно - "CD-якість". Тим не менш, майже всі знають, що багато людей повертають ніс від такої "CD якості". Що ж так? Чому цієї якості недостатньо? Дуже складне питання. Я сам противник стиску в 128 кбіт, тому що результат часом виходить безглуздий. Але в мене є кілька записів в 128 кбіт, до яких я практично не можу причепитися. Чи підходить потік 128 для кодування того чи іншого матеріалу - з'ясовується, на жаль, тільки після прослуховування багаторазового результату. Заздалегідь нічого сказати не вдається — особисто мені не відомі ознаки, які б дозволили заздалегідь визначити успішність результату. Але часто потоку 128 цілком вистачає якісного кодування музики.

Для кодування в 128 кбіт/с краще використовувати продукти від Fraunhofer — MP3 Producer 2.1 або пізніші. Крім MP3enc 3.0 - в ньому є прикра помилка, що призводить до дуже поганого кодування високих частот. Версії вище 3.0 не страждають на цей недолік.

Насамперед, трохи загальних слів. Сприйняття звукової картини людиною дуже залежить від симетричної передачі двох каналів (стерео). Різні спотворення в різних каналах набагато гірші, ніж однакові. Взагалі кажучи, забезпечення якомога більш однакових характеристик звуку в обох каналах, але тим часом різний матеріал(інакше яке це стерео) — велика проблема звукозапису, яка зазвичай недооцінюється. Якщо для кодування моно ми можемо використовувати 64 кбіт/с, то для кодування стерео в режимі двох каналів нам не вистачить 64 кбіт/с на канал — стерео результат буде звучати набагато неправильніше, ніж кожен канал окремо. У більшості продуктів Fraunhofer взагалі поставлена межа для моно в 64 кбіт/с — і я ще не бачив монофонічного запису (чистого запису — без шумів чи спотворень), який би потребував більшого потоку. Наші пристрасті до монофонічного звуку чомусь набагато слабші, ніж до стереофонічного — мабуть, він просто не сприймається нами серйозно:) — з психоакустичної точки зору він є просто звуком, що виходить із колонки, а не спробою повної передачі якоїсь звукової картини.

Спроба передачі стерео сигналів висуває набагато жорсткіші вимоги — зрештою, ви колись чули про психоакустичну модель, яка враховує маскування одного каналу іншим? Також ігноруються деякі зворотні, скажімо так, ефекти — наприклад, такий собі стерео ефект, який розрахований на обидва канали відразу. Окремо взятий лівий канал маскує саму собі свою частину ефекту — ми не почуємо його. Але наявність правого каналу — другої частини ефекту — змінює наше сприйняття лівого каналу: ми підсвідомо більше очікуємо почути ліву частину ефекту, і цю зміну психоакустики теж треба враховувати. При слабкому стисканні — 128 кбіт на канал (всього 256 кбіт) ці ефекти сходять нанівець, оскільки кожен канал представлений досить повно, щоб із запасом перекривати потребу в симетричності передачі, але для потоків близько 64 кбіт на канал це велика проблема — передача тонких нюансів спільного. сприйняття обох каналів вимагає більш точної передачі, ніж це на сьогоднішній день можливо в таких потоках.

Можна було, звичайно, робити повноцінну акустичну модель для двох каналів, але індустрія пішла іншим шляхом, який загалом еквівалентний цьому, але набагато простіше. Багато алгоритмів із загальною назвою Joint Stereо — часткове вирішення вищеописаних проблем. Більшість алгоритмів зводиться до того, що виділяється центральний канал та різницевий канал – mid/side stereo. Центральний канал несе основну аудіо інформацію і є звичайним моно каналом, утвореним з двох вихідних каналів, а різницевий — решту інформації, що дозволяє відновити вихідний стерео звук. Сама по собі ця операція цілком оборотна - це просто інший спосіб подання двох каналів, з яким легше працювати при стисканні стереоінформації.

Далі зазвичай відбувається стиснення окремо центрального та різницевого каналу, при цьому використовується той факт, що різницевий канал у реальній музиці щодо бідний – обидва канали мають дуже багато спільного. Баланс стиснення на користь центрального та різницевого каналу вибирається на ходу, але в основному набагато більший потік виділяється на центральний канал. Складні алгоритми вирішують, що нам Наразікраще - більш правильна просторова картина або якість передачі загальної для обох каналів інформації, або просто стиснення без mid/side стерео - тобто в режимі подвійного каналу.

Як не дивно, але стереофонічний стиск — най слабке місцерезультату стиснення Layer3 128 кбіт/с. Не можна критикувати творців формату — це все-таки найменше можливе зло. Тонка стереофонічна інформація майже сприймається свідомо (якщо не брати до уваги явних речей — грубе розташування інструментів у просторі, штучні ефекти тощо), тому якість стерео оцінюється людиною в останню чергу. Зазвичай щось завжди не дає дістатися до цього: комп'ютерні колонки, наприклад, вносять набагато суттєвіші недоліки, і до таких тонкощів як неправильна передача просторової інформації справа просто не доходить.

Не варто думати, що те, що не дає розчути цей недолік на комп'ютерній акустиці, - це те, що колонки розставлені на відстань 1 метр, з боків монітора, не створюючи достатньої стереобази. Справа навіть не в цьому.. По-перше, якщо вже справа доходить до таких колонок, то людина сидить прямо перед ними — а це створює той самий ефект, що й колонки в кутах кімнати, і навіть більший: на нормальній акустиці і гарній гучності ви майже ніколи не зможете виділити точне просторове розташування звуків (йдеться не про звукову картину, яку, навпаки, комп'ютерні колонки ніколи не побудують, а про безпосереднє, свідоме, сприйняття відмінності між каналами). Комп'ютерні колонки(у стандартне використання) або навушники дають набагато чіткіше безпосереднє сприйняття стерео, ніж звичайна музична акустика.

Прямо скажемо — для безпосереднього, інформаційно-пізнавального сприйняття звуку нам не дуже потрібна точна стерео інформація. Безпосередньо виявити різницю в цьому аспекті між оригіналом та Layer3 128 кбіт/с досить складно, хоч і можна. Потрібен або великий досвід, або посилення ефектів, що цікавлять. Найпростіше, що можна зробити — віртуально рознести канали далі, ніж це можливо фізично. Зазвичай саме цей ефект включається до дешевої комп'ютерної технікикнопочкою "3D Sound". Або в бум-боксах, колонки яких не відокремлюються від корпусу пристрою і рознесені надто слабо для передачі красивого стерео природним шляхом. Відбувається перехід просторової інформації до специфічної аудіо інформації обох каналів — збільшується різниця між каналами.

Я застосував сильніший ефект, ніж зазвичай прийнято, щоб краще чути різницю. Подивіться як має звучати після кодування в 256 кбіт/с з подвійним каналом (256_channels_wide.mp3, 172 кБ), і як звучить після кодування в 128 кбіт/с з joint stereo (128_channels_wide.mp3, 172 кБ).

Відступ. Обидва ці файли - mp3 з 256 кбіт/с, закодовані за допомогою mp3 Producer 2.1. Не варто плутати: я, по-перше, тестую mp3, і по-друге — викладаю результати тестування mp3 у mp3;). Все було так: спочатку я закодував уривок музики в 128 і 256. Потім розтиснув ці файли, застосував обробку (експандер стерео), стиснув у 256 – лише для економії місця – і виклав сюди.

До речі, тільки при 256 кбіт/с в mp3 Producer 2.1 вимикається joint stereo і включається dual channels — два незалежні канали. Навіть 192 кбіт/с у Producer 2.1 — це якийсь варіант joint stereo, тому що мої приклади дуже неправильно стискалися менший ніж 256 кбіт/с потік. Це основна причина того, що "повна" якість починається саме з 256 кбіт/с - історично склалося так, що будь-який менший потік у стандартних комерційних продуктах від Fraunhofer (до 98 року) - це joint stereo, що у будь-якому випадку неприйнятно для цілком правильної передачі. Інші (або пізні) продукти, в принципі, дозволяють довільно вибирати – joint stereo або подвійний канал – для будь-якого потоку.

Про результати

В оригіналі (якому в даному випадку точно відповідає 256 кбіт/с) ми чули звук з посиленим каналом і ослабленим центральним. Дуже добре було чути реверберацію голосу, як і взагалі всілякі штучні реверберації та луна — ці просторові ефекти йдуть здебільшого у канал. Якщо говорити конкретно, то в даному випадку було 33% центрального каналу та 300% різницевого. Абсолютний ефект - 0% центрального каналу - включається на апаратурі типу музичних центрів кнопочкою типу "karaoke vocal fader", "voice cancelation/remove" або подібними, сенс яких прибрати голос з фонограми. Сенс операції в тому, що голос зазвичай записаний лише на центральному каналі – однакова присутність у лівому та правому каналі. Прибравши центральний канал, ми прибираємо голос (і багато чого ще, тому ця функція в реального життядосить марна). Якщо у вас є така штука – можете самі послухати з нею свої mp3 – виходить кумедний детектор joint stereo.

на даному прикладівже можна побічно зрозуміти, що ми втратили. По-перше, стало помітно гірше чути всі просторові ефекти — вони просто загубилися. Натомість по-друге — булькання — це результат переходу просторової інформації в звукову. Чому відповідало воно в просторі — і просто весь час компонентам звуку, що майже випадково переміщаються, нікому "просторовому шуму", якого не було у вихідній фонограмі (вона витримує хоч повний перехід просторової інформації в звукову без появи сторонніх ефектів). Відомо, що такого типу спотворення при кодуванні в низькі потоки часто з'являються безпосередньо, без будь-яких додаткових обробок. Просто безпосередні звукові спотворення (яких майже завжди немає) сприймаються свідомо і відразу, а стереофонічні (які при joint stereo є завжди і у великій кількості) - лише підсвідомо і в процесі прослуховування протягом деякого часу.

Це основна причина, яка не дає звуку Layer3 128 кбіт/с вважатися повним CD якістю. Справа в тому, що саме собою перетворення стерео звукумоно дає сильні негативні ефекти — часто один і той же звук повторюється в різних каналах з невеликою затримкою, що при змішуванні дає просто розмитий в часі звук. Моно звук, зроблений зі стерео звуку, звучить набагато гірше, ніж початково монофонічний запис. Різнивий канал, на додаток до центрального (змішаного моно каналу), дає повний зворотний поділ на правий і лівий, але часткове відсутність різницевого каналу (недостатнє його кодування) приносить не тільки недостатню просторову картину, але й ці неприємні ефекти змішування стереофонічного звуку в один моно канал.

Коли всі інші перешкоди усунуті - апаратура хороша, тональне забарвлення і динаміка незмінна (потоку цілком вистачає для кодування центрального каналу) - все одно залишиться. Але бувають фонограми, записані таким чином, що негативні ефекти стиснення на основі mid/side stereo не виявляються - і тоді 128 кбіт/с дає таку повну якість, що і 256 кбіт/с. Приватний випадок — фонограма, можливо, і багата на сенс стерео інформації, але бідна звуковою інформацією- Наприклад, повільна гра на фортепіано. У такому випадку для кодування каналу різниці виділяється потік цілком достатній для передачі точної просторової інформації. Бувають і складніше зрозумілі випадки — активне, заповнене різними інструментами аранжування, проте звучить на 128 кбіт/с дуже добре — але таке зустрічається рідко, може в одному випадку з п'яти-десяти. Проте трапляється.

Власне до звуку. Складно виділити безпосередні дефекти звучання центрального каналу Layer3 128 кбіт/с. Відсутність передачі частот вище 16 кГц (вони, до речі, дуже рідко, але все ж таки передаються) і деяке зменшення амплітуди дуже високих - строго кажучи саме по собі - просто нісенітниця. Людина за кілька хвилин повністю звикає і не до таких тональних спотворень, це не може вважатися сильними негативними чинниками. Так, це спотворення, але для сприйняття "повної якості" - далеко другорядні. З боку центрального, безпосередньо звукового, каналу можливі неприємності іншого роду - різке обмеження доступного потоку для кодування цього каналу, викликане просто збігом обставин - дуже багата просторова інформація, завантажений різноманітними звуками момент, часті неефективні короткі блоки і як наслідок - повністю витрачений резервний буфер потоку. Це трапляється, але відносно рідко, і то якщо такий факт має місце, то зазвичай помітний на великих фрагментах безперервно.

Показати дефекти такого роду у явному вигляді, щоб помітив будь-яка людина, дуже складно. Їх легко помітить навіть без обробки людина, яка звикла мати справу зі звуком, але для звичайного некритичного слухача це може здатися абсолютно невідмінним від оригіналу звучанням і абстрактним копанням у тому, чого насправді немає.. І все-таки подивіться приклад. Для його виділення довелося застосувати сильну обробку дуже зменшити вміст середніх і високих частот після декодування. Прибравши заважають почути ці нюанси частоти, ми, звичайно, порушуємо роботу моделі кодування, але це допоможе краще зрозуміти, що ми втрачаємо. Отже - як має звучати (256_bass.mp3, 172 кБ), і що виходить після декодування та обробки потоку 128 кбіт/с (128_bass.mp3, 172 кБ). Зверніть увагу на помітну втрату безперервності, плавності звучання басу та деякі інші аномалії. Передачею низьких частоту разі пожертвували на користь вищих частот і просторової інформації.

Потрібно зауважити, що роботу акустичної моделі стиснення можна спостерігати (при уважному вивченні та маючи деякий досвід роботи зі звуком) і на 256 кбіт/с, якщо застосувати більш-менш сильний еквалайзер. Якщо зробити це і потім послухати, можна буде іноді (досить часто) помічати неприємні ефекти (дзвін/булькання). Більш важливим є те, що звук після такої процедури матиме неприємний, нерівний характер, який дуже складно помітити відразу, але це буде помітно при тривалому прослуховуванні. Різниця між 128 і 256 лише в тому, що в потоці 128 кбіт/с ці ефекти часто існують без будь-якої обробки. Їх теж складно помітити одразу, але вони є – приклад із басом дає деяке уявлення про те, де їх шукати. Почути ж це у високих потоках (понад 256 кбіт/с) без обробки просто не можна. Ця проблема не стосується високих потоків, але є те, що іноді (дуже рідко) не дає вважати навіть Layer3 — 256 кбіт/з оригіналом — це часові параметри (детальніше буде в окремій статті пізніше: див. MPEG Layer3 — 256 /посилання на іншу) статтю/).

Є фонограми, яких не стосується і проблема. Найпростіше перерахувати чинники, які, навпаки, призводять до появи вищеописаних спотворень. Якщо жоден з них не виконаний — є великий шанс повністю успішне, в цьому аспекті, кодування в Layer3 — 128 кбіт/с. Все залежить, однак, від конкретного матеріалу.

Насамперед — шум, скажімо так, апаратний. Якщо фонограма відчутно шумить - її дуже небажано кодувати в маленькі потоки, так як занадто велика частина потоку йде на кодування непотрібної інформації, яка до того ж не дуже піддається розумному кодуванню за допомогою акустичної моделі.

Просто шум - усілякі сторонні звуки. Монотонний шум міста, вулиці, ресторану тощо, на тлі якого відбувається основна дія. Такого типу звуки дають дуже багатий потік інформації, яку слід кодувати, і алгоритм буде змушений чимось жертвувати в основному матеріалі.
Неприродні сильні стереоефекти. Це, швидше, відноситься до попереднього пункту, але в будь-якому випадку занадто велика частина потоку йде на різницевий канал, і кодування центрального каналу сильно погіршується.
Сильні фазові спотворення різні для різних каналів. У принципі, це стосується скоріше недоробок поширених на даний час алгоритмів кодування, ніж до стандарту, але все-таки. Починаються найдикіші спотворення через повний зрив всього процесу. До таких спотворень вихідної фонограми в більшості випадків наводить запис на касетну техніку і наступне оцифрування, особливо при програванні недорогими магнітофонами з неякісним реверсом. Головки стоять криво, стрічка мотається косо, і канали трохи затримуються один щодо іншого.
Просто надто перевантажений запис. Дуже грубо кажучи - великий симфонічний оркестр грає весь разом:). Зазвичай у результаті стиску в 128 кбіт/с виходить щось таке дуже схематичне — камерні, мідні, ударні, соліст. Зустрічається, звісно, у класиці.

Інший полюс - те, що зазвичай непогано стискається:

Сольний інструмент із відносно простим звуком — гітара, фортепіано. Скрипка, наприклад, має надто наповнений спектр і звучить зазвичай не дуже добре. Від скрипки скрипаля насправді залежить саме твір. Непогано також зазвичай стискаються кілька інструментів – барди чи КСП, наприклад (інструмент + голос).
Якісна сучасного виготовленнямузика. Мається на увазі не музична якість, а якість звуку — зведення, розташування інструментів, категорична відсутність складних глобальних ефектів, звуків, що прикрашають, і взагалі чогось зайвого. У цю категорію, наприклад, легко потрапляє вся сучасна попса, також деяка доля, і взагалі досить багато.
Агресивна, "електрогітарна" музика. Ну щоб якось навести приклад — рання Metallica (та й сучасна загалом теж). [Пам'ятайте, мова не про музичні стилі! просто приклад.]

Варто зауважити, що на стиск Layer3 майже не справляють враження такі параметри, як наявність/відсутність високих частот, басів, глухе/дзвінке забарвлення і т.д. Залежність є, але настільки слабка, що можна не брати до уваги.

На жаль (чи на щастя?), справа впирається в саму людину. Багато людей без підготовки та попереднього виділення чують різницю між потоками близько 128 кбіт/с та оригіналом, багато ж навіть синтетичні екстремальні приклади не сприймають на слух як відмінності. Перших не потрібно ні в чому переконувати, других же такими прикладами і не переконаєш… Можна було б просто сказати, що комусь є різниця, а комусь ні, якби не одне: у процесі слухання музики з часом наше сприйняття все час покращується. Те, що здавалося гарною якістю вчора, завтра може такою вже не здатися — так завжди. І якщо досить безглуздо (принаймні на мій погляд) стискати в 320 кбіт/с порівняно з 256 кбіт/с — виграш уже не надто важливий, хоч і зрозумілий, то зберігати музику хоча б у 256 кбіт/с все ж таки варто.

Що краще 128 чи 320 кбіт. Найбільш поширені помилки на тему цифрового звуку. Яке зазвичай використовується стиск