Что такое битрейты? Как они влияют на качество музыки и видео? Наиболее распространенные заблуждения на тему цифрового звука Битрейт 128 кбит с

А вы когда-нибудь задумывались, что именно теряется при сжатии из lossless в mp3 128 kbps или 320 kbps?
Я проверил и результат показался интересным. В первую очередь предлагаю пройти опрос, чтобы понять для себя слышите ли вообще разницу. Если не уверены, что слышите или уверены, что не слышите, то предлагаю к вашему вниманию простую и изящную идею: надо взять и столкнуть лбом две звуковые волны одна из которых будет находиться в противофазе, соответственно при сведении двух треков будет преимущественно слышно то, что не погасилось. Интересные графики пока не обещаю, но зато вы сможете сами на своей системе услышать какие именно звуки потерялись при сжатии из flac в mp3 128\320 kbps, архив с примерами в конце статьи.
Опрос
Необходимо скачать и послушать 12 треков по 30 секунд. Затем указать для каждой из 4 композиций один из 3 вариантов (128 kbps, 320 kbps или lossless).
Опрос анонимный, но можете указать уникальный хэш и сказать его мне, в крайнем случае опубликовать свое мнение здесь, но обязательно под спойлером. Опрос будет длиться до 25.02, после опубликую ключ и статистику.
Файлы на Яндекс Диске , зеркало на Дропбоксе (~80Мб).
Исходные данные
The Black Keys - Everlasting Light (flac, 44100 Hz, 24-Bit, 1613 kbps), ознакомиться можно на Youtube .
Ludovico Einaudi - Drop (flac, 96000 Hz, 24-Bit, 2354 kbps), ознакомиться можно на Яндекс Музыка .
CC Coletti - Rock and Roll (flac, 192000 Hz, 24-Bit, 4845 kbps), ознакомиться можно на Youtube .
Annihilator - Ultra-motion (flac, 44100 Hz, 16-bit, 1022 kbps), ознакомиться можно на Youtube .
Параметры конвертации в mp3
44.1kHz, stereo, 128 kbps или 320 kbps
Описание эксперемента
Исходные файлы режутся на куски длительностью по 10 секунд, каждый из кусочков экспортируется в wav. После импортирования полученных треков в начало каждого добавляется 2 секунды тишины и секундный тоновый сигнал, затем конвертируются в mp3. После импортирования mp3 файлов выясняется, что относительно оригинала, полученный файл «ушел вперед». Это не баг, это . Производим синхронизацию относительно заданного тонового сигнала у оригинального (я пробовал для каждого файла mp3 несколько значений, которые впоследствии уточнял до наилучшего результата), избавляемся от тонового сигнала, тишины и полученные треки экспортируем в wav. Теперь осталось инвертировать треки, чтобы получились разнонаправленные пики, и свести с оригиналом.
Результат
Не открою Америку… Да, разница есть. Да, особенно при сжатии до 128kbps. Да, зависит от музыки. Да, еще больше от аудиотракта.
Сделать самостоятельный вывод и услышать разницу вы можете, скачав файлы на

В наши дни очень много разговоров о том, что мы потеряли настоящую музыку с приходом форматов сжимающих аудио, таких, как MP3, AAC и похожих. Действительно ли это так? Спасут ли музыку Lossless форматы? Может ли вообще неподготовленный слушатель отличить музыку в форматах MP3 от FLAC? Давайте разберемся в этом вопросе.

Что такое битрейт (Bitrate)?

Вероятно, вы уже слышали термин «битрейт» раньше, и вы, вероятно, имеете общее представление о том, что это значит, но, возможно, неплохо познакомиться с ее официальным определением, чтобы вы знали, как все это работает.

Битрейт — это число бит или количеству данных, которые обрабатываются в течение определенного периода времени. В аудио это обычно означает килобит в секунду. Например, музыка, которую вы покупаете в iTunes, составляет 256 килобит в секунду, то есть в каждой секунде песни содержится 256 килобайт данных.

Чем выше битрейт трека, тем больше места он займет на вашем компьютере . Как правило, аудио CD занимает довольно много места, поэтому стало обычной практикой сжимать эти файлы, чтобы вы могли записать больше музыки на ваш жесткий диск (или iPod, Dropbox или что-то еще). Именно здесь вступают в спор форматы «без потерь» и «с потерями».

Lossless и Lossy форматы: в чём разница?


Когда мы говорим «без потерь», мы имеем в виду, что мы действительно не изменили исходный файл . То есть мы скопировали трек с компакт-диска на наш жесткий диск, но не сжали его до такой степени, что мы потеряли какие-либо данные. Это, по сути, так же, как и оригинальная дорожка компакт-диска.

Однако, чаще всего вы, вероятно, копируете свою музыку в Lossy формате. То есть вы взяли компакт-диск, скопировали его на жесткий диск и сжали треки, чтобы они не занимали много места. Типичный альбом, вероятно, занимает 100 МБайт или около того. Тот же альбом в формате без потерь, такой как (также известный как Apple Lossless), займет около 300 Мбайт, так что стало обычной практикой использовать форматы с потерями для более быстрой загрузки и большей экономии жесткого диска.

Проблема заключается в том, что когда вы сжимаете файл для экономии места, вы удаляете куски данных. Точно так же, как когда вы берете изображение с высоким качеством, и сжимаете его в JPEG, ваш компьютер берет исходные данные и «обманывает» определенные части изображения, делая его в основном таким же, но с некоторой потерей ясности и качественный.

В качестве примера возьмем два изображения, приведенных ниже : правый справа явно сжат, и в результате качество уменьшилось.

Помните, что вы экономите место на жестком диске сжимая музыку в Lossy форматы, что может иметь большое значение для iPhone с 32 ГБ памяти, но по соотношению объём/качество это всего лишь компромисс.

Существуют различные уровни сжатия : 128 Кбит/с, например, занимают очень мало места, но также будут иметь низкое качество воспроизведения, чем более крупный файл 320 Кбит/с, который, в свою очередь, ниже качеством, чем эталонный файл с 1,411 Кбит/с. 1,411 Кбит/с — это качество уровня Audio CD, которого, в большинстве случаев, более чем достаточно.

Вся проблема не в том, как сильно сжата музыка, а на каком оборудовании вы её слушаете.

Действительно ли битрейт имеет значение?


Поскольку память с каждым годом становиться всё дешевле, прослушивание звука с более высоким битрейтом, или вовсе в Lossless форматах, начинает становиться всё более популярной. Но стоит ли это времени, усилий и занятого объёма памяти в вашем телефоне или компьютере?

Я не люблю отвечать на вопросы таким образом, но, к сожалению, ответ: это зависит.

Часть уравнения — это оборудование, которое вы используете . Если вы используете качественную пару наушников или динамиков, вы привыкли к большому частотному и динамическому диапазонам. Таким образом, вы, скорее всего, заметите недостатки, которые возникают при сжатии музыки в файлы с более низким битрейтом. Вы можете заметить, что в низкокачественных MP3-файлах отсутствует определенный уровень детализации; Тонкие фоновые треки могут быть более трудными для восприятия, верхние и низкие частоты не будут такими динамичными, или вы можете услышать искажения в вокале солиста. В этих случаях вам может потребоваться дорожка с более высоким битрейтом.

Однако, если вы слушаете свою музыку с помощью пары дешёвых наушников на вашем iPod , вы, вероятно, не заметите разницы между файлом со скоростью 128 Кбит/с и файлом 320 Кбит/с, не говоря уже музыке без потерь 1,411 Кбит/с. Помните, когда я показывал вам изображение несколькими абзацами выше и отметил, что вам, вероятно, пришлось вглядываться в него, чтобы увидеть недостатки? Ваши наушники подобны усеченной версии изображения: они сделают эти недостатки трудными для восприятия, так как они физически не способны сыграть вам музыку так, как нужно.

Другая часть уравнения, конечно, ваши собственные уши. Некоторым людям может быть очень тяжело отличить два разных битрейта по простой причине — они мало слушают музыку. Навык слуха, как и любой другой, развивается с практикой. Если вы часто и много слушаете любимую музыку, ваш слух становится более точным и начинает улавливать мелкие детали и полутона. Но до тех пор не имеет особого значения, какой битрейт вы используете?

Так какой формат и битрейт вы должны выбрать для себя? Хватит ли вам 320 Кбит/с, или вам обязательно нужен Lossless формат?

Дело в том, что трудно услышать разницу между файлом без потерь и MP3-файлом 320 Кбит/с. Чтобы услышать разницу, вам понадобится серьезное высококачественное оборудование, хороший слух и определенный тип музыки (например, классическа или джаз).

Для подавляющего большинства людей, 320 Кбит/с более чем достаточно для прослушивания.

Что ещё нужно учесть?


Музыка, записанная , может быть полезна. Файлы, в формате Lossless более надежны в будущем, в том смысле, что вы всегда можете сжать их до Lossy формата, когда вам это понадобится, но вы не можете сделать наоборот и восстановить исходное CD качество из MP3 файла. Это, опять же, одна из фундаментальных проблем с онлайн-магазинами музыки: если вы создали огромную библиотеку музыки в iTunes и в один прекрасный день решили, что вам нужно больше битрейта, вам придется снова ее покупать, но только на этот раз в формате CD.

Когда это возможно, я всегда покупаю или копирую музыку в Lossless формате для целей резервного копирования.

Я понимаю, что аудиофилам, это как иголка под ногти. Как я уже говорил, все зависит от вас, вашего слуха и оборудования, которое у вас есть.

Сравните два трека, записанного в Lossless и Lossy форматах. Попробуйте несколько разных аудиоформатов, послушайте их некоторые время и наблюдайте, будет ли разница для вас или нет.

В худшем случае вы потратите несколько часов на прослушивание своей любимой музыки — не так страшно, правда? Наслаждайся этим!

Формат mp3 . Качество. (Простыми словами)
mp3 - цифровое представление аналогового сигнала, который дискредитируется (оцифровывается) через равные промежутки времени (с заданной в герцах частотой) и представляется в двоичном виде (с заданной точностью - разрядностью в битах).

Исполнитель - Название.mp3
192kbps 48kHz 16bit CBR stereo

1. Что означает 16kbps или 320kbps , или 192kbps и т.д.
Цифра означает сколько цифровых данных понадобилось для кодировки.
kbps -"килобайт пё секонд" т.е. килобайт в секунду.
Бит в секунду, бит/с (англ. bits per second, bps) - базовая единица измерения скорости передачи информации.

*Чем больше это значение, тем качественней и объёмистей (Mb) звук.

* 1 байт = 8 бит
* 1 килобит = 1024 бит = 128 байт (Б)
* 1 мегабит = 1048576 бит = 131072 байт = 128 Кбайт

Начинающие часто путают килобайты c килобитами, ожидая скорости 256 КБ/c от канала 256 Кбит/c (на таком канале скорость будет 31,25 КБ/с). То есть, для загрузки одного мегабайта (1 МB) информации на таком канале потребуется 32,768 секунды.

2.Что означает 44100 Hz или 44 kHz.

Частота дискретизации - частота взятия отсчетов при преобразовании аналогового звукового сигнала в цифровой. Выражается числом отсчетов в секунду или в герцах, частота дискретизации по времени формата компакт-диска - 44,1 кГц.

(Простыми словами - с какой частотой оцифровыван звук)

*Звуковые карты поддерживают распространённые частоты, как и плееры.
Хотя в редакторах можно сохранить от 2000 Hz до 192 000 Hz .Чем выше частота, тем больше (Mb) и качественней звук.

3.Что такое 16bit или 24bit.
Значения амплитуды звука представлены с помощью разного числа битов (разрядности); звуковая дорожка, как правило, оцифровывается с разрядностью от 12 до 24 бит.
*Чем лучше это значение, тем точнее и чётче будет слышно разные,но похожие по звучанию инструменты, а также сильно влияет на качество звука.
4. Что такое ABR , CBR , VBR
ABR расшифровывается как Average Bit Rate, то есть усредненный битрейт, который является гибридом VBR и CBR: битрейт в кбит/c задаётся пользователем, а программа варьирует его, постоянно подгоняя под заданный битрейт.

*Простыми словами при сохранении mp3 звука и выбрав VBR 128kbps , это будет означать, что звук будет кодироваться с переменным (по небходимости) битрейтом не превышая 128kbps .При тишине будет около 16kbps.

CBR - это постоянное качество не более указанного, но даже при тишине будет указанное значение.
т.е. кодируя CBR 320kbps 1-ну минуту звука и 1-ну минуту тишины конечные файлы будут занимать одинаковое значение Mb.

ABR - кодируется с постоянным указанным значением (например 128kbps) , но при необходимости 128kbps нарушается и берётся более высокое значение.
*По качеству лучше взять VBR c чаcтотой 48Hz ,потом CBR ,ABR , VBR 44,1Hz.
5. Mono . Stereo .Вроде все знают.

Позже напишу остальное...

А вы когда-нибудь задумывались, что именно теряется при сжатии из lossless в mp3 128 kbps или 320 kbps?
Я проверил и результат показался интересным. В первую очередь предлагаю пройти опрос, чтобы понять для себя слышите ли вообще разницу. Если не уверены, что слышите или уверены, что не слышите, то предлагаю к вашему вниманию простую и изящную идею: надо взять и столкнуть лбом две звуковые волны одна из которых будет находиться в противофазе, соответственно при сведении двух треков будет преимущественно слышно то, что не погасилось. Интересные графики пока не обещаю, но зато вы сможете сами на своей системе услышать какие именно звуки потерялись при сжатии из flac в mp3 128\320 kbps, архив с примерами в конце статьи.
Опрос
Необходимо скачать и послушать 12 треков по 30 секунд. Затем указать для каждой из 4 композиций один из 3 вариантов (128 kbps, 320 kbps или lossless).
Опрос анонимный, но можете указать уникальный хэш и сказать его мне, в крайнем случае опубликовать свое мнение здесь, но обязательно под спойлером. Опрос будет длиться до 25.02, после опубликую ключ и статистику.
Файлы на Яндекс Диске , зеркало на Дропбоксе (~80Мб).
Исходные данные
The Black Keys - Everlasting Light (flac, 44100 Hz, 24-Bit, 1613 kbps), ознакомиться можно на Youtube .
Ludovico Einaudi - Drop (flac, 96000 Hz, 24-Bit, 2354 kbps), ознакомиться можно на Яндекс Музыка .
CC Coletti - Rock and Roll (flac, 192000 Hz, 24-Bit, 4845 kbps), ознакомиться можно на Youtube .
Annihilator - Ultra-motion (flac, 44100 Hz, 16-bit, 1022 kbps), ознакомиться можно на Youtube .
Параметры конвертации в mp3
44.1kHz, stereo, 128 kbps или 320 kbps
Описание эксперемента
Исходные файлы режутся на куски длительностью по 10 секунд, каждый из кусочков экспортируется в wav. После импортирования полученных треков в начало каждого добавляется 2 секунды тишины и секундный тоновый сигнал, затем конвертируются в mp3. После импортирования mp3 файлов выясняется, что относительно оригинала, полученный файл «ушел вперед». Это не баг, это . Производим синхронизацию относительно заданного тонового сигнала у оригинального (я пробовал для каждого файла mp3 несколько значений, которые впоследствии уточнял до наилучшего результата), избавляемся от тонового сигнала, тишины и полученные треки экспортируем в wav. Теперь осталось инвертировать треки, чтобы получились разнонаправленные пики, и свести с оригиналом.
Результат
Не открою Америку… Да, разница есть. Да, особенно при сжатии до 128kbps. Да, зависит от музыки. Да, еще больше от аудиотракта.
Сделать самостоятельный вывод и услышать разницу вы можете, скачав файлы на

Плюсы и минусы MP3 128 kbps

Сжатие аудио-данных — штука сложная. Ничего нельзя сказать заранее… Самый распространенный на сегодня формат — MPEG Layer3 с потоком 128 кбит/с — обеспечивает качество, которое на первый взгляд ничем не отличается от оригинала. Его так и называют легкомысленно — "CD-качество". Тем не менее, почти все знают, что многие люди воротят нос от такого "CD качества". Что же не так? Почему этого качества недостаточно? Очень сложный вопрос. Я сам противник сжатия в 128 кбит, так как результат порой получается дурацкий. Но у меня есть некоторое количество записей в 128 кбит, к которым я практически не могу придраться. Подходит ли поток 128 для кодирования того или иного материала — выясняется, к сожалению, только после многократного прослушивания результата. Заранее ничего сказать не удается — лично мне не известны признаки, которые позволили бы заранее определить удачность результата. Но часто потока 128 полностью хватает для качественного кодирования музыки.

Для кодирования в 128 кбит/с лучше всего использовать продукты от Fraunhofer — MP3 Producer 2.1 или более поздние. Кроме MP3enc 3.0 — в нем есть досадная ошибка, приводящая к очень плохому кодированию высоких частот. Версии выше 3.0 не страдают этим недостатком.

Прежде всего, немного общих слов. Восприятие звуковой картины человеком очень сильно зависит от симметричной передачи двух каналов (стерео). Разные искажения в разных каналах — гораздо хуже, чем одинаковые. Вообще говоря, обеспечение как можно более одинаковых характеристик звука в обоих каналах, но между тем разный материал (иначе какое же это стерео) — большая проблема звукозаписи, которая обычно недооценивается. Если для кодирования моно мы можем использовать 64 кбит/с, то для кодирования стерео в режиме просто двух каналов нам не хватит 64 кбит/с на канал — стерео результат будет звучать гораздо более неправильно, чем каждый канал в отдельности. В большинстве продуктов Fraunhofer вообще поставлен предел для моно в 64 кбит/с — и я еще не видел монофонической записи (чистой записи — без шумов или искажений), которая потребовала бы большего потока. Наши пристрастия к монофоническому звуку почему-то гораздо более слабы, чем к стереофоническому — видимо, он просто не воспринимается нами серьезно:) — с психоакустической точки зрения он представляет собой просто звук, исходящий из колонки, а не попытка полной передачи какой-то звуковой картины.

Попытка передачи стерео сигналов выдвигает гораздо более жесткие требования — в конце концов, вы когда-нибудь слышали про психоакустическую модель, которая учитывает маскирование одного канала другим? Также игнорируются некоторые обратные, скажем так, эффекты — например, некий стерео эффект, который рассчитан на оба канала сразу. Отдельно взятый левый канал маскирует сам в себе свою часть эффекта — мы не услышим его. Но наличие правого канала — второй части эффекта — изменяет наше восприятие левого канала: мы подсознательно больше ожидаем услышать левую часть эффекта, и это изменение нашей психоакустики тоже нужно учитывать. При слабом сжатии — 128 кбит на канал (итого 256 кбит) эти эффекты сходят на нет, поскольку каждый канал представлен достаточно полно чтобы с запасом перекрывать надобность в симметричности передачи, но для потоков около 64 кбит на канал это большая проблема — передача тонких нюансов совместного восприятия обоих каналов требует более точной передачи, чем это на сегодняшний день возможно в таких потоках.

Можно было, конечно, делать полноценную акустическую модель для двух каналов, но индустрия пошла по другому пути, который в общем то эквивалентен этому, но гораздо проще. Множество алгоритмов с общим названием Joint Stereо — частичное решение вышеописанных проблем. Большинство алгоритмов сводится к тому, что выделяется центральный канал и разностный канал — mid/side stereo. Центральный канал несет основную аудио информацию и представляет собой обычный моно канал, образованный из двух исходных каналов, а разностный — остальную информацию, позволяющую восстановить исходный стерео звук. Сама по себе эта операция полностью обратима — это просто другой способ представления двух каналов, с которым легче работать при сжатии стерео информации.

Далее обычно происходит сжатие отдельно центрального и разностного канала, при этом используется тот факт, что разностный канал в реальной музыке относительно беден — оба канала имеют очень много общего. Баланс сжатия в пользу центрального и разностного канала выбирается на ходу, но в основном гораздо больший поток выделяется на центральный канал. Сложные алгоритмы решают, что нам в данный момент предпочтительнее — более правильная пространственная картина или качество передачи общей для обоих каналов информации, или же просто сжатие без mid/side стерео — то есть в режиме двойного канала.

Как ни странно, но стереофоническое сжатие — самое слабое место результата сжатия в Layer3 128 кбит/с. Нельзя критиковать создателей формата — это всё таки меньшее возможное зло. Тонкая стереофоническая информация почти не воспринимается сознательно (если не брать во внимание явных вещей — грубое расположение инструментов в пространстве, искусственные эффекты и т.п.), поэтому качество стерео оценивается человеком в последнюю очередь. Обычно что-то всегда не дает добраться до этого: компьютерные колонки, например, вносят гораздо более существенные недостатки, и до таких тонкостей как неправильная передача пространственной информации дело просто не доходит.

Не стоит думать, что то, что не дает расслышать этот недостаток на компьютерной акустике — это то, что колонки расставлены на расстояние 1 метр, по бокам монитора, не создавая достаточной стереобазы. Дело даже не в этом.. Во первых если уж дело доходит до таких колонок, то человек сидит прямо перед ними — а это создает тот же эффект, что и колонки в углах комнаты, и даже больший: на нормальной акустике и хорошей громкости вы почти никогда не сможете выделить точное пространственное расположение звуков (речь идет не о звуковой картине, которую, наоборот, компьютерные колонки никогда не построят, а о непосредственном, сознательном, восприятии различия между каналами). Компьютерные колонки (в стандартном использовании) или наушники дают гораздо более четкое непосредственное восприятие стерео, чем обычная музыкальная акустика.

Прямо скажем — для непосредственного, информационно-познавательного восприятия звука, нам не очень требуется точная стерео информация. Непосредственно обнаружить разницу в этом аспекте между оригиналом и Layer3 128 кбит/с довольно сложно, хотя и можно. Нужен или большой опыт, или усиление интересующих эффектов. Самое простое, что можно сделать — виртуально разнести каналы дальше того, чем это возможно физически. Обычно именно этот эффект включается в дешевой компьютерной технике кнопочкой "3D Sound". Или в бум-боксах, колонки которых не отделяются от корпуса устройства и разнесены слишком слабо для передачи красивого стерео естественным путем. Происходит переход пространственной информации в специфическую аудио информацию обоих каналов — увеличивается разница между каналами.

Я применил более сильный эффект, чем это обычно принято, чтобы лучше слышать разницу. Посмотрите как должно звучать — после кодирования в 256 кбит/с с двойным каналом (256_channels_wide.mp3 , 172 кБ), и как звучит после кодирования в 128 кбит/с с joint stereo (128_channels_wide.mp3 , 172 кБ).

Отступление . Оба эти файла — mp3 с 256 кбит/с, закодированные с помощью mp3 Producer 2.1. Не стоит путать: я, во первых, тестирую mp3, и во вторых — выкладываю результаты тестирования mp3 в mp3 ;). Всё было так: сначала я закодировал отрывок музыки в 128 и 256. Потом разжал эти файлы, применил обработку (экспандер стерео), сжал в 256 — лишь для экономии места — и выложил сюда.

Кстати говоря, только при 256 кбит/с в mp3 Producer 2.1 выключается joint stereo и включается dual channels — два независимых канала. Даже 192 кбит/с в Producer 2.1 — это какой-то вариант joint stereo, потому что мои примеры очень неправильно сжимались в меньший чем 256 кбит/с поток. Это основная причина того, что "полное" качество начинается именно с 256 кбит/с — исторически сложилось так, что любой меньший поток в стандартных коммерческих продуктах от Fraunhofer (до 98 года) — это joint stereo, что в любом случае неприемлемо для полностью правильной передачи. Другие (или поздние) продукты, в принципе, позволяют произвольно выбирать — joint stereo или двойной канал — для любого потока.

О результатах

В оригинале (которому в данном случае точно соответствует 256 кбит/с) мы слышали звук с усиленным разностным каналом и ослабленным центральным. Очень хорошо было слышно реверберацию голоса, как и вообще всяческие искусственные реверберации и эхо — эти пространственные эффекты идут в основном в разностный канал. Если говорить конкретно, то в данном случае было 33% центрального канала и 300% разностного. Абсолютный эффект — 0% центрального канала — включается на аппаратуре типа музыкальных центров кнопочкой типа "karaoke vocal fader", "voice cancelation/remove" или подобными, смысл которых — убрать голос из фонограммы. Смысл операции в том, что голос обычно записан лишь на центральном канале — одинаковое присутствие в левом и правом канале. Убрав центральный канал, мы убираем голос (и много чего еще, поэтому эта функция в реальной жизни довольно бесполезна). Если у вас есть такая штука — можете сами послушать с ней свои mp3 — получается забавный детектор joint stereo.

На данном примере уже можно косвенно понять, что мы потеряли. Во первых, стало заметно хуже слышны все пространственные эффекты — они просто потерялись. Зато во вторых — бульканье — это результат перехода пространственной информации в звуковую. Чему соответствовало оно в пространстве — да просто всё время почти случайно перемещающимся компонентам звука, некому "пространственному шуму", которого не было в исходной фонограмме (она выдерживает хоть полный переход пространственной информации в звуковую без появления посторонних эффектов). Известно, что такого типа искажения при кодировании в низкие потоки часто появляются и непосредственно, без всяких дополнительных обработок. Просто непосредственные звуковые искажения (которых почти всегда нет) воспринимаются сознательно и сразу, а стереофонические (которые при joint stereo есть всегда и в большом количестве) — лишь подсознательно и в процессе прослушивания в течении некоторого времени.

Это — основная причина, которая не дает звуку Layer3 128 кбит/с считаться полным CD качеством. Дело в том, что само по себе превращение стерео звука в моно дает сильные негативные эффекты — часто один и тот же звук повторяется в разных каналах с небольшой задержкой, что при смешении дает просто размытый во времени звук. Моно звук, сделанный из стерео звука, звучит гораздо хуже, чем исходно монофоническая запись. Разностный канал, в дополнении к центральному (смешанному моно каналу), дает полное обратное разделение на правый и левый, но частичное отсутствии разностного канала (недостаточное его кодирование) приносит не только недостаточную пространственную картину, но и эти неприятные эффекты смешивания стереофонического звука в один моно канал.

Когда все остальные препятствия устранены — аппаратура хорошая, тональная окраска и динамика неизменна (потока вполне хватает для кодирования центрального канала) — это всё равно останется. Но бывают фонограммы, записанные таким образом, что негативные эффекты сжатия на основе mid/side stereo не проявляются — и тогда 128 кбит/с дает то же полное качество, что и 256 кбит/с. Частный случай — фонограмма, может быть, и богатая в смысле стерео информации, но бедная звуковой информацией — например, медленная игра на фортепьяно. В таком случае для кодирования разностного канала выделяется поток вполне достаточный для передачи точной пространственной информации. Бывают и более трудно объяснимые случаи — активная, заполненная самыми разными инструментами аранжировка, тем не менее, звучит на 128 кбит/с очень хорошо — но такое встречается редко, может в одном случае из пяти-десяти. Однако встречается.

Собственно к звуку. Сложно выделить непосредственные дефекты звучания центрального канала в Layer3 128 кбит/с. Отсутствие передачи частот выше 16 кГц (они, кстати, очень редко, но всё же передаются) и некое уменьшение амплитуды совсем высоких — строго говоря само по себе — просто чушь. Человек за несколько минут полностью привыкает и не к таким тональным искажениям, это просто не может считаться сильными отрицательными факторами. Да, это искажения, но для восприятия "полного качества" — далеко второстепенные. Со стороны центрального, непосредственно звукового, канала возможны неприятности другого рода — резкое ограничение доступного потока для кодирования этого канала, вызванное просто стечением обстоятельств — очень обильная пространственная информация, загруженный разнообразными звуками момент, частые неэффективные короткие блоки и как следствие всего этого — полностью израсходованный резервный буфер потока. Это случается, но относительно редко, и то — если такой факт имеет место, то обычно заметен на больших фрагментах непрерывно.

Показать дефекты такого рода в явном виде, чтобы заметил любой человек, очень сложно. Их легко заметит даже без обработки человек, который привык иметь дело со звуком, но для обычного некритичного слушателя это может показаться совершенно неотличимым от оригинала звучанием и каким-то абстрактным копанием в том, чего на самом деле нет.. И всё таки посмотрите пример. Для его выделения пришлось применить сильную обработку — очень сильно уменьшить содержание средних и высоких частот после декодирования. Убрав мешающие расслышать эти нюансы частоты мы, конечно, нарушаем работу модели кодирования, но это поможет лучше понять, что мы теряем. Итак — как должно звучать (256_bass.mp3 , 172 кБ), и что получается после декодирования и обработки потока 128 кбит/с (128_bass.mp3 , 172 кБ). Обратите внимание на заметную потерю непрерывности, плавности звучания баса, а также некоторые другие аномалии. Передачей низких частот в данном случае пожертвовали в пользу более высоких частот и пространственной информации.

Надо заметить, что работу акустической модели сжатия можно наблюдать (при внимательном изучении и имея некоторый опыт работы со звуком) и на 256 кбит/с, если применить более-менее сильный эквалайзер. Если сделать это и потом послушать, можно будет иногда (довольно часто) замечать неприятные эффекты (звон/бульканье). Более важно то, что звук после такой процедуры будет иметь неприятный, неровный характер, который очень сложно заметить сразу, но это будет заметно при длительном прослушивании. Разница между 128 и 256 лишь в том, что в потоке 128 кбит/с эти эффекты часто существуют и без всякой обработки. Их тоже сложно заметить сразу, но они есть — пример с басом дает некоторое представление о том, где их искать. Расслышать же это в высоких потоках (выше 256 кбит/с) без обработки просто нельзя. Эта проблема не касается высоких потоков, но есть то, что иногда (очень редко) не дает считать даже Layer3 — 256 кбит/с оригиналом — это временные параметры (подробнее будет в отдельной статье позже: см. MPEG Layer3 — 256 /ссылка на другую статью/).

Есть фонограммы, которых не касается и эта проблема. Проще всего перечислить факторы, которые, наоборот, приводят к появлению вышеописанных искажений. Если ни один из них не выполнен — имеется большой шанс на полностью успешное, в этом аспекте, кодирование в Layer3 — 128 кбит/с. Всё зависит, однако, от конкретного материала…

В первую очередь — шум, скажем так, аппаратный. Если фонограмма ощутимо шумит — её очень нежелательно кодировать в маленькие потоки, так как слишком большая часть потока идет на кодирование ненужной информации, которая к тому же не слишком то поддается разумному кодированию с помощью акустической модели.

  • Просто шум — всякие посторонние звуки. Монотонный шум города, улицы, ресторана, т.п., на фоне которого происходит основное действие. Такого типа звуки дают очень обильный поток информации, которую следует кодировать, и алгоритм будет вынужден чем-то жертвовать в основном материале.
  • Неестественные сильные стереоэффекты. Это, скорее, относится к предыдущему пункту, но в любом случае — слишком большая часть потока идет на разностный канал, и кодирование центрального канала сильно ухудшается.
  • Сильные фазовые искажения, разные для разных каналов. В принципе, это относится скорее к недоработкам распространенных в данное время алгоритмов кодирования, чем к стандарту, но всё таки. Начинаются самые дикие искажения из-за полного срыва всего процесса. К таким искажениям исходной фонограммы в большинстве случаев приводит запись на кассетную технику и последующая оцифровка, особенно при проигрывании недорогими магнитофонами с некачественным реверсом. Головки стоят криво, лента мотается косо, и каналы слегка задерживаются один относительно другого.
  • Просто слишком перегруженная запись. Совсем грубо говоря — большой симфонический оркестр играет весь разом:). Обычно в результате сжатия в 128 кбит/с получается нечто такое совсем схематичное — камерные, медные, ударные, солист. Встречается, конечно, не только в классике.

Другой полюс — то, что обычно неплохо сжимается:

  • Сольный инструмент с относительно простым звуком — гитара, фортепьяно. Скрипка, например, имеет слишком наполненный спектр и звучит обычно не очень хорошо. От скрипки скрипача на самом деле зависит и само произведение. Неплохо также обычно сжимаются несколько инструментов — барды или КСП, например (инструмент + голос).
  • Качественная современного изготовления музыка. Имеется в виду не музыкальное качество, а качество звука — сведение, расположение инструментов, категорическое отсутствие сложных глобальных эффектов, украшающих звуков и вообще чего либо лишнего. В эту категорию, например, легко попадает вся современная попса, также некоторый рок, и вообще довольно много всего.
  • Агрессивная, "электрогитарная" музыка. Ну чтобы как-то привести пример — ранняя Metallica (да и современная в общем то тоже). [помните, речь не о музыкальных стилях! просто пример.]

Стоит заметить, что на сжатие Layer3 почти не производят впечатления такие параметры, как наличие/отсутствие высоких частот, басов, глухая/звонкая окраска и т.д. Зависимость есть, но настолько слабая, что можно не принимать её в расчет.

К сожалению (или к счастью?), дело упирается в самого человека. Многие люди без подготовки и предварительного выделения слышат разницу между потоками около 128 кбит/с и оригиналом, многие же даже синтетические экстремальные примеры не воспринимают на слух как отличия. Первых не нужно ни в чем убеждать, вторых же такими примерами и не убедишь… Можно было бы просто сказать, что кому-то есть разница, а кому-то нет, если бы не одно но: в процессе слушания музыки со временем наше восприятие всё время улучшается. То, что казалось хорошим качеством вчера, завтра может таковым уже не показаться — так случается всегда. И если довольно бессмысленно (по крайней мере на мой взгляд) сжимать в 320 кбит/с по сравнению с 256 кбит/с — выигрыш уже не слишком важен, хотя и понятен, то хранить музыку хотя бы в 256 кбит/с всё же стоит.