24 192 что это
Перейти к содержимому

24 192 что это

  • автор:

Вся правда о Hi-Res: что скрывают аудиоформаты высокого разрешения

Одно из самых интересных событий, которые произошли в мире аудио за последние годы — небывалый рост популярности форматов высокого разрешения (Hi-Res). Среди причин появления в своё время новых форматов — неудовлетворённость качеством звучания CD, ведь на заре эпохи компакт-дисков все звукозаписывающие лейблы спешили переиздать свой аналоговый каталог на цифровом носителе, мало заботясь о качестве: хотя бы плюс-минус привлекательное и лишённое всевозможных щелчков и прочих шероховатостей звучание уже казалось победой.

Таким образом, производители аппаратуры и звукозаписывающие лейблы начали выполнять свои обещания о высочайшем качестве звучания CD далеко не сразу. В результате, в умах многих аудиофилов формату был нанесен непоправимый ущерб, а CD превратились в этакого цифрового «злодея». Впрочем, забегая вперёд, стоит отметить, что компакт-диски способны звучать совершенно замечательно — при условии высочайшего качества исходной записи, а также при должном внимании к мастерингу и продюсированию. Но обо всём по порядку.

В последнее время мы стали свидетелями возвращения к винилу, а также отмечаем рост интереса к цифровым файлам высокого разрешения. Но не подстерегает ли нас опасность угодить в ловушку 1970-х, когда всё внимание было приковано только к техническим характеристикам? Чтобы ответить на этот вопрос, порассуждаем о том, как и что именно мы слышим, а также о реалиях хайрез-записи.

Для начала, затронем техническую сторону вопроса. Формат CD с 16-битным квантованием и частотой дискретизации 44,1 кГц позволяет записать аудио в диапазоне частот от 0 Гц примерно до 22 кГц (то есть, чуть шире возможностей человеческого слуха) и динамическим диапазоном порядка 95 дБ, чего вполне достаточно для подавляющего большинства музыкальных инструментов. При этом формат 24 бит 48 кГц расширяет динамический диапазон до 150 дБ, а верхнюю частоту — до 24 кГц. Более того, многие аудиофилы предпочитают 24 бит 96 кГц, с верхней частотой до 48 кГц, а также 24 бит 192 кГц, с верхней планкой в районе 96 кГц. Столь высокие звуковые частоты оказываются далеко за пределами возможностей человеческого слуха, так что здесь напрашивается простой и резонный вопрос: для чего же собственно всё это нужно?

Некоторые сторонники Hi-Res скажут, что хоть ничего и не слышат на этих частотах, но всё же могут «почувствовать» разницу, зачастую преподнося это как более высокую «воздушность» звучания. При этом любопытно, каким именно органом чувств они ощущают эту воздушность? В общем-то, мы и вправду можем «почувствовать» очень низкие частоты — при условии, что они воздействуют с высокой амплитудой и с относительно близкого расстояния. Ну а что же касается поклонников Hi-Res, скорее всего, они воспринимают звучание более плавным и слитным из-за высокой частоты дискретизации. К тому же, АЦП и другие компоненты, используемые во время записи в 192 кГц, скорее всего, будут высокого качества, что само по себе повлияет на впечатления от прослушивания.

Для того, чтобы проверить на практике преимущества Hi-Res, все желающие могут провести любопытный тест — послушать в случайном порядке несколько записей с разной частотой дискретизации на хорошем цифровом аудиоплеере. Заклейте чем-нибудь подручным дисплей проигрывателя, чтобы не иметь представления о том, с каким именно разрешением в данный момент воспроизводится файл. Вооружитесь ручкой и блокнотом (ну или приложением «заметки» в смартфоне), прослушайте все записи и отметьте, что именно вы слышите и какой трек звучит лучше. Если у вас получается точно определить более высокие частоты дискретизации, можно с уверенностью заявить, что вы обладаете необыкновенным слухом.

Большинство людей старше среднего возраста способны услышать тон на частоте максимум до 15 кГц. К возрасту 60 лет эта частота может снизиться примерно до 12-13 кГц для среднестатистического мужчины (и, возможно, будет немного выше для женщин). Таким образом, звуковой сигнал с частотой 96 кГц мало что значит для восприятия звука. Однако вполне вероятно, что многие слушатели почувствуют дополнительную плавность и слитность на средних частотах, которой может похвастаться Hi-Res. Впрочем, на качество звучания записей влияет и множество других факторов, некоторые из них играют очень важную роль.

К примеру, можно задаться вопросом, с помощью какого оборудования осуществляется запись. Ведь, по иронии судьбы, многие профессиональные конденсаторные микрофоны от Sennheiser, Beyerdynamic, AKG, Neumann, Shure, Rode и Audio Technica обладают частотными характеристиками, которые стремительно снижаются сразу после 20 кГц. Более того, у некоторых популярных микрофонов заметный спад начинается уже после 18 кГц: таким образом, они вряд ли будут улавливать что-либо на частоте 48 или 96 кГц, и в большинстве случаев это как раз хорошо, ибо не очень-то и хочется вводить высокочастотный шум в цепь микширования.

Итак, для того, чтобы записать аудио с действительно «высоким разрешением», в первую очередь, потребуются специальные микрофоны, способные улавливать очень высокие частоты, не внося при этом слишком много собственного шума. Далее нам необходимы микрофонные предусилители и микшеры с расширенной частотной характеристикой и сверхнизким уровнем шума, а также высококлассный аналого-цифровой преобразователь. Предположим, что у нас есть микрофоны с равномерной частотной характеристикой от 20 Гц до 96 кГц и сверхнизким уровнем шума, подключенные специальными аудио кабелями к сверхмалошумящему предусилителю. Далее мы отправим этот сигнал в секцию микширования и высококлассный аналого-цифровой преобразователь, который передаёт аудиосигнал высокого разрешения в цифровой рекордер или компьютер с аналогичными улучшенными характеристиками.

И в общем-то, да, всё это действительно осуществимо. Более того, записав таким образом соло скрипки в 24 бит 96 кГц, можно заметить, что на самых высоких нотах некоторые гармоники достигают частоты приблизительно 28 кГц. Подобные гармоники может давать и флейта сопрано, но вот способны ли мы их услышать — это уже другой, не менее интересный вопрос. В конечном итоге, практически весь значимый для нашего слуха звуковой сигнал в записях соло скрипки вполне может содержаться на 16-битном CD с частотой дискретизации 44,1 кГц.

Вдвойне удивительно, что даже полноценный оркестр, с его широчайшим динамическим диапазоном, вполне можно записать в 16 битах, при условии изначально правильной настройки уровней (не прибегая к компрессии). Безусловно, не стоит забывать, что вполне возможно сгенерировать электронные звуки, которые выходят за пределы частотного диапазона человеческого слуха и динамического диапазона в 100 дБ. Но всё это остаётся, как правило, на уровне теории.

В заключение стоит отметить, что благодаря более высокой плавности и слитности звучания в среднечастотном диапазоне, Hi-Res записи однозначно достойны внимания слушателей, но только при условии, что аудиосистема позволяет воспроизвести все эти нюансы.

Любопытно, что у многих аудиофилов есть любимые записи классической музыки, сделанные в конце 50-х и начале 60-х годов. Ведь музыка — это не только технические характеристики, а определяющим фактором зачастую является исполнение и профессионализм звукорежиссёра, что позволяет сделать хорошую запись даже с минимальным набором микрофонов. А послушав некоторые джазовые записи, сделанные в начале 60-х годов, нельзя не отметить, что они звучат очень живо и музыкально: может быть, не так уж и важно, что они не в Hi-Res.

Какие бывают аудиоформаты и какой лучше выбрать для прослушивания музыки

Аватар пользователя

С появлением стриминг-сервисов споры о форматах стали уделом гиков. Еще недавно в них ковырялись лишь аудиофилы, меломаны и ретрограды. Но сегодня зарубежные стриминг-сервисы с музыкой в lossless уходят из России, оплатить аккаунты становится невозможно. Российские стриминги не могут похвастаться звуком без потери качества, поэтому вопрос о форматах домашней музыкальной коллекции вновь актуален как никогда. В чем хранить музыку?

Основы цифрового звука

Чтобы не запутаться в терминологии, разговор о звуковых форматах нужно начать с самых основ цифрового звука. Как аудио превращается в нули и единицы?

К примеру, музыкант подключает электрогитару к звуковой карте. В ней есть модуль АЦП — аналого-цифровой преобразователь, который конвертирует сигнал в цифры с помощью метода импульсного кодирования. АЦП измеряет амплитуду сигнала несколько тысяч раз в секунду и записывает каждое изменение, получая копию аналогового сигнала.

Этот процесс называется дискретизацией, от латинского discretus — прерывистый, в противоположность непрерывной аналоговой волне. С какой частотой нужно выполнять дискретизацию, чтобы получить максимально точную копию без ощутимых потерь?

Частота дискретизации

По теореме Котельникова, фиксация изменений должна происходить минимум в 2 раза чаще, чем наивысшая слышимая частота в спектре сигнала. Порог слышимости для человека — примерно 20 кГц. Соответственно, если фиксировать изменения амплитуды хотя бы 40 тысяч раз в секунду, то получится дискретный сигнал, не отличимый от аналогового. Поэтому типичные частоты дискретизации в любой звуковой карте следующие:

  • 44.1 кГц — стандарт Audio CD и в целом дефолтная частота дискретизации, на которой создается большинство записей. Почему не 40, а именно 44.1? Так сложилось исторически. Компакт-диски появились в начале восьмидесятых, когда основным носителем цифровой информации еще была магнитная пленка, причем именно видеопленка. На ней можно было записать 60 кадров в секунду, каждый кадр содержал 245 строк с тремя выборками для трех основных цветов. Получается 245х3х60=44100 выборок. Чтобы обеспечить совместимость двух форматов, именно такая частота дискретизации была выбрана для Audio CD.
  • 48 кГц — стандарт студий звукозаписи, пришедший из кино. На кинопленке 24 кадра в секунду, поэтому 48 кГц обеспечивает синхронизацию звука и видео. Из кино стандарт пришел в студии звукозаписи, где и сегодня часто используется как дефолтное значение.
  • 88.2, 96, 192 кГц — это предыдущие стандарты, увеличенные в два раза. Многие артисты и продюсеры хотят записать исходники в максимальном качестве, чтобы, например, издать музыку на SACD и других продвинутых форматах.

Разрядность

Разрядность, или глубина — это сколько бит используется для кодирования каждого отрезка сигнала. Если частота дискретизации — это то, как часто АЦП фиксирует изменения амплитуды, то разрядность — это насколько точно фиксируется каждое изменение.

К примеру, при разрядности 1 бит есть только два варианта: 1 (сигнал на максимальной громкости) и 0 (тишина). При разрядности 8 бит уже возможно 256 значений (2 в 8 степени) громкости волны, при 16 битах (стандарт CD) — 65 536 значений и т.д. Выше 32 бит подниматься смысла нет, дальше уже идет увеличение размера файла без ощутимой разницы в качестве.

Битрейт

Битрейт показывает, сколько информации ушло на кодирование одной секунды звука. Он зависит от предыдущих двух параметров и вычисляется по формуле:

Битрейт = Частота дискретизации x Разрядность x Количество каналов

К примеру, битрейт музыки на Audio CD: 44,1 кГц × 16 бит × 2 = 1 411,2 кбит/с

Битрейт сжатого аудио намного меньше. Например, максимум mp3 — это 320 кбит\с. В этом и смысл сжатия аудио — получить меньший размер за счет потери части информации исходного сигнала. Что это за информация, будет рассказано ниже, но сначала нужно поговорить о форматах звука без сжатия.

Аудиоформаты без сжатия

Форматы без сжатия предлагают наилучшее качество звука, которое иногда выходит за пределы возможностей иных форматов. Платой за это будет высокий объем файлов, так что коллекция музыки в таком качестве обычно хранится на лицензионных дисках, слушается на дорогой аппаратуре и является предметом гордости аудиофилов и меломанов.

  • Wave. На Audio CD музыка записывается в формате wav с частотой дискретизации 44.1 кГц \ 16 бит. Wave — один из старейших форматов цифрового звука, создан Microsoft вместе с IBM еще в 1991 году и повсеместно используется до сих пор. Оригинальный аналоговый звук в нем оцифровывается без изменений. Большинство музыкальных исходников — партии инструментов, вокала, мастер-треки — хранятся в файлах с расширением .wav. Минута аудиотрека в этом формате всегда будет занимать одинаковый объем на диске в зависимости от частоты дискретизации и битности, но вне зависимости от того, есть там музыка или нет. То есть минута тишины будет весить столько же, сколько минута дэт-метала.

  • Aiff — это собрат wave от Apple. Примечательно, что оба формата не являются какими-то специфическими для каждой из платформ, поэтому прекрасно работают и на ПК, и на макинтошах.
  • Linear PCM — формат звука для DVD-Audio, поддерживает качество до 192 кГц\24 бит. Это расширяет динамический диапазон с 96 до 144 Дб, а частотный диапазон — до 96 кГц. Обычно аудио записывается без сжатия, но если альбом не помещается на носитель, то его могут ужать без потери качества с помощью алгоритма Meridian Lossless Packing в качестве до 192 кГц\24 бит для стерео и до 96 Кгц\24 бит для многоканального звука.
  • DSD — формат звука Super Audio CD с частотой дискретизации 2822,4 кГц, при этом разрешение равняется 1 DSD, то есть, грубо говоря, 1 биту. Смысл в том, что избыточная частота дискретизации снижает шумы квантования и увеличивает соотношение сигнала к шуму. Такой формат имеет динамический диапазон до 120 Дб, а частотный — до 50 кГц. Также умеет работать с многоканальным звуком 5.1.

В эту категорию попадает и винил — уникальный формат, популярный уже более века. На пластинке звук находится в виде аналоговой аудиодорожки, а не в нулях и единицах. Отсутствие оцифровки и механический способ воспроизведения делает его особенным блюдом для аудиофилов и меломанов.

Форматы со сжатием и потерей качества

Lossy compression — это компрессия с потерей качества. При конвертировании оригинального аудиофайла теряется часть информации. После своеобразной «очистки» сигнал компрессируется и занимает на диске значительно меньше пространства, чем исходный файл, но и звучит хуже. Каждый формат обладает своими алгоритмами компрессии, но, в общем и целом каждый из них удаляет:

  • Куски частотного спектра с краев — ультранизкие и ультравысокие частоты. Чем сильнее компрессия, тем меньше баса и высоких частот будет в треке. Особенно ясно это заметно при сравнении оригинального трека с сильно сжатым mp3 — последний будет звучать заметно глуше. Таким образом, сужается частотный диапазон трека.
  • Тихие гармоники, следующие за громкими. К примеру, если после удара бочки есть тихая гитарная нота, она будет вырезана частично или полностью, поскольку слушатель скорее всего все равно ее не расслышит из-за эффекта звуковой маскировки — громкие звуки заглушают тихие. Это сужает динамический диапазон трека.
  • Повторяющиеся элементы могут склеиваться, находящиеся близко друг к другу пики волн — усредняться и т.п.

Как узнать, какая информация теряется при сжатии? Достаточно загрузить исходный и конвертированный треки в DAW типа Cubase, и на одном из них перевернуть фазу. При синхронном проигрывании общая информация с разной фазой будет взаимовычитаться, и останутся только излишки данных из исходного трека. На эффекте фазового вычитания также основано активное шумоподавление в наушниках.

Самые популярные форматы сжатого с потерей качества аудио — это:

  • MP3 — король всех lossy форматов, разработанный еще в 1994 году Институтом Фраунгофера. Принцип работы похож на компрессию изображений в jpeg. Звук рубится на части (фреймы), затем алгоритм удаляет из этих кусков все, что нельзя услышать на бытовой аппаратуре. Основательно почистив трек, алгоритмы затем его компрессируют, чтобы тот занимал меньший объем — до 1\10 от исходного. MP3 может кодировать в 32-320 кбит\с с частотой дискретизации до 48 кГц, также есть функция переменного битрейта (VBR) — когда менее насыщенные участки трека кодируются с меньшим битрейтом, экономя место. Возможность кодирования многоканального звука отсутствует, поэтому в кино этот формат не прижился.
  • AAC — альтернатива mp3, разработанная всем миром, включая Sony, Nokia, Dolby Laboratories, Институт Фраунгофера и еще пачку организаций. Предлагает более высокое качество относительно mp3 при меньшем объеме файлов за счет более совершенных алгоритмов компрессии. Производит аудиофайлы с частотой дискретизации до 96 кГц (в два раза больше mp3), умеет кодировать многоканальный звук 5.1, значительно лучше основного конкурента работает с частотами выше 16 кГц. В итоге звук в AAC с битрейтом 128 кбит\с звучит лучше, чем mp3 на максималках. Формат активно используется в технике Apple, популярен на стриминг-сервисах (включая ютуб) и в бытовой технике. Файлы обычно имеют расширение .aac, но могут заключаться и в контейнер .mp4 или .3gp.
  • WMA — детище Microsoft рекламировалось как ультимативный lossy формат, и действительно предлагает более высокое качество звука по сравнению с mp3: отсутствие клиппинга, более эффективная компрессия и меньший размер файлов. Из минусов — заточенность под Windows Media Player, поэтому многие девайсы его просто не читают (например, техника Apple).
  • OGG VORBIS — опенсорс формат с множеством преимуществ. Частота дискретизации переменная — от 2 до 192 кГц с разрядностью до 32 бит. По дефолту используется переменный битрейт, при этом крайние значения не ограничены и могут варьироваться от 1 до 1000 кбит\с. Схема работы похожа на mp3, но другая математическая модель обеспечивает лучшее сжатие и гарантирует высокую точность расположения сэмплов без смещений и потерянных участков. Если взять файлы .mp3 и .ogg с одинаковым битрейтом, то второй будет не только лучше звучать, но и занимать меньше места на диске. Формат не получил такой популярности, как MP3, но часто используется игровыми студиями для хранения аудиофайлов к игре. Распознать можно по расширению .ogg или .oga.

Форматы со сжатием получили популярность благодаря Интернету, ведь они позволяют слушать треки онлайн даже при невысокой скорости подключения. Благодаря малому размеру они открыли возможность хранения на винчестере или медиасервере целых дискографий. Платой будет потеря качества, но она не ощущается на бытовых колонках и становится заметна только тренированному уху при сравнении лоб в лоб с иными форматами на студийной акустике или в хороших наушниках.

Форматы со сжатием без потери качества

Lossless компрессия выполняется без потери качества. В результате получаются файлы, которые содержат полный объем информации с исходников, но занимают меньше пространства на носителе. Звучит как магия? На самом деле все просто — эти форматы находят более эффективные способы хранения избыточных данных. К примеру, последовательность бит типа ABCDABCDABCD будет записана как (ABCD)*3, что существенно снижает размер файла. Похожим образом работают архиваторы, но lossless форматы заточены под аудио, поэтому делают свое дело лучше, чем обычный Winrar.

Самые популярные форматы lossless audio — это:

  • FLAC — свободный lossless формат от разработчиков OGG VORBIS, появился в начале двухтысячных. При компрессии он разрезает трек на куски по несколько килобайт, для каждого из куска индивидуально подбирается оптимальный способ сжатия. Из стереодорожки делает усредненный монотрек и отдельную дорожку с разницей левого и правого каналов — так аудиоданные проще сжать. Таким образом удается уменьшить размер исходного файла в 1,5–3,5 раза. Битрейт для стандартного CD-трека варьируется от 400 до 1200 кбит\с, что примерно равно 20–50 Мб для пяти минут музыки. Качество звука идентично исходному. Максимальная частота дискретизации — 192 кГц при разрешении до 24 бит, в этом случае битрейт будет 36 864 кбит\с.
  • ALAC — формат сжатия аудио без потери данных от Apple. Создает файлы с частотой дискретизации до 384 кГц и разрядностью до 32 бит. Формат заточен под «яблочную» технику и работает на ней лучше других lossless форматов, поскольку декодируется при помощи встроенного DSP, в то время как FLAC и иже с ними на айподе будут грузить центральный процессор. В 2011 году Apple открыла исходный код ALAC, и теперь его поддерживает техника от самых разных производителей. Файлы этого формата заточены в контейнер MP4 и имеют расширение .m4a.
  • WMA — lossless-версия формата от Microsoft с частотой дискретизации до 96 кГц и разрядностью до 24 бит. Однако алгоритмы компрессии не очень эффективные, поэтому файлы занимают больше места, чем другие lossless форматы. Из плюсов — умеет кодировать объемный звук.
  • WavPack, OptimFROG — оба имеют гибридный режим для создания из аудиодорожки двух файлов. В первом файле будет сжатая музыка с потерями, а второй — файл коррекции, который при сложении с первым дает звук без потерь. Таким образом, форматы вобрали в себя лучшее из двух миров, хотя большую популярность пока не получили.

Заключение

Слышна ли разница между wav\flac и mp3 с высоким битрейтом? Насколько она существенна? Это зависит от композиции, аппаратуры и слуха. В интернете есть тесты, где проигрывается оригинальный wav против mp3 — они и дадут ответ на вопрос. Если хотя бы в половине случаев удается различить несжатое аудио — тогда стоит заморочиться с коллекцией музыки во flac или другом lossless формате. В противном случае можно со спокойной совестью продолжать пользоваться любым стриминг-сервисом из оставшихся.

audiomania

Прим. перев.: Это перевод последней части развернутой статьи Кристофера «Монти» Монтгомери (создателя Ogg Free Software и Vorbis) о том, почему обывателям нет никакого смысла хранить и воспроизводить музыку в формате 24/192 и что реально может улучшить качество воспроизведения ваших любимых записей.

Наконец, хорошие новости!
Что же нужно, чтобы улучшить качество цифрового звука, который мы слушаем?
Лучшие наушники

Самый простой способ – не цифровой. Наиболее сильным улучшением качества звука за деньги становится хорошая пара наушников. Накладные или внутриканальные наушники, наушники открытого или закрытого типов – по большей части это не имеет значения. Они даже не обязательно должны быть дорогими, хотя дорогие наушники могут стоить своих денег.

Помните, что некоторые наушники дорогие, потому что они хорошо сделаны, прочны и отлично звучат. Другие дорогие, потому что это наушники за $20, которые стилизованы на несколько сотен долларов, разрекламированы и носят название какого-нибудь бренда. Я не дам никаких конкретных рекомендаций, но скажу, что, скорее всего, вы не найдете хороших наушников в больших магазинах техники, даже если они специализируются на музыкальном оборудовании.

Формат со сжатием без потерь

Можно считать правдой, что правильно закодированный OGG-файл (или MP3, или AAC) будет неотличим от оригинала при умеренном уровне квантования.

Но что насчет плохо закодированных файлов?

Двадцать лет назад все MP3-кодировщики были очень плохими по современным стандартам. Множество этих плохих кодировщиков все еще используются, предположительно из-за того, что лицензии на них дешевы, а большинство людей не различает или не заботится о разнице звучания. Зачем компаниям тратить деньги и исправлять что-то, если люди даже не знают, что оно работает недостаточно хорошо?

Если перейти к более новым форматам, например Vorbis или AAC, то принципиально ничего не изменится. Например, множество компаний и отдельных людей использовали (и все еще используют) низкокачественный стандартный кодировщик Vorbis от FFmpeg, потому что он поставляется по умолчанию с FFmpeg, и им без разницы, насколько он плохой. У AAC еще более длинная история широко распространённых низкокачественных кодировщиков, которые использовали для сжатия с потерями всех основных форматов.

Форматы со сжатием без потерь, такие как FLAC исключают любую возможность навредить качеству звучания [23] плохим кодировщиком, или даже хорошим, но использованным неправильно.

Вторая причина распространения форматов без потерь – стремление избежать потерь в будущем. Каждое кодирование и перекодирование теряет все большее количество информации, даже если первое кодирование было идеальным, очень вероятно, что после второго кодирования появятся звуковые артефакты. Это важно для тех, кто хочет сделать ремикс или музыкальную выборку. В особенности это важно для нас, исследователей кодеков, нам нужен чистый звук для работы.

Лучшие мастер-диски

В тесте, проведенном БАС, о котором я говорил выше, вскользь упоминалось, что SACD-версия записи может звучать значительно лучше, чем CD. Так получается не из-за увеличенной частоты дискретизации или уровня квантования, а из-за того, что для создания SACD используется мастер-диск более высокого качества. При записи на CD-R, SACD все равно звучит так же хорошо как оригинальная SACD, и лучше чем CD, потому что оригинальный звук, примененный для записи SACD, был лучше. Хороший мастеринг и методики производства, очевидно, вносят свой вклад в качество музыки [24].

Недавно освещавшийся в прессе «Мастеринг для iTunes», и другие подобные инициативы от прочих лейблов несколько обнадеживают. Что еще предстоит увидеть, так это: действительно ли Apple и другие все-таки «займутся проблемой», или это – обычная приманка для того, чтобы продать потребителям музыку, которая у них уже есть, но подороже.

Еще одна «уловка для повышения продаж», на которую купился бы и я – это «объемные» записи. К сожалению, здесь есть некоторые технические опасности.

Старомодный дискретный «объемный звук» с несколькими каналами (5.1, 7.1 и т.д.) – это техническая реликвия, использовавшаяся еще в 1960х годах в кинотеатрах. Однако объемная картинка ограничена, и звук ближних динамиков искажается, когда слушатель сдвигается с позиции или садится не туда изначально.

Мы можем восстановить и создать отличные и надёжные системы определения местоположения, используя такие инструменты как Ambisonics. Проблемами становятся стоимость оборудования для воссоздания объёмного звука и тот факт, что запись, закодированная для естественного звукового поля, звучит плохо при воспроизведении в стерео и не может быть воссоздана искусственно должным образом. Очень сложно подделать амбифонический звук или голографическое аудио, эффект будет как у 3D – оно превращается безвкусный трюк и укачивает 5% населения.

Бинауральный звук также очень сложен. Вы не можете сымитировать его, потому что он звучит для разных людей по-разному. Люди подсознательно двигают головой, чтобы лучше отследить источник звука, без этого они не могут определить его местоположение. Это нельзя учесть на бинауральной записи, хотя в зафиксированной обстановке добиться этого все же можно.

Это вряд ли непреодолимые технические препятствия. Дискретное объемное аудио уже доказало свою востребованность на рынке, и я сам лично восхищен возможностями, предлагаемыми Ambisonic.

«Меня никогда не беспокоила музыка как таковая,
Самый сок был в её качестве!»
– Фландерс и Свон, «Песнь воспроизведения»

Самое главное – это наслаждаться музыкой, так? Современное качество воспроизведения несравнимо лучше, чем хорошие аналоговые системы прошлого поколения. Неужели этот вопрос – еще одна проблема первого мира? Возможно, но плохие миксы и кодировки утомляют меня, отвлекают меня от музыки, и я такой не один.

Почему я выступаю против 24/192? Потому что это решение проблемы, которой нет – это бизнес-модель, построенная на невежестве, с целью обмануть людей. Более того, псевдонаука ходит по миру незамеченной, и тем сложнее правде затмить правдоподобность. Даже если это небольшой и совершенно незначительный пример.

«Мне кажется, что гораздо лучше понять вселенную, как она есть, чем упорствовать в заблуждении, пусть и удовлетворительном и обнадеживающем»

– Карл Саган (Carl Sagan)
Что еще почитать

Читатели дали мне ссылки на парочку отличных работ, о которых я не знал перед написанием моей собственной статьи. Они затрагивают многие из тех же вопросов, но более подробно.

Материал «Кодирование высококачественного цифрового звука» Боба Стюарта из Meridian Audio – невероятно ёмко, хотя и длинно. Наши выводы несколько отличаются (он принимает как должное немного более широкий частотный диапазон и битовую глубину без особых оснований), но мысль его ясна и ей легко следовать. [Правка: могу не согласиться со многими другими его работами, но эта мне сильно нравится]

Статья «Цифровое аудио. Теория дискретизации» Дэна Лаури (Dan Lavry) из Lavry Engineering – еще одна статья, которую выделили несколько читателей. Она объясняет мои две страницы о дискретизации, передискретизации и фильтрации более подробно на 27 страницах, с множеством графиков, примеров и ссылок.

Стефан Пиджен (Stephane Pigeon) с audiocheck.net написал слуховые тесты, доступные в браузере, и разместил их на сайте компании. Набор тестов пока относительно небольшой, но некоторые имеют непосредственное отношение к контексту данной статьи. Они хорошо работают, и я счел их качество довольно неплохим.

Примечания к Части 4

23. Журнал Wired полагает, что форматы со сжатием без потерь, такие как FLAC, не всегда являются действительно форматами без потерь:

Некоторые борцы за чистый звук вообще предложат не обращать внимания на FLAC и сразу купить WAV. […] Купив WAV, вы можете избежать потенциальных потерь, которые могут возникнуть при преобразовании во FLAC. Это редко, но случается.

Это неправда. Процесс сжатия без потерь никогда не изменяет исходные данные, ни при каких условиях, и FLAC не исключение.

В том случае, если Wired имели в виду аппаратные повреждения файлов (сбои дисков, потери памяти, пятна на солнце), то и WAV, и FLAC будут повреждены. Вот только FLAC имеет контрольные суммы, и повреждение может быть отслежено. Также FLAC занимает меньше места, чем WAV, что уменьшает возможность случайного повреждения, потому что данных, которые могут быть повреждены, меньше.

24. «Войны громкости» – это наиболее часто приводимый пример плохого мастеринга в современной индустрии, хотя далеко не единственный. Громкость – это гораздо более старый феномен, чем утверждает Википедия, ведь еще в 1950-е годы артисты и продюсеры настаивали на самых громких записях. Производители оборудования исследовали и создавали новые технологии, чтобы угодить производителям записей. Более продвинутое оборудование для мастеринга винила в 1970х и 1980х годах, например, отслеживало и уплотняло границы дорожек там, где это возможно, что давало возможность записывать более высокие амплитуды, чем обычно позволяло пространство пластинки.

Современные цифровые технологии позволяют поднять громкость до абсурдных уровней. Также существует разнообразие автоматических, очень сложных запатентованных модулей цифровых станций, которые развертываются повсеместно, без полного понимания того, как они работают или что же они делают на самом деле.

Цифровой аудиоформат 24/192, и почему в нем нет смысла. Часть 1 [Перевод]

В прошлом месяце [оригинальная статья написана в марте 2012] заголовки в прессе сообщали о том, что музыкант Нил Янг и основатель компании Apple Стив Джобс обсуждали возможный запуск сервиса для скачивания музыкальных форматов «бескомпромиссного студийного качества». Большинство газет, журналов и пользователей были настроены достаточно оптимистично касательно перспектив цифрового музыкального формата c квантованием сигнала в разрядность 24 бита, при частоте дискретизации 192 кГц.

К сожалению, нет никакого смысла записывать музыку в формате 24/192. Его точность воспроизведения кардинально не превосходит форматы 16/44 или 16/48, но при этом он занимает в 6 раз больше места.

На сегодняшний день существует несколько проблем, связанных с качеством аудио и «применением» распространяемой цифровой музыки. Формат 24/192 не решает ни одну из них. Пока все считают этот формат панацеей, мы не увидим никаких улучшений в музыкальной сфере.

Начнем с плохих новостей

В течение прошедших нескольких недель я общался с разумными, не обделенными научными знаниями людьми, которые верят в музыкальный формат 24/192 и не понимают, как кто-то может не соглашаться с этим. Они задавали хорошие вопросы, которые стоят того, чтобы на них ответили подробно.

Я также задался вопросом, что могло вызвать такую активную поддержку цифрового аудио с высокой частотой дискретизации. Ответы показали, что немногие из людей понимают основы теории сигналов или теорему отсчетов (теорему Котельникова или Найквиста — Шеннона), что неудивительно. Недопонимание математики, технологий и физиологии проявлялись в речах многих профессионалов, которые обладают большим опытом сфере аудиотехнологий. Некоторые даже утверждали, что теорема Котельникова не объясняет, как работает цифровое аудио[1].

Дезинформация и предрассудки на руку только шарлатанам. Давайте разберем основы того, почему же распространение формата 24/192 не имеет смысла, перед тем как выдвигать другие, более обоснованные идеи.

Господа, встречайте! Ваши уши!

Ухо слышит с помощью волосковых клеток, которые расположены на резонансной базилярной мембране в улитке внутреннего уха. Каждая волосковая клетка точно настроена на определенный узкий частотный диапазон, который определяется положением клетки на мембране. Пик чувствительности находится в середине частотного диапазона, который постепенно спадает в обоих направлениях и принимает ассиметричную конусовидную форму, перекрывающую частотные диапазоны соседних клеток. Мы не слышим звук, если нет волосковых клеток, настроенных на эту частоту.

С левой стороны рисунка изображена человеческая улитка с базилярной мембраной (она окрашена бежевым цветом) в разрезе. Мембрана устроена так, что она резонирует в различных местах на протяжении своей длины, в зависимости от входящей частоты: высокие частоты резонируют ближе к основанию, а низкие у противоположного конца. На рисунке отмечены приблизительные расположения нескольких частот.

На правой стороне схематически изображена диаграмма реакции волосковых клеток вдоль базилярной мембраны, в виде группы перекрывающихся сигналов.

Процесс схож с аналоговым радиоприемником, принимающим частотный сигнал, на который он настроен, с близлежащей радиостанции. Чем сильнее не совпадают частоты приемника и станции, тем более неустойчивым и искаженным будет сигнал, вне зависимости от его силы. Существуют верхний (и нижний) уровни частотного диапазона, за пределами которого волосковые клетки не способны принимать сигналы, и мы ничего не слышим.

Частота дискретизации и спектр слышимых частот

Я уверен, вы слышали множество раз, что частоты от 20 Гц до 20 кГц являются диапазоном слышимости человеческого уха. Очень важно понять, как ученые пришли именно к таким цифрам.

Сначала мы измеряем «порог слышимости» по всему звуковому диапазону у группы слушателей. Это дает нам возможность построить кривую, представляющую самый тихий звук, который может услышать человеческое ухо при любой заданной частоте, измеренной в идеальных условиях на здоровых ушах. Безэховое окружение, точность калибровки оборудования воспроизведения и строгость статистического анализа – это легкая часть эксперимента. Слуховая концентрация теряется очень быстро, поэтому тестирование нужно проводить, пока испытуемый не утомлен. Как следствие, возникает множество перерывов и пауз, и тестирование может занимать от нескольких часов до многих дней, в зависимости от методологии.

Затем мы собираем информацию в другой крайности – о «болевом пороге». В этой точке на графике амплитуда настолько высока, что перепонки и нервный аппарат уха перегружаются входным сигналом, и испытуемый начинает испытывать боль. Нужно следить, чтобы в ходе эксперимента не повредить никому слух, поэтому собрать эти данные гораздо сложнее.

На рисунке выше изображены аппроксимированные кривые равной громкости, которые получили Флетчер и Мансон (Fletcher and Munson) в 1933 году, а также показания для частот более 16 кГц, полученные из современных источников. Порог слышимости и болевой порог обозначены красными линиями. Ученые, занимающиеся этим вопросом в последующем, уточняли эти показания. Результатом стала единица измерения «фон» и стандарт ISO 226 для кривых равной громкости. Последние собранные данные показывают, что ухо значительно хуже воспринимает низкие частоты, чем считали Флетчер и Мансон.

Верхний предел диапазона слышимости человеческого уха находится в том месте, где кривая болевого порога пересекает кривую слышимости. В этой точке, или за её пределами, звук резко становится невыносимо громким.

На низких частотах улитка уха работает как рефлексный низкочастотный динамик. Геликотрема представляет собой отверстие на конце базилярной мембраны, которое выступает в роли канала, принимающего частоту от 40 Гц до 65 Гц, у разных людей по-разному. Ниже этой частоты характеристика реакции резко скатывается вниз.

Диапазон от 20 Гц до 20 кГц – это стандартный диапазон слышимости. Он полностью перекрывает слышимый звуковой спектр, что подтверждено практически столетним сбором экспериментальных данных.

Идеальный слух или наследственный дар

Получая множество писем, я вижу, что множество людей верит в существование уникумов с исключительным слухом. Действительно ли существуют такие люди с «золотыми ушами»?

Зависит от того, что называть исключительным слухом.

Здоровые уши молодых людей слышат лучше, чем уши пожилых людей или поврежденные уши. Некоторые люди исключительно хорошо натренированы слышать все нюансы звука и музыки, о существовании которых большинство людей даже не догадывается. Когда-то в 90х я мог распознать каждый mp3-кодировщик (в то время все они были довольно плохими) и мог продемонстрировать это в двойном слепом тесте[2].

Если человек обладает здоровыми ушами и хорошо натренирован на распознавание звуков, я бы назвал его слух исключительным. Тем не менее, люди со слухом ниже среднего могут быть обучены замечать детали, которые ускользают от неподготовленных слушателей. Исключительный слух, по большей части, вопрос тренировки, а не способности слышать за пределами слухового диапазона обычных смертных.

Исследователи слуха очень бы хотели найти кого-либо как с исключительным слухом, так и со способностью слышать за пределами слухового диапазона, чтобы протестировать и записать результаты исследования. Ничего не имею против обычных людей, но каждый ученый хочет найти человека с генетическими причудами, чтобы написать первоклассную статью. Мы не нашли таких людей за 100 лет проведения испытаний, так что, вероятно, их не существует. Так что извините. Но мы продолжим искать дальше.

Любовь к цветовому спектру

Возможно, вы отнеслись скептично ко всему, что я только что написал, потому что это идет вразрез со всеми маркетинговыми ходами. Вместо этого, давайте предположим, что у людей возникла мания на расширение цветового диапазона, и отвлечёмся от звуковой тематики.

На рисунке выше изображена приблизительная шкала чувствительности палочек и колбочек человеческого глаза, сопоставленная с видимым спектром. Эти органы чувств реагируют на свет в перекрывающихся спектральных полосах, также как волосковые ячейки в ушах настроены на восприятие перекрывающихся полос звуковых частот.

Человеческий глаз видит ограниченный диапазон световых волн, называемый видимым излучением. Здесь прослеживается прямая аналогия с диапазоном слышимости звуковых волн. Также как и ухо, глаз имеет чувствительные клетки (палочки и колбочки) которые улавливают свет в различных, но перекрывающихся полосах частот.

Видимое излучение начинается с частоты около 400 ТГц (темно-красный) и простирается до 850 ТГц (темно-фиолетовый) [3], но острота зрения падает с течением жизни. За пределами этого приблизительного диапазона сила света, попадающая в глаза, может выжечь вам сетчатку. Таким образом, получается, что диапазон довольно приличный даже для молодых, здоровых, генетически одаренных личностей – диапазон, который аналогичен широкому диапазону звукового спектра.

Давайте предположим, что в нашем гипотетическом мире, где происходит повальное увлечение расширением видимого спектра видеозаписей, существует группа людей, которые считают, что эти ограничения недостаточно щедры. Они полагают, что видеозапись представляет собой не только зрительный спектр, но еще и инфракрасное и ультрафиолетовое излучения. Продолжив сравнение, предположим, что наиболее активная часть группы (которая гордится этим!) утверждает также, что и этого расширенного спектра недостаточно, и видео будет казаться наиболее естественным, если туда будут попадать микроволны и рентгеновское излучение. Для тех у кого «глаз – алмаз» разница будет огромная, просто день и ночь!

Разумеется, это просто смешно.

Никто не может увидеть рентгеновское излучение (или инфракрасное, или ультрафиолетовое, или микроволны). Неважно, насколько сильно человек верит в то, что он может, сетчатка просто не имеет необходимых инструментов для того, чтобы их воспринимать.

Вот эксперимент, который каждый может провести: сходите и возьмите ИК пульт от Apple [TV]. Светодиод излучает волны длиной 980 нм, примерно равные частоте в 306 ТГц, что близко к инфракрасному спектру. Волны такой длины находятся не так уж и далеко за пределами видимого диапазона. Возьмите пульт в подвал или в самую темную комнату с выключенным светом в своем доме посреди ночи и дайте своим глазам привыкнуть к темноте.

На картинке выше изображен инфракрасный пульт Apple TV, сфотографированный с помощью цифровой камеры. Хотя излучатель достаточно яркий и частота излучения подходит довольно близко к частоте красной части видимого спектра, инфракрасное излучение абсолютно невидимо для человеческого глаза.

Можете ли вы увидеть, как загорается светодиод пульта, когда вы нажимаете на кнопку[4]? Нет? Даже небольшой проблеск? Попробуйте несколько других пультов, во многих из них используется инфракрасное излучение диапазона 310-350 ТГц, подходящее немного ближе к видимой полосе частот, но вы не сможете разглядеть и его тоже. Остальные пульты излучают свет на частотах 350-380 ТГц, находящихся прямо на краю видимого диапазона, и он едва различим в абсолютной темноте, когда глаза к ней привыкнут [5]. Если бы их частоты совпадали с частотами видимого диапазона, то они были бы ослепительно и болезненно яркими.

Спектр инфракрасных светодиодов составляет максимум 20% от видимого диапазона и находится за его пределами. Частота 192 кГц выходит за рамки диапазона слышимости на 400%. Чтобы меня не обвиняли в сравнении яблок с апельсинами, напомню, что звуковое и зрительное восприятие одинаково ухудшается на границах своих спектров.

Примечания к Части 1

1. Как написал один разочарованный блогер: «Теорема Котельникова не объясняет, как работает цифровое аудио, наоборот, цифровое аудио было изобретено как следствие теоремы, если вы не верите теореме, то вы не можете верить и в существование цифрового звука».

2. Если это и не был самый скучный трюк, чтобы хвастаться им на вечеринках, то он был достаточно близок к этому.

3. Более характерно говорить о видимом излучении как о длинах волн, измеренных в нанометрах или ангстремах. Я использую частоту, чтобы как-то сопоставить ее со звуком. Эти величины эквиваленты, потому что частота обратно пропорциональна длине волны.

4. Эксперимент с индикатором пульта не сработает с ультрафиолетовыми диодами, в основном потому, что они на самом деле не ультрафиолетовые. Они достаточно фиолетовые, чтобы немного флюоресцировать, но все еще в пределах видимого диапазона. Реальные ультрафиолетовые светодиоды стоят около $100 – $1000 за штуку и нанесут ущерб глазам, если проводить такой тест. Потребительские недо-ультрафиолетовые светодиоды дополнительно излучают бледный белый свет, чтобы казаться ярче, так что вы можете их увидеть, даже если пик излучения находится в ультрафиолетовом диапазоне.

5. В оригинальной версии статьи говорится, что ИК-светодиоды работают на частотах 300-325 ТГц (около 920-980 нм) длин волн, которые невидимы. Довольно много читателей написали мне, что они могут видеть слабое свечение в некоторых (или всех) их пультах. Некоторые из этих людей были достаточно любезны, и сообщили мне модели пультов. Кое-какие из них я проверил на спектрометре. И смотрите-ка! Эти пульты используют высокочастотные светодиоды, работающие на частотах 350-380 ТГц (800-850 нм), а они как раз перекрывают границы видимого диапазона.

Эту статью прочитали 41 069 раз
Статья входит в разделы: Интересное о звуке

Поделитесь статьёй:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *