Как качество цифрового звука зависит от частоты. Кодирование звуковой информации. Режим кодирования Stereo дает лучшее качество, чем Joint Stereo

Чем физически отличается звук на виниловой пластинке от CD, и почему значительное количесство аудиофилов считают, что поледний безусловно проигрывает. В статье «Откуда берется качество винила?» я попытался докопаться до причин различий цифрового звука CD с частотой дискретизации 44 кГц и виниловых пластинок. Говоря иными словами, как изменяется форма волны или осциллограмма при преобразовании звука в цифру и обратно .

Сегодня нам предстоит обсудить: стоит ли вообще переходить на цифровые источники с высокими частотами дискретизации (96, 192 и так далее кГц) когда у нас уже имеется очень популярный формат CD 44,1 кГц, или вся эта шумиха - лишь ловкие маркетинговые ходы производителей аудиотехники, пытающихся постоянно наращивать свои объемы продаж.

Но не все свои мрачные тайны вносимых искажений нам выдала коварная Цифра. Придется посмотреть еще и на частотный спектр сигнала.
В одной из предыдущих статей я говорил о том, что любой сигнал можно представить в виде суммы синусоид . Но тут есть два момента:
1. Периодический или циклически повторяющийся сигнал любой формы можно представить, как сумму синусоид (гармоник) с разными фазами (говоря грубо, временными задержками) и частотами, кратными (умножить на 2, 3 и так далее) основной частоте этого сигнала.. Эта частота зависит от длительности цикла повтора.

2. Непериодический или неповторяющийся сигнал (а это любая фонограмма) имеет бесконечный сплошной спектр (бесконечное количество синусоид «прижавшихся друг», уровень которых, в общем случае, спадает с ростом частоты).

Приняв за истину то, что среднестатистический (повторяю: среднестатистический) человек не слышит выше 20 кГц , мы уверенной рукой отбрасываем все синусоиды, которые имеют частоту выше этой цифры (ультразвук), и считаем, что наше восприятие звука от этого ничего не теряет.

Но это - только полдела. Предположим, что мы действительно не слышим ультразвук выше 20 кГц, но, не смотря на это, он, все-таки, играет свою губительную роль в черном деле искажения исходного (на входе аудиокарты) звука при превращении последнего в цифру . И сейчас мы посмотрим, как это происходит.

Наш исходный сигнал имеет непериодическую форму (то есть форма его волны никогда не повторяется) и, следовательно, у него - бесконечный сплошной спектр . Все синусоиды, находящиеся выше 20 кГц мы назвали ультразвуком . Причем под ультразвуком на входе звуковой карты надо понимать не только сигнал, порожденный акустической волной, который практически полностью теряет все свои ультразвуковые составляющие прямо в микрофоне или звукоснимателе гитары, но к ультразвуку добавляются разнообразные наводки на высоких частотах , которые успели примешаться к исходному сигналу при прохождении им электрических цепей усилителей, АЦП и пр. (вот хотя бы помехи от Вашего компьютера).

Что происходит теперь при аналогово-цифровом преобразовании сигнала со спектром от 0 Гц до бесконечности без принятия специальных мер? Все ультразвуковые синусоиды с частотами выше половины частоты дискретизации попадают (смещаются) в слышимый диапазон .

На жаргоне цифровой обработки сигналов это называется «заворотом» спектра. И вместо чистого звука от 0 до 22 кГц (половины частоты дискретизации) мы имеем кашу из чистого звука и искаженного ультразвука (вся часть спектра, расположенная выше 22 кГц). Ультразвук смещается по частоте в область ниже половины частоты дискретизации и спектр его зеркально разворачивается: верхние частоты оказываются внизу, а нижние - вверху.

Как пример можете себе представить, дуэт баритона и тенора, которые сначала оба поют в тональности ля. А теперь представьте, что вы услышите, если бас продолжает петь в тональности ля, а тенор начинает петь в тональности соль диез, да еще и слова поет задом наперед.

Как борются с этим неприятным эффектом и имеет ли успех тяжелая борьба с техникой?

Перед тем, как оцифровать сигнал, с помощью аналогового фильтра низких частот (который пропускает через себя только низкие частоты) удаляют все ультразвуковые составляющие . И только после этого производят преобразование в цифру.

Однако, есть одно НО. Идеальных фильтров - нет и в ближайшее время, похоже, не будет. А тот спектр, который получается после фильтрации, все равно содержит ультразвуковые составляющие, мощность которых (уровни синусоид на соответствующих частотах) плавно спадает до 24-30 кГц (зависит от качества фильтра и цены звуковой карты). Иными словами, фильтр все равно полностью не искореняет ультразвук.

Потом все эти никому не нужные составляющие с частотами выше 22 кГц, нагло просочившиеся через фильтр, сохраняются в цифровой записи и становятся слышны нам, цинично накладываясь на наш чистый непорочный звук от 0 до 22 кГц.

Как же нам поступить в этом случае? Хорошая новость: при качестве имеющихся у нас фильтров, ультразвуковыми составляющими выше 30-40 кГц на его выходе уже можно пренебречь в виду их малой мощности.

У фильтра низких частот есть такой параметр, как частота среза . Это - максимальная частота, выше которой фильтр, теоретически, не пропускает звук. Но на самом деле эта граница весьма и весьма условна , так, как она устанавливается на той частоте, где ослабление проходящего через фильтр сигнала достигает определенного порога. Частотная характеристика фильтра низких частот (зависимость ослабления сигнала от частоты) имеет весьма плавную форму , постепенно все более и более ослабляя сигнал с ростом частоты.

Частотная характеристика фильтра, как снежная горка - если бы у нее имелась резкая граница (на частоте среза), то горка бы заканчивалась обрывом и санки в конце ее резко бы клевали носом в землю, останавливаясь почти мгновенно. А наша горка (как и самый лучший в мире аналоговый фильтр) - все равно плавная и мы также плавно съезжаем все дальше и дальше в область ультразвука.

Чем выше входная частота синусоиды от частоты среза фильтра, тем хуже он пропускает ее. Поэтому у частот 30-40 кГц суммарная мощность (сумма мощностей всех синусоид в этом диапазоне частот) значительно меньше суммарной мощности синусоид в диапазоне 22-30 кГц .

По этой причине, если частоты 30-40 кГц и сместятся в область слышимых частот, то будут менее заметны, чем те которые лежат от 22 (половина частоты дискретизации CD) до 30 кГц. И с ростом частоты фильтр работает все лучше и лучше.

Поэтому нам остается только увеличить частоту дискретизации таким образом, чтобы суммарная мощность ультразвуковых частот, лежащих выше половины частоты дискретизации, и пролезших через фильтр, была ничтожно мала.

Но теперь следующий вопрос: почему, если все так хорошо с 96 килогерцами, нам нужно еще лезть на частоты дискретизации 192 и выше килогерц?

Вспомним, что в статье Откуда берется качество винила? упоминалось о «ступеньках», возникающих при оцифровке сигнала за счет того, что сигнал измеряется с разрывами во времени и само значение измерений - тоже ступенчато. Кроме того в цифрово-аналоговых и аналогово-цифровых преобразователях наблюдается такое явление, как «дрожание» фазы (джиттер). В чем оно проявляется? А в том, что измерения делаются не строго равномерно, а с некоторыми задержками или опережениями во времени.

Причиной джиттера прежде всего становится нестабильность тактирующего генератора АЦП и ЦАП звуковой карты. Этот генератор задает моменты измерений. Также к джиттеру приводят помехи (наводки).

Если бы АЦП при записи и ЦАП при воспроизведении имели бы абсолютно одинаковый джиттер (расстояния между измерениями были бы одинаковыми при записи и при воспроизведении), то не было бы никакой беды . Но временное положение отсчета (фаза) все время дрожит и отклоняется, как ему взбредет в голову. Это, примерно, как петь, сидя на телеге едущей по булыжной мостовой или наливать в рюмку дорогой коньяк трясущимися руками.

Так вот, ступеньки и джиттер (хотя с ними тоже можно бороться) порождают шумы (искажения сигнала при оцифровке). Чем выше разрядность отсчета АЦП и ЦАП (16, 24, 32 и так далее бит), тем ближе восстановленное значение к оригиналу. Чем выше частота дискретизации (меньше расстояние между измерениями), тем больше измерений приходится на каждый маленький участочек сигнала. За счет большого количества измерений, в среднем он точнее (с меньшими шумами) запоминается и восстанавливается. Это примерно, как если Вы стреляете в мишень из пистолета, то в десятку можете попасть 2 патронами из 6. А если в Ваших руках автомат, то, промахнувшись пятьюдесятью пулями, попадете в цель двадцатью. Если кто и выживет от двух пуль, то от 20 - точно ноги протянет. Таким образом, и 192 кГц попадает в яблочко несколько лучше, чем 96, а тем более - 44.

Производители поговаривают уже о частотах 384 и выше кГц. Но послушать и оценить такой формат пока еще не на чем.

Резюме:

Итак нужен ли переход на высокие частоты дискретизации или нет? Вопрос неоднозначный. Повышение качества звучания - вопрос комплексный, в котором задействованна и частота дискретизации, и качество фильтра низких частот, и стабильность опорного генератора частоты дискретизации, и точность измерения / восстановления уровня АЦП / ЦАП. Механическое повышение частоты дискретизации не даст выигрыша при отсутствии работы по улучшению в остальных направлениях. И может оказаться, что аналоговый выход профессиональной звуковой карты с максимальной частотой дискретизации 48 кГц звучит лучше, чем у ширпотребовской встроенной "звуковухи" с частотой дискретизации 192 кГц.

Звук в современном мире играет все боле важную роль, уже давно оторвавшись от тесной привязки к изображению возникшей в период расцвета телевидения и кино. Современное мультимедийное оборудование обладает широчайшими возможностями не только по его воспроизведению, но даже по изменению звука. Он уже перестал быть мертвой записью, статичным воспроизведением давно прошедших событий, намертво запечатленным на своем носителе. Важнейшую роль в преображении наших представлений о звуке сыграло развитие цифрового способа записи звука, преобразовании его в поток данных, с которым можно легко и непринужденно оперировать современными устройствами.

Форматы: каким бывает цифровой звук

В каждом из продающихся на сегодня мультимедийных устройств, будь то CD-плеер, диктофон, или плеер на флэш-памяти, используется множество самых различных видов представления потоков данных, которые преобразуются затем в звук. А уж форматов звука, используемых в профессиональных целях, придумано и того больше. Неискушенный покупатель вынужден черпать информацию об обозначениях на коробках и устройствах из самых разных источников, зачастую получая неверные сведения или запутываясь еще больше.

Практически каждое устройство из раздела каталога поддерживает сразу несколько форматов звука, а многие устройства, не относящиеся к этой категории, также снабжены надписями о поддержке воспроизведения звуковых файлов. Для того чтобы помочь нашему читателю, мы решили создать небольшой глоссарий сокращений и рассказать о наиболее распространенных форматах. Мы планируем сделать его открытым для пополнения и поправок, добавляя новые форматы и более подробно описывая преимущества и недостатки уже распространенных или забытых.

Немного теории

Для начала следует напомнить, что цифровой звук – это не более чем набор цифр. Определяющим фактором является система, с помощью которой звук как давление воздуха был преобразован в потоки данных и закодирован для последующей обработки и воспроизведения. Соответственно, цифровой звук обычно заключен в компьютерных файлах с различным расширением, по которому чаще всего (но не всегда) и можно определить его формат. А само понятие формата может иметь, как это ни парадоксально, два смысла. Во-первых, формат может существовать как всеобъемлющая характеристика, включающая в себя и тип, и физические характеристики носителя (диска или кассеты), способа записи, принципов кодирования и защиты от ошибок. Во-вторых, под форматом можно понимать только сам способ кодирования и сжатия звука, так как для переноса используются стандартные средства, например, компьютер.

Аналоговый звук, в отличие от цифрового, воспроизводится в аналоговых устройствах и имеет ряд существенных отличий. Не являясь потоком данных, аналоговый звук представляется непрерывным электрическим сигналом, отображающим изменение звуковой волны. Для перевода его в цифровой формат звук «оцифровывается», то есть разбивается на определенные отрезки, в которых фиксируется числовое значение амплитуды в данный момент. Мы не будем углубляться в принципы создания цифрового звука, однако совершенно необходимо отметить, что чем чаще происходит разбиение отрезка звука и описание его характеристик, тем яснее и полнее создается картина собственно звука.

Такой процесс порождает огромный поток данных, описывающих звук, и очевидно, что каждый формат цифрового звука является не больше чем компромиссом между необходимостью представить звук как можно более качественным и ограничениями объема памяти компьютера или устройства воспроизведения.

Еще немного теории. Человеческое ухо воспринимает в большинстве случаев звук с частотой не выше 22000 Гц, и для того чтобы его полностью описать в цифровом виде, требуется частота дискретизации не менее 44,1 кГц. Так как абсолютно точно определить значение сигнала в определенный момент времени невозможно, то при оцифровке происходит квантование, то есть замена реальных значений сигнала приближенными. Чем больше уровней квантования звука, тем точнее описывается уровень сигнала. В итоге каждый стандартный компакт-диск несет на себе звуковой сигнал с частотой дискретизации в те самые 44,1 кГц и уровнем квантования в 16 бит, а в некоторых устройствах производится дискретизация с частотой 48 кГц.

Биты, герцы, shaped dithering...

Что скрывается за этими понятиями? При разработке стандарта аудио компакт дисков (CD Audio) были приняты значения 44 кГц, 16 бит и 2 канала (т.е. стерео). Почему именно столько? В чём причина такого выбора, а также - почему предпринимаются попытки повысить эти значения до, скажем, 96 кГц и 24 или даже до 32х битов...

Разберёмся сначала с разрешением сэмплирования - то есть с битностью. Так уж получается, что выбирать приходится между числами 16, 24 и 32. Промежуточные значения были бы, конечно, удобнее в смысле звука, но слишком неприятны для использования в цифровой технике (весьма спорное утверждение, если учесть, что многие АЦП имеют 11 или 12 разрядный цифровой выход - прим. сост.).

За что отвечает этот параметр? В двух словах - за динамический диапазон. Диапазон одновременно воспроизводимых громкостей - от максимальной амплитуды (0 децибел) до той наименьшей, которую позволяет передать разрешение, например, около минус 93 децибел для 16 битного аудио. Как ни странно, это сильно связано с уровнем шумов фонограммы. В принципе, для 16 битного аудио вполне возможна передача сигналов мощностью и в -120 дБ, однако эти сигналы будет затруднительно применять на практике из-за такого фундаментального понятия как шум дискретизации . Дело в том, что при взятии цифровых значений мы всё время ошибаемся, округляя реальное аналоговое значение до ближайшего возможного цифрового. Самая маленькая возможная ошибка - нулевая, максимально же мы ошибаемся на половину последнего разряда (бита, далее термин младший бит будет сокращаться до МБ). Эта ошибка даёт нам так называемый шум дискретизации - случайное несоответствие оцифрованного сигнала оригиналу. Этот шум носит постоянный характер и имеет максимальную амплитуду равную половине младшего разряда. Это можно рассматривать как случайные значения, подмешанные в цифровой сигнал. Иногда это называется шум округления или квантования (что является более точным названием, так как кодирование амплитуды называется квантованием, а дискретизацией называется процесс преобразования непрерывного сигнала в дискретную (импульсную) последовательность -- прим. сост.).

Остановимся подробнее на том, что понимается под мощностью сигналов, измеряемой в битах. Самый сильный сигнал в цифровой обработке звука принято принимать за 0 дБ, это соответствует всем битам, поставленным в 1. Если старший бит (далее СБ) обнулить, получившееся цифровое значение будет в два раза меньше, что соответствует потере уровня на 6 децибел (10 * log(2) = 6). Таким образом, обнуляя единички от старших разрядов к младшим, мы будем уменьшать уровень сигнала на шесть децибел. Понятно, что минимальный уровень сигнала (единичка в младшем разряде, а все остальные разряды - нули) (N-1)*6децибел, где N - разрядность отсчета (сэмпла). Для 16 разрядов получаем уровень самого слабого сигнала - 90 децибел.

Когда мы говорим "половина младшего разряда", мы имеем в виду не -90/2, а половину шага до следующего бита - то есть ещё на 3 децибела ниже, минус 93 децибел.

Возвращаемся к выбору разрешения оцифровки. Как уже было сказано, оцифровка вносит шум на уровне половины младшего разряда, это говорит о том, что запись, оцифрованная в 16 бит, постоянно шумит на минус 93 децибел. Она может передавать сигналы и тише, но шум всё равно остаётся на уровне -93 дБ. По этому признаку и определяется динамический диапазон цифрового звука - там, где соотношение сигнал/шум переходит в шум/сигнал (шумов больше, чем полезного сигнала), находится граница этого диапазона снизу. Таким образом, главный критерий оцифровки - сколько шума мы можем себе позволить в восстановленном сигнале? Ответ на этот вопрос зависит отчасти от того, сколько шума было в исходной фонограмме. Важный вывод - если мы оцифровываем нечто с уровнем шумов минус 80 децибел - нет совершенно никаких причин цифровать это в более чем 16 бит, так как, с одной стороны, шумы -93 дБ добавляют очень мало к уже имеющимся огромным (сравнительно) шумам -80 дБ, а с другой стороны - тише чем -80 дБ в самой фонограмме уже начинается шум/сигнал, и оцифровывать и передавать такой сигнал просто не нужно.

Теоретически это единственный критерий выбора разрешения оцифровки. Больше мы не вносим совершенно никаких искажений или неточностей. Практика, как ни странно, почти полностью повторяет теорию. Этим и руководствовались те люди, которые выбирали разрешение 16 бит для аудио компакт дисков. Шум минус 93 децибел - довольно хорошее условие, которое почти точно соответствует условиям нашего восприятия: разница между болевым порогом (140 децибел) и обычным шумовым фоном в городе (30-50 децибел) составляет как раз около сотни децибел, и если учесть, что на уровне громкости, приносящем боль, музыку не слушают - что ещё несколько сужает диапазон - получается, что реальные шумы помещения или даже аппаратуры получаются гораздо сильнее шумов квантования. Если мы можем расслышать уровень под минус 90 децибел в цифровой записи - мы услышим и воспримем шумы квантования, иначе - мы просто никогда не определим, оцифрованное это аудио или живое. Никакой другой разницы в смысле динамического диапазона просто нет. Но в принципе, человек может осмысленно слышать в диапазоне 120 децибел, и было бы неплохо сохранить весь этот диапазон, с чем 16 бит, казалось бы, не справляются.

Но это только на первый взгляд: с помощью специальной техники, называемой shaped dithering , можно изменить частотный спектр шумов дискретизации, почти полностью вынести их в область более 7-15 кГц. Мы как бы меняем разрешение по частоте (отказываемся от воспроизведения тихих высоких частот) на дополнительный динамический диапазон в оставшемся отрезке частот. В сочетании с особенностями нашего слуха - наша чувствительность к выкидываемой области высоких частот на десятки дБ ниже чем в основной области (2-4 кГц) - это делает возможным относительно бесшумную передачу полезных сигналов дополнительно ещё на 10-20 дБ тише, чем -93 дБ - таким образом, динамический диапазон 16 битного звука для человека составляет около 110 децибел. Да и вообще - одновременно человек просто не может слышать звуки на 110 децибел тише, чем только что услышанный громкий звук. Ухо, как и глаз, подстраивается под громкость окружающей действительности, поэтому одновременный диапазон нашего слуха составляет сравнительно мало - около 80 децибел. Поговорим о dithring-е подробнее после обсуждения частотных аспектов.

Для компакт дисков выбрана частота дискретизации 44100 Гц. Бытует мнение (основанное на неверном понимании теоремы Котельникова-Найквиста), что при этом воспроизводятся все частоты вплоть до 22.05 кГц, однако это не совсем так. Однозначно можно сказать лишь то, что частот выше 22.05 кГц в оцифрованном сигнале нет. Реальная же картина воспроизведения оцифрованного звука всегда зависит от конкретной техники и всегда не так идеальна, как хотелось бы, и как соответствует теории. Все зависит от конкретного ЦАП (цифро-аналогового преобразователя, отвечающего за получение звукового сигнала из цифровой последовательности).

Разберемся сначала, что нам хотелось бы получить. Человек среднего возраста (скорее молодой) может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. Звуки выше и ниже воспринимаются, но не составляют акустических ощущений. Звуки выше 16 кГц ощущаются как раздражающий неприятный фактор - давление на голову, боль, особо громкие звуки приносят такой резкий дискомфорт, что хочется покинуть помещение. Неприятные ощущения настолько сильны, что на этом основано действие охранных устройств - несколько минут очень громкого звука высокой частоты сведут с ума кого угодно, и воровать что либо в такой обстановке становится решительно невозможно. Звуки ниже 30 - 40 Гц при достаточной амплитуде воспринимаются как вибрация, исходящая от объектов (колонок). Вернее будет даже сказать так - просто вибрация. Человек акустически почти не определяет пространственное положение настолько низких звуков, поэтому в ход уже идут другие органы чувств - осязательные, мы чувствуем такие звуки телом.

С высокими частотами все немного хуже, по крайней мере точно сложнее . Почти вся суть усовершенствований и усложнений ЦАП и АЦП направлена как раз на более достоверную передачу высоких частот. Под "высокими" подразумеваются частоты сравнимые с частотой дискретизации - то есть в случае 44.1 кГц это 7-10 кГц и выше.

Представим синусоидальный сигнал с частотой 14 кГц, оцифрованный с частотой дискретизации 44.1 кГц. На один период входной синусоиды приходится около трех точек (отсчетов), и чтобы восстановить исходную частоту в виде синусоиды, надо проявить некоторую фантазию. Процесс восстановления формы сигнала по отсчетам происходит и в ЦАП, этим занимается восстанавливающий фильтр. И если сравнительно низкие частоты представляют собой почти готовые синусоиды, то форма и, соответственно, качество восстановления высоких частот лежит целиком на совести восстанавливающей системы ЦАП.Таким образом, чем ближе частота сигнала к одной второй частоты дискретизации, тем сложнее восстановить форму сигнала.

Это и составляет основную проблему при воспроизведении высоких частот. Проблема, однако, не так страшна, как может показаться. Во всех современных ЦАП используется технология пересэмплирования (multirate), которая заключается в цифровом восстановлении до в несколько раз более высокой частоты дискретизации, и в последующем переводе в аналоговый сигнал на повышенной частоте. Таким образом проблема восстановления высоких частот перекладывается на плечи цифровых фильтров, которые могут быть очень качественными. Настолько качественными, что в случае дорогих устройств проблема полностью снимается - обеспечивается неискаженное воспроизведение частот до 19-20 кГц. Пересэмплирование применяется и в не очень дорогих устройствах, так что в принципе и эту проблему можно считать решенной. Устройства в районе $30 - $60 (звуковые карты) или музыкальные центры до $600, обычно аналогичные по ЦАПу этим звуковым картам, отлично воспроизводят частоты до 10 кГц, сносно - до 14 - 15, и кое-как остальные. Этого вполне достаточно для большинства реальных музыкальных применений, а если кому-то нужно большее качество - он найдет его в устройствах профессионального класса, которые не то чтобы сильно дороже - просто они сделаны с умом.

Вернемся к dithering-у - посмотрим, как можно с пользой увеличить динамический диапазон за пределы 16 бит.

Идея dithering-а заключается в том, чтобы подмешать в сигнал шум . Как ни странно это звучит - для того чтобы уменьшить шумы и неприятные эффекты квантования, мы добавляем свой шум. Рассмотрим пример - воспользуемся возможностью CoolEdit-а работать в 32х битах. 32 бита - это в 65 тысяч раз большая точность, нежели 16 бит, поэтому в нашем случае 32х битный звук можно считать аналоговым оригиналом, а перевод его в 16 бит - оцифровкой. Пусть в исходном 32х битном звуке самый высокий уровень звука соответствует минус 110 децибел. Это с запасом гораздо тише динамического диапазона 16 битного звука, для которого самый слабый различимый звук соответствует уровню минус 90 децибел. Поэтому если просто округлить данные до 16 бит - мы получим полную цифровую тишину.

Добавим в сигнал "белый" шум (т.е. широкополосный и равномерный по всей полосе частот) с уровнем минус 90 децибел, примерно соответствующий по уровню шумам квантования. Теперь, если преобразовать эту сместь сигнала и "белого" шума в 16 бит (возможны только целые значения - 0, 1, -1, ...), то окажется, что какая-то часть сигнала осталась. Там, где исходный сигнал имел больший уровень, больше единиц, где меньший - нулей.

Для экспериментальной проверки изложенного выше способа можно воспользоваться звуковым редактором Cool Edit (или любым другим, поддерживающим 32 битный формат). Чтобы услышать то, что получится, следует усилить сигнал на 14 бит (на 78 дБ).

Результат - зашумленный 16 битный звук, содержащий исходный сигнал, который имел уровень минус 110 децибел. В принципе, это и есть стандартный способ расширения динамического диапазона, получающийся часто чуть ли не сам собой - шума везде хватает. Однако само по себе это довольно бессмысленно - уровень шумов дискретизации так и остаётся на прежнем уровне, а передавать сигнал слабее шума - занятие не очень понятное с точки зрения логики... (Весьма ошибочное мнение, так как передача сигнала с уровнем, который меньше уровня шумов, - это один из фундаментальных методов кодирования данных. Прим. сост.)

Более сложный способ - shaped dithering , заключается в том, что раз мы всё равно не слышим высоких частот в очень тихих звуках, значит, следует основную мощность шума направить в эти частоты, при этом можно даже воспользоваться шумом более высокого уровня - я воспользуюсь уровнем в 4 младших разряда (два бита в 16 битном сигнале). Полученную смесь 32 битного сигнала и шума преобразуем в 16 битный сигнал, отфильтровываем верхние частоты (которые реально не воспринимаются человеком на слух) и повышаем уровень сигнала, чтобы можно было оценить результат.

Это уже вполне хорошая (для запредельно низкой громкости) передача звука, шумы примерно равняются по мощности самому звуку с исходным уровнем минус 110 децибел! Важное замечание: мы повысили реальные шумы дискретизации с половины младшего разряда (-93 дБ) до четырёх младших разрядов (-84 дБ), понизив слышимые шумы дискретизации с -93 дБ до примерно -110 дБ. Отношение сигнал/шум ухудшилось , но шум ушел в высокочастотную область и перестал быть слышимым, что дало существенное улучшение реального (воспринимаемого человеком) отношения сигнал/шум.

(Иными словами, поскольку мощность шума как бы "размазана" по частотному диапазону, то не пропуская верхние частоты, мы отбираем у него часть мощности, в результате чего во временном представлении сигналов улучшается соотношение сигнал/шум. - Прим. сост.)

Практически это уже уровень шумов дискретизации 20 битного звука. Единственное условие этой технологии - наличие частот для шума. 44.1 кГц звук даёт возможность размещать шум в неслышимых на тихой громкости частотах 10-20 кГц. А вот если оцифровывать в 96 кГц - частотная область для шума (неслышимая человеком) будет настолько велика, что при использовании shaped dithering 16 бит реально превращаются и во все 24.

[На заметку: PC Speaker - однобитное устройство, с однако довольно высокой максимальной частотой дискретизации (включения/выключения этого единственного бита). С помощью процесса, сходного по сути с dithering-ом, называемым скорее широтно-импульсная модуляция, на нём игрался довольно качественный цифровой звук - из одного бита и высокой частоты дискретизации вытягивались 5-8 бит низкой частоты, а фильтром высокочастотного шума выступала неспособность аппаратуры воспроизводить столь высокие частоты, как впрочем и наша неспособность их слышать. Лёгкий высокочастотный свист, однако - слышимая часть этого шума - был слышен.]

Таким образом, shaped dithering позволяет существенно понизить и без того низкие шумы дискретизации 16 битного звука, спокойно расширив таким образом полезный (бесшумный) динамический диапазон на всю область человеческого слуха. Поскольку сейчас уже всегда при переводе из рабочего формата 32 бит в конечный 16 бит для CD используется shaped dithering - наши 16 бит совершенно достаточны для полной передачи звуковой картины.

Следует отметить, что эта технология действует только на этапе подготовки материала к воспроизведению. Во время обработки качественного звука просто необходимо оставаться в 32х битах, чтобы не применять dithering после каждой операции, более качественно кодируя результаты обратно в 16 бит. Но если уровень шума фонограммы составляет более минус 60 децибел - можно без малейших зазрений совести вести всю обработку в 16 битах. Промежуточный dithering обеспечит отсутствие искажений округления, а добавленный им шум в сотни раз слабее уже имеющегося и поэтому совершенно безразличен.

Q:
Почему говорят, что 32-х битный звук качественнее 16 битного?
A1: Ошибаются.
A2: [Имеют в виду немного другое: при обработке или записи звука нужно использовать большее разрешение. Этим пользуются всегда . Но в звуке как в готовой продукции разрешение более 16 бит не требуется.]
Q: Имеет ли смысл увеличивать частоту дискретизации (например до 48 кГц или до 96)?
A1: Не имеет. При хоть сколь грамотном подходе в конструировании ЦАП 44 кГц передают весь необходимый частотный диапазон.
A2: [Имеют в виду немного другое: это имеет смысл, но лишь при обработке или записи звука.]
Q: Почему всё же идет внедрение больших частот и битности?
A1: Прогрессу важно двигаться. Куда и зачем - уже не столь важно...
A2: Многие процессы в этом случае происходят легче. Если, например, устройство собирается обработать звук - ему будет легче это сделать в 96 кГц / 32 бита. Почти все DSP используют 32 бита для обработки звука, и возможность забыть про преобразования - облегчение разработки и всё же небольшое увеличение качества. Да и вообще - звук для дальнейшей обработки имеет смысл хранить в большем разрешении, нежели 16 бит. Для hi-end устройств которые лишь воспроизводят звук это абсолютно безразлично.
Q: 32х или 24х или даже 18 битные ЦАП лучше чем 16 битные?
A: В общем случае - нет . Качество преобразования нисколько не зависит от битности. В AC"97 кодеке (современная звуковая карта до $50) используется 18 битный кодек, а в картах за $500, звук которых с этой ерундой даже сравнивать нельзя - 16 битный. Это не имеет абсолютно никакого значения для воспроизведения 16 битного звука .
Стоит также иметь в виду, что большинство ЦАПов обычно реально воспроизводят меньше бит, чем берутся. Например, реальный уровень шумов типичного дешевого кодека составляет -90 дБ, что составляет 15 бит, и даже если он сам 24х битный - вы не получите никакой отдачи от "лишних" 9 бит - результат их работы, даже если он имелся, потонет в их же собственном шуме. Большинство же дешевых устройств просто игнорируют дополнительные биты - они просто реально не идут в расчет в их процессе синтеза звука, хотя и поступают на цифровой вход ЦАПа.
Q: А для записи?
A: Для записи - лучше иметь АЦП большей разрядности. Опять же, большей реальной разрядности. Разрядность ЦАПа должна соответствовать уровню шумов исходной фонограммы, или просто быть достаточной для достижения желаемо низкого уровня шума .
Также удобно бывает иметь разрядность с запасом, чтобы использовать повышенный динамический диапазон для менее точной регулировки уровня записи. Но помните - вы должны всегда попадать в реальный диапазон кодека. В реальности 32х битный АЦП, к примеру, почти полностью бессмысленнен , так как младший десяток бит будут просто непрерывно шуметь - настолько малого шума (под -200 дБ) просто не бывает в аналоговом музыкальном источнике.

Требовать от звука повышенной разрядности или частоты дискретизации, по сравнению с CD, лучшего качества - не стоит. 16 бит / 44 кГц, доведённые до предела с помощью shaped dithering, вполне способны полностью передать интересующую нас информацию, если дело не идет о процессе звукообработки. Не стоит тратить место на лишние данные готового материала, также как не стоит ожидать повышенного качества звука от DVD-Audio с его 96 кГц / 24 бит. При грамотном подходе при создании звука в формате стандартного CD мы будем иметь качество, которое просто не нуждается в дальнейшем улучшении, а ответственность за правильную звукозапись конечных данных давно взяли на себя разработанные алгоритмы и люди, умеющие правильно их использовать. В последние несколько лет вы уже не найдете нового диска без shaped dithering и других приемов доведения качества звукопередачи до предела. Да, ленивым или просто криворуким будет удобнее давать готовый материал в 32х битах и 96 кГц, но по идее - стоит ли это в несколько раз больших аудио данных?..

Человеческое ухо воспринимает звук с частотой от 20 колебаний в секунду (низкий звук) до 20 000 колебаний в секунду (высокий звук).

Человек может воспринимать звук в огромном диапазоне интенсивностей, в котором максимальная интенсивность больше минимальной в 10 14 раз (в сто тысяч миллиардов раз). Для измерения громкости звука применяется специальная единица "децибел" (дбл) (табл. 5.1). Уменьшение или увеличение громкости звука на 10 дбл соответствует уменьшению или увеличению интенсивности звука в 10 раз.

Временная дискретизация звука. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму с помощью временной дискретизации. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенная величина интенсивности звука.

Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность "ступенек" (рис. 1.2).


Рис. 1.2. Временная дискретизация звука

Частота дискретизации. Для записи аналогового звука и г го преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации . Чем большее количество измерений производится за I секунду (чем больше частота дискретизации), тем точнее "лесенка" цифрового звукового сигнала повторяет кривую диалогового сигнала.

Частота дискретизации звука - это количество измерений громкости звука за одну секунду.

Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду.

Глубина кодирования звука. Каждой "ступеньке" присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.

Глубина кодирования звука - это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2 I . Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:

N = 2 I = 2 16 = 65 536.

В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему - 1111111111111111.

Качество оцифрованного звука. Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим "моно"). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим "стерео").

Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду й умножить на 2 (стереозвук):

16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.

Звуковые редакторы. Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).

Звуковые редакторы позволяют изменять качество цифрового звука и объем звукового файла путем изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV или в формате со сжатием МР3 .

При сохранении звука в форматах со сжатием отбрасываются "избыточные" для человеческого восприятия звуковые частоты с малой интенсивностью, совпадающие по времени со звуковыми частотами с большой интенсивностью. Применение такого формата позволяет сжимать звуковые файлы в десятки раз, однако приводит к необратимой потере информации (файлы не могут быть восстановлены в первоначальном виде).

Контрольные вопросы

1. Как частота дискретизации и глубина кодирования влияют на качество цифрового звука?

Задания для самостоятельного выполнения

1.22. Задание с выборочным ответом. Звуковая плата производит двоичное кодирование аналогового звукового сигнала. Какое количество информации необходимо для кодирования каждого из 65 536 возможных уровней интенсивности сигнала?
1) 16 битов; 2) 256 битов; 3) 1 бит; 4) 8 битов.

1.23. Задание с развернутым ответом. Оценить информационный объем цифровых звуковых файлов длительностью 10 секунд при глубине кодирования и частоте дискретизации звукового сигнала, обеспечивающих минимальное и максимальное качество звука:
а) моно, 8 битов, 8000 измерений в секунду;
б) стерео, 16 битов, 48 000 измерений в секунду.

1.24. Задание с развернутым ответом. Определить длительность звукового файла, который уместится на дискете 3,5" (учтите, что для хранения данных на такой дискете выделяется 2847 секторов объемом 512 байтов каждый):
а) при низком качестве звука: моно, 8 битов, 8000 измерений в секунду;
б) при высоком качестве звука: стерео, 16 битов, 48 000 измерений в секунду.

Основными параметрами, влияющими на качество цифровой звукозаписи, являются:

§ Разрядность АЦП и ЦАП.

§ Частота дискретизации АЦП и ЦАП.

§ Джиттер АЦП и ЦАП

§ Передискретизация

Также немаловажными остаются параметры аналогового тракта цифровых устройств звукозаписи и звуковоспроизведения:

§ Отношение сигнал/шум

§ Коэффициент нелинейных искажений

§ Интермодуляционные искажения

§ Неравномерность амплитудно-частотной характеристики

§ Взаимопроникновение каналов

§ Динамический диапазон

Техника цифровой звукозаписи

Запись цифрового звука в настоящее время осуществляется на студиях звукозаписи, под управлением персональных компьютеров и другой дорогостоящей и качественной аппаратуры. Также довольно широко развито понятие «домашней студии», в которой применяется профессиональное и полупрофессиональное звукозаписывающее оборудование, позволяющее создавать качественные записи в домашних условиях.

Применяются звуковые карты в составе компьютеров, которые производят обработку в своих АЦП и ЦАП - чаще всего в 24 битах и 96 кГц, дальнейшее повышение битности и частоты дискретизации, практически не увеличивает качества записи.

Существует целый класс компьютерных программ - звуковых редакторов, которые позволяют, работать со звуком:

§ записывать входящий звуковой поток

§ создавать (генерировать) звук

§ изменять существующую запись (добавлять сэмплы, изменять тембр, скорость звука, вырезать части и т.п.)

§ перезаписывать из одного формата в другой

§ конвертировать конвертировать разные аудиокодеки

Некоторые простые программы, позволяют осуществлять только конвертацию форматов и кодеков.

Разновидности цифровых аудиоформатов

Существуют различные понятия звукового формата.

Формат представления звуковых данных в цифровом виде зависит от способа квантования цифро-аналоговым преобразователем (ЦАП). В звукотехнике в настоящее время наиболее распространены два вида квантования:

§ импульсно-кодовая модуляция

§ сигма-дельта-модуляция

Зачастую разрядность квантования и частоту дискретизации указывают для различных звуковых устройств записи и воспроизведения как формат представления цифрового звука (24 бита/192 кГц; 16 бит/48 кГц).

Формат файла определяет структуру и особенности представления звуковых данных при хранении на запоминающем устройстве ПК. Для устранения избыточности аудио данных используются аудиокодеки, при помощи которых производится сжатие аудиоданных. Выделяют три группы звуковых форматов файлов:

§ аудиоформаты без сжатия, такие как WAV, AIFF

§ аудиоформаты со сжатием без потерь (APE, FLAC)

§ аудиоформаты, с применением сжатия с потерями (mp3, ogg)

Особняком стоят модульные музыкальные форматы файлов. Созданные синтетически или из сэмплов заранее записанных живых инструментов, они, в основном, служат для создания современной электронной музыки (MOD). Также сюда можно отнести формат MIDI, который не является звукозаписью, но при этом с помощью секвенсора позволяет записывать и воспроизводить музыку, используя определенный набор команд в текстовом виде.

Форматы носителей цифрового звука применяют как для массового распространения звуковых записей (CD, SACD), так и в профессиональной звукозаписи (DAT, минидиск).

Для систем пространственного звучания также можно выделить форматы звука, в основном являющиеся звуковым многоканальным сопровождением к кинофильмам. Такие системы имеют целые семейства форматов от двух крупных конкурирующих компаний Digital Theater Systems Inc. - DTS и Dolby Laboratories Inc. - Dolby Digital.

Также форматом называют количество каналов в системах многоканального звука (5.1; 7.1). Изначально такая система была разработана для кинотеатров, но впоследствии была расширена Программный кодек

Аудиокодек на программном уровне

§ G.723.1 - один из базовых кодеков для приложений IP-телефонии

§ G.729 - патентованный узкополосный кодек, который применяется для цифрового представления речи

§ Internet Low Bitrate Codec (iLBC) - популярный свободный кодек для IP-телефонии (в частности, для Skype и Google Talk)

Аудиокодек (англ. Audio codec ; аудио кодер/декодер) - компьютерная программа или аппаратное средство, предназначенное для кодирования или декодирования аудиоданных.

Программный кодек

Аудиокодек на программном уровне является специализированной компьютерной программой, кодеком, который сжимает (производит компрессию) или разжимает (производит декомпрессию) цифровые звуковые данные в соответствии с файловым звуковым форматом или потоковым звуковым форматом. Задача аудиокодека как компрессора заключается в предоставлении аудиосигнала с заданным качеством/точностью и минимально возможным размером. Благодаря сжатию уменьшается объём пространства, требуемого для хранения аудиоданных, а также возможно снизить полосу пропускания канала, по которому передаются аудиоданные. Большинство аудиокодеков осуществлены как программные библиотеки, которые взаимодействуют с одним или несколькими аудиоплеерами, такими как QuickTime Player, XMMS, Winamp, VLC media player, MPlayer или Windows Media Player.

Популярные программные аудиокодеки по областям применения:

§ MPEG-1 Layer III (MP3) - проприетарный кодек аудиозаписей (музыка, аудиокниги и т. п.) для компьютерной техники и цифровых проигрывателей

§ Ogg Vorbis (OGG) - второй по популярности формат, широко используется в компьютерных играх и в файлообменных сетях для передачи музыки

§ GSM-FR - первый цифровой стандарт кодирования речи, использованный в телефонах GSM

§ Adaptive multi rate (AMR) - запись человеческого голоса в мобильных телефонах и других мобильных устройствах

Понравилось? Лайкни нас на Facebook