Определение количества уровней аудиосигнала при использовании 8-битных звуковых карт

Обновлено: 09.07.2026

Варианты: моно (один канал) или стерео (два канала, правый/левый): чередование находится в одном файле; или сплит-стерео находится в двух отдельных файлах.

Частота дискретизации указана в герцах (Гц) или "циклах в секунду":
Используйте 44 100 Гц (44,1 кГц) = частота дискретизации качества CD для профессионального аудио. Каждый семпл содержит 16 бит информации.

Размеры файлов
Это огромный объем информации: 2 дорожки * 44 100 сэмплов в секунду * 16 бит/сэмпл = 1 411 200 бит/с.
Стереозвук CD-качества, 16 бит, 44,1 кГц = 176 кбайт/сек слишком высок для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (28,8
модем ~2,88 кбайт/сек). сек). См. Сжатие ниже.

Хорошее эмпирическое правило: каждая минута 16-битного стереозвука с частотой 44,1 кГц требует около 10 МБ дискового пространства.
Таким образом, на пустой 200-мегабайтный жесткий диск можно записать чуть менее 20 минут стереозвука CD-качества (точно 19 минут 20 секунд).

Качество звука CD (стерео, 16 бит, 44,1 кГц = 176 кбайт/сек) слишком высокое для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (модем 28,8
~ 2,88 кбайт /сек).
Аудиофайлы, сжатые в другие форматы, такие как rm или MP3, могут быть меньше, занимать меньше места на диске и передаваться быстрее.

../../index.html	sonic1ac.wav	155 КБ	13 сек
	sonic.rm (то же, что и выше)	65 КБ	13 секунд
большая разрядность	sonic1ac.mp3 (то же, что и выше)	225 КБ	13 секунд
../audio/heartsounds.html	00b10001.wav	62 КБ	3 сек

Возможные компромиссы между качеством звука и размером файла:
В зависимости от вашего предполагаемого использования звука вы можете пожертвовать некоторым качеством, чтобы уменьшить объем информации, необходимой для оцифрованного звука. Вот некоторые вещи, которые следует учитывать:

Стерео часто можно свернуть в монофонический (однодорожечный) аудиофайл. Если две дорожки суммируются, вся звуковая информация будет сохранена, но информация о направлении будет потеряна. Поскольку компьютерные динамики часто не разнесены на подходящее расстояние, даже стереосигналы скомпрометированы. Переход в моно уменьшит размер файла вдвое.
Частота дискретизации: компьютеры часто предлагают частоты дискретизации 44K, 22K, 11K и 6K (или числа, очень близкие к этим). Частота дискретизации является важным фактором качества звука цифрового файла. Для полнодиапазонных звуков необходимы скорости 22K или 44K, в то время как речь часто приемлема при 11K. Когда вы снижаете частоту дискретизации, звук теряет свои высокие частоты, поэтому для воспроизведения криков певчих птиц вам может понадобиться 44K, но для озвучивания вполне подойдет 11K. Чтобы быть точным, частота дискретизации должна быть в два раза выше самой высокой частоты, которая должна быть оцифрована.

Для преобразования файла можно использовать кодировщик MP3. Но его битовая глубина составляет 128, поэтому размер файла может увеличиться.

Расчет требований к свободному пространству на жестком диске:
Для работы с компьютерным цифровым звуком требуется большое количество места на жестком диске. Если вы планируете создавать новые аудиофайлы на диске, вам потребуется достаточно места на жестком диске для их хранения.

Пример: я записал 13 секунд звука в коридоре ITC, 16-битное стерео, 44 100 Гц. Это файл размером 2,5 М, и его определенно нужно сжать.

Требования к аудиофайлам в байтах в секунду:

Качество звука CD (стерео, 16 бит, 44,1 кГц = 176 кбайт/сек) слишком высокое для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (модем 28,8
~ 2,88 кбайт /сек).

Сжатие кодеком (компрессор/декомпрессор), возможно, для уменьшения размера файла:
Сжатие IMA работает достаточно хорошо для компакт-дисков, но является кросс-платформенным только с QuickTime.
MPEG 1 -- качество компакт-диска
MPEG 3 = MP3 и RealAudio являются наиболее популярными из многочисленных решений для веб-аудио.
Для музыки MIDI является лучшим решением как для компакт-дисков, так и для доставки через Интернет.
Кредиты для вышеуказанного материала:

В современную эпоху аудио нельзя не упомянуть о Hi-Res и 24-битной глубине музыки студийного качества, но понимает ли кто-нибудь, что это на самом деле означает?

В современную эпоху аудио нельзя не упомянуть музыку в формате Hi-Res и 24-битной музыки студийного качества. Если вы еще не заметили тенденцию в смартфонах высокого класса — кодек Sony LDAC Bluetooth — и потоковые сервисы, такие как Qobuz, вам действительно нужно больше читать этот сайт.

Обещание простое: превосходное качество звука благодаря большему объему данных, также известному как битовая глубина. Это 24 бита цифровых единиц и нулей по сравнению с жалким 16-битным пережитком эпохи компакт-дисков. Конечно, вам придется доплачивать за более качественные продукты и услуги, но чем больше битов, тем лучше, верно?

Звук в низком разрешении часто отображается в виде лестничной волны. Это не то, как работает сэмплирование звука, и это не то, как выглядит звук, исходящий от устройства.

Не обязательно. Потребность во все большей и большей битовой глубине основана не на научной реальности, а скорее на искажении правды и использовании неосведомленности потребителей о науке о звуке. В конечном счете, компании, продающие 24-битное аудио, могут получить гораздо больше прибыли, чем вы от превосходного качества воспроизведения.

Примечание редактора: эта статья была обновлена 13 июля 2021 г., чтобы обновить некоторые технические формулировки и добавить меню содержания.

Разрядность и качество звука: шаг по лестнице — это не проблема

Чтобы предположить, что 24-битный звук является обязательным, маркетологи (и многие другие, кто пытается объяснить эту тему) выдвигают очень знакомую лестницу качества звука в рай. 16-битный пример всегда показывает неровное, зубчатое воспроизведение синусоиды или другого сигнала, в то время как 24-битный эквивалент выглядит красиво гладко и с более высоким разрешением. Это простое наглядное пособие, но оно основано на незнании темы и научных данных, что приводит потребителей к неверным выводам.

Прежде чем кто-нибудь откусит мне голову, технически говоря, эти ступенчатые примеры довольно точно отображают звук в цифровой области. Тем не менее, диаграмма основы/леденец-диаграмма является более точным графическим изображением для визуального аудиосемплирования, чем эти ступенчатые ступени. Подумайте об этом так: сэмпл содержит амплитуду в определенный момент времени, а не амплитуду, удерживаемую в течение определенного периода времени.

Использование ступенчатых диаграмм намеренно вводит в заблуждение, поскольку базовые диаграммы обеспечивают более точное представление цифрового звука. Эти два графика отображают одни и те же точки данных, но ступенчатый график выглядит менее точным.

Тем не менее правильно, что аналого-цифровой преобразователь (АЦП) должен уместить бесконечно переменный аналоговый аудиосигнал в конечное число бит. Бит, попадающий между двумя уровнями, должен быть округлен до ближайшего приближения, что называется ошибкой квантования или шумом квантования. (Запомните это, так как мы еще вернемся к этому.)

Во-первых, то, что описывают эти ступенчатые диаграммы, если мы применим их к аудиовыходу, называется ЦАП нулевого порядка. Это очень простая и дешевая технология ЦАП, в которой сигнал переключается между различными уровнями каждый новый семпл для получения выходного сигнала. Это не используется ни в каких профессиональных или полуприличных потребительских аудиопродуктах. Вы можете найти его в микроконтроллере за 5 долларов, но уж точно не где-либо еще. Такое искажение аудиовыхода подразумевает искаженную и неточную форму волны, но это не то, что вы получаете.

На самом деле выход современного ∆Σ ЦАП представляет собой 1-битный сигнал PDM с передискретизацией (справа), а не сигнал с нулевым удержанием (слева). Последний производит более низкий уровень шума на аналоговом выходе при фильтрации.

АЦП и ЦАП звукового класса преимущественно основаны на дельта-сигма (∆Σ) модуляции. Компоненты этого калибра включают интерполяцию и передискретизацию, формирование шума и фильтрацию для сглаживания и уменьшения шума. Дельта-сигма ЦАП преобразуют аудиосэмплы в 1-битный поток (модуляция плотности импульсов) с очень высокой частотой дискретизации. При фильтрации это дает гладкий выходной сигнал с шумом, выведенным далеко за пределы слышимых частот.

В двух словах: современные ЦАП не выводят грубые зубчатые аудиосэмплы — они выводят битовый поток, который фильтруется шумом, в очень точный, гладкий выходной сигнал. Эта ступенчатая визуализация неверна из-за так называемого «шума квантования».

Понимание шума квантования

В любой конечной системе случаются ошибки округления. Это правда, что 24-битный АЦП или ЦАП будет иметь меньшую ошибку округления, чем 16-битный эквивалент, но что это на самом деле означает? Что еще более важно, что мы на самом деле слышим? Это искажение или нечеткость, детали потеряны навсегда?

На самом деле это и то, и другое, в зависимости от того, работаете ли вы в цифровом или аналоговом мире. Но ключевой концепцией для понимания обоих является понимание минимального уровня шума и того, как он улучшается по мере увеличения битовой глубины. Чтобы продемонстрировать, давайте отойдем от 16 и 24 бит и посмотрим на примеры с очень маленькой разрядностью.

Разница между глубиной 16 и 24 бита заключается не в точности формы сигнала, а в доступном пределе, при котором цифровой шум не будет мешать нашему сигналу.

В приведенном ниже примере есть довольно много вещей, которые нужно проверить, поэтому сначала краткое объяснение того, что мы рассматриваем. У нас есть входные (синие) и квантованные (оранжевые) сигналы на верхних диаграммах с разрядностью 2, 4 и 8 бит. Мы также добавили к нашему сигналу небольшое количество шума, чтобы лучше имитировать реальный мир. Внизу у нас есть график ошибки квантования или шума округления, который вычисляется путем вычитания квантованного сигнала из входного сигнала.

Увеличение битовой глубины делает квантованный сигнал более подходящим для входного сигнала. Однако это не главное, обратите внимание на гораздо больший сигнал ошибки/шума для более низких разрядностей. Квантованный сигнал не удаляет данные из нашего ввода, они фактически добавляются в этот сигнал ошибки. Аддитивный синтез говорит нам, что сигнал может быть воспроизведен суммой любых двух других сигналов, включая несовпадающие по фазе сигналы, которые действуют как вычитание. Так работает шумоподавление. Таким образом, эти ошибки округления вносят новый шумовой сигнал.

Это не просто теория. На самом деле вы можете слышать все больше и больше шума в аудиофайлах с более низкой битовой глубиной. Чтобы понять почему, изучите, что происходит в 2-битном примере с очень маленькими сигналами, например, до 0,2 секунды. Щелкните здесь для увеличения изображения. Очень небольшие изменения во входном сигнале вызывают большие изменения в квантованной версии. Это ошибка округления в действии, которая приводит к усилению шума слабого сигнала. Таким образом, шум снова становится громче по мере уменьшения битовой глубины.

Подумайте об этом и в обратном порядке: невозможно захватить сигнал меньше размера шага квантования, который по иронии судьбы называется наименее значащим битом. Небольшие изменения сигнала должны переходить к ближайшему уровню квантования. Большая битовая глубина имеет меньшие шаги квантования и, следовательно, меньшие уровни усиления шума.

Самое главное, обратите внимание, что амплитуда шума квантования остается неизменной, независимо от амплитуды входных сигналов. Это демонстрирует, что шум возникает на всех различных уровнях квантования, поэтому существует постоянный уровень шума для любой заданной битовой глубины. Большая битовая глубина производит меньше шума. Поэтому мы должны думать о различиях между 16- и 24-битной глубиной не как о точности формы сигнала, а как о доступном пределе, прежде чем цифровой шум будет мешать нашему сигналу.

Битовая глубина зависит от шума

Келли Сиккема. Нам нужна битовая глубина с достаточным отношением сигнал-шум, чтобы приспособиться к нашему фоновому шуму, чтобы записать наш звук так же идеально, как он звучит в реальном мире.

Ваше ухо имеет чувствительность в диапазоне от 0 дБ (тишина) до примерно 120 дБ (ужасно громкий звук), а теоретическая способность (в зависимости от нескольких факторов) различать громкость составляет всего 1 дБ. Таким образом, динамический диапазон вашего уха составляет около 120 дБ или около 20 бит.

Однако вы не можете услышать все это сразу, так как барабанная перепонка, или барабанная перепонка, напрягается, чтобы уменьшить объем звука, фактически достигающего внутреннего уха в шумной обстановке. Вы также не будете слушать музыку на такой громкости, потому что оглохнете.Кроме того, среда, в которой вы и я слушаем музыку, не такая тихая, как может слышать здоровое ухо. В хорошо оборудованной студии звукозаписи уровень фонового шума может снизиться до 20 дБ, но прослушивание в оживленной гостиной или в автобусе, очевидно, ухудшит условия и снизит полезность широкого динамического диапазона.

Человеческое ухо имеет огромный динамический диапазон, но не весь одновременно. Маскировка и собственная защита слуха нашего уха снижают ее эффективность.

Вдобавок ко всему: по мере увеличения громкости в вашем ухе начинает действовать маскировка более высоких частот. При низкой громкости от 20 до 40 дБ маскировка не происходит, за исключением звуков близкой по высоте. Однако при 80 дБ звуки ниже 40 дБ будут маскироваться, а при 100 дБ звуки ниже 70 дБ услышать невозможно. Динамический характер уха и материала для прослушивания затрудняет определение точного числа, но реальный динамический диапазон вашего слуха, вероятно, находится в районе 70 дБ в среднем окружении и всего до 40 дБ в очень громком окружении. Битовая глубина всего в 12 бит, вероятно, подойдет большинству людей, поэтому 16-битные компакт-диски дают нам достаточно места.

гиперфизика Маскировка высоких частот происходит при высокой громкости прослушивания, что ограничивает наше восприятие более тихих звуков.

Инструменты и записывающее оборудование тоже создают шум (особенно гитарные усилители) даже в очень тихих студиях звукозаписи. Также было проведено несколько исследований динамического диапазона различных жанров, включая это, которое показывает типичный динамический диапазон 60 дБ. Неудивительно, что жанры с большей близостью к тихим партиям, такие как хор, опера и фортепиано, показали максимальный динамический диапазон около 70 дБ, в то время как «более громкие» жанры рок, поп и рэп имели тенденцию к 60 дБ и ниже. В конечном счете, музыка создается и записывается только с определенной точностью.

Возможно, вы знакомы с "войнами за громкость" в музыкальной индустрии, что, безусловно, противоречит цели современных аудиоформатов Hi-Res. Интенсивное использование сжатия (которое усиливает шум и ослабляет пики) уменьшает динамический диапазон. У современной музыки значительно меньший динамический диапазон, чем у альбомов 30-летней давности. Теоретически современная музыка может распространяться с более низким битрейтом, чем старая музыка. Вы можете проверить динамический диапазон многих альбомов здесь.

16 бит — это все, что вам нужно

Это было довольно сложное путешествие, но, надеюсь, вы получили гораздо более детальное представление о битовой глубине, шуме и динамическом диапазоне, чем те вводящие в заблуждение примеры лестниц, которые вы так часто видите.

Битовая глубина зависит от шума, и чем больше битов данных у вас есть для хранения звука, тем меньше шума квантования будет внесено в вашу запись. Кроме того, вы также сможете более точно захватывать меньшие сигналы, помогая снизить уровень цифрового шума ниже уровня записи или прослушивания. Это все, для чего нам нужна битовая глубина. Нет смысла использовать огромную битовую глубину для мастер-аудио.

Алексей Рубан Из-за того, что шум суммируется в процессе микширования, имеет смысл записывать звук в 24-битном формате. Это не обязательно для окончательного мастер-стерео.

Удивительно, но 12 бит, вероятно, достаточно для приличного звучания музыкального мастера и для удовлетворения динамического диапазона большинства условий прослушивания. Однако цифровое аудио передает больше, чем просто музыку, и такие примеры, как запись речи или окружающей среды для телевидения, могут использовать более широкий динамический диапазон, чем большинство музыки. Плюс небольшой запас для разделения громкого и тихого звука никогда никому не помешает.

В целом, 16 бит (96 дБ динамического диапазона или 120 дБ с применением сглаживания) подходят для широкого диапазона типов звука, а также ограничений человеческого слуха и типичных условий прослушивания. Перцепционное увеличение 24-битного качества весьма спорно, если не просто плацебо, как, надеюсь, я продемонстрировал. Кроме того, увеличение размеров файлов и пропускной способности делает их ненужными. Тип сжатия, используемый для уменьшения размера файла в вашей музыкальной библиотеке или потоке, оказывает гораздо более заметное влияние на качество звука, чем 16- или 24-битный файл.

Подпишитесь на нашу рассылку и получайте учебные пособия и советы по электронной почте.

Я помню, как мне не терпелось заняться созданием музыки.Возможности аранжировки были безграничны, и я мог научиться микшировать музыку так, чтобы она звучала так, как я слышала. К сожалению, в хаосе начала производства я не изучил основы того, как компьютер на самом деле обрабатывает звук, поэтому вся концепция создания музыки на ноутбуке казалась немного абстрактной.

Даже воспроизведение моего первого трека сбивало с толку. Что делает каждый из вариантов? Откуда мне было знать, что будет звучать лучше всего?

В этой статье мы рассмотрим некоторые основные аспекты цифрового звука и то, как они влияют на производственный процесс. Сегодня мы сосредоточимся на частоте дискретизации аудио и разрядности аудио, а также на нескольких темах, связанных с ними. Немного теории и немного математики, но мы надеемся, что это приоткроет часть тайны того, как работает цифровое аудио.

Что такое цифровое аудио?

Цифровой звук — это система, в которой мы храним, воссоздаем и обрабатываем аудиоинформацию в компьютерной системе. Некоторые характеристики аналоговой звуковой волны, такие как частота и амплитуда, преобразуются в данные, которые может прочитать компьютерное программное обеспечение. Это позволяет нам управлять, редактировать и упорядочивать аудио в программном контексте.

Что такое звуковой образец?

Звуковая волна преобразуется в данные с помощью серии снимков или выборок. Образец берется в определенное время в звуковой волне, записывая амплитуду. Затем эта информация преобразуется в удобоваримые двоичные данные.

Система выполняет тысячи измерений в секунду. Если мы сможем очень быстро выполнить множество измерений с достаточным количеством возможных значений амплитуды, мы сможем эффективно использовать эти снимки для восстановления разрешения и сложности аналоговой волны.

Что такое частота дискретизации звука?

Система выполняет эти измерения со скоростью, которая называется частотой дискретизации аудио и измеряется в килогерцах. Частота дискретизации аудио определяет диапазон частот, захваченных в цифровом аудио. В большинстве DAW вы найдете регулируемую частоту дискретизации в настройках звука. Это управляет частотой дискретизации звука в вашем проекте.

Параметры, которые вы видите в среднем DAW — 44,1 кГц, 48 кГц — могут показаться немного случайными, но это не так! Для демонстрации воспользуемся синусоидой:

Чтобы измерить частоту этой синусоиды, нам нужно обнаружить и определить один период. Один полный цикл любой волны содержит положительную и отрицательную стадии. Чтобы узнать длину этого цикла — длину волны, которая приводит нас к частоте волны, — нам нужно обнаружить обе эти две стадии. Поэтому нам нужно измерять волну как минимум два раза за полный период, чтобы точно зафиксировать ее частоту.

Это означает, что мы можем захватывать и реконструировать частоту исходной синусоидальной волны с частотой дискретизации звука по крайней мере в два раза больше ее частоты, которая называется скоростью Найквиста. И наоборот, система может захватывать и воссоздавать частоты до половины частоты дискретизации звука, предел, называемый частотой Найквиста.

Сигнал выше частоты Найквиста не записывается должным образом аудио-цифровыми преобразователями (АЦП), отражаясь обратно на частоте Найквиста и создавая искусственные частоты в процессе, называемом наложением частот.

Чтобы предотвратить наложение частот, преобразователям аудио в цифру часто предшествуют фильтры нижних частот, которые устраняют частоты выше частоты Найквиста до того, как звук достигнет преобразователя. Это предотвратит появление наложения нежелательных сверхвысоких частот в исходном звуке. Ранние фильтры могли испортить звук, но эта проблема сводится к минимуму по мере внедрения более совершенных технологий.

Хотите поэкспериментировать с концепциями аудио в DAW?

Получите свою копию Music Production Suite 4.1 или начните бесплатную пробную версию Music Production Suite Pro, чтобы получить стандартные плагины для микширования и мастеринга, включая Neutron, Ozone и RX.

Почему стандартная частота дискретизации звука составляет 44,1 кГц?

Самая распространенная частота дискретизации звука – 44,1 кГц, или 44 100 выборок в секунду. Это стандарт для большинства потребительских аудиоматериалов, используемый для таких форматов, как компакт-диски.

Это не произвольное число. Люди могут слышать частоты от 20 Гц до 20 кГц. Большинство людей теряют способность слышать верхние частоты в течение жизни и могут слышать только частоты до 15–18 кГц. Однако это правило «20 к 20» по-прежнему считается стандартным диапазоном для всего, что мы могли услышать.

Компьютер должен уметь воспроизводить волны с частотой до 20 кГц, чтобы сохранить все, что мы слышим. Следовательно, частота дискретизации 40 кГц технически должна сработать, верно?

Это верно, но вам нужен довольно мощный — и в то же время дорогой — фильтр нижних частот, чтобы предотвратить слышимое наложение. Частота дискретизации 44,1 кГц технически позволяет записывать звук на частотах до 22,05 кГц.Поместив частоту Найквиста за пределы нашего слышимого диапазона, мы можем использовать более умеренные фильтры для устранения наложения спектров без особого слышимого эффекта.

Другие частоты дискретизации аудио: 48 кГц, 88,2 кГц, 96 кГц и т. д.

Хотя 44,1 кГц является приемлемой частотой дискретизации для потребительского аудио, в некоторых случаях используются более высокие частоты дискретизации. Некоторые из них были представлены на заре цифрового аудио, когда мощные фильтры сглаживания были дорогими. Перемещение частоты Найквиста еще выше позволяет нам размещать фильтр все дальше и дальше от человеческого слуха и, следовательно, еще меньше влияет на звук.

48 кГц – еще одна распространенная частота дискретизации звука. Более высокая частота дискретизации технически приводит к большему количеству измерений в секунду и более точному воссозданию исходного звука, поэтому частота 48 кГц часто используется в контекстах «профессионального аудио» больше, чем в музыкальных контекстах. Например, это стандартная частота дискретизации аудио для видео. Эта частота дискретизации сдвигает частоту Найквиста примерно до 24 кГц, что дает дополнительное пространство для буфера до того, как потребуется фильтрация.

Некоторые инженеры предпочитают работать с еще более высокой частотой дискретизации звука, которая, как правило, кратна 44,1 кГц или 48 кГц. Частоты дискретизации 88,2 кГц, 96 кГц, 176,4 кГц и 192 кГц приводят к более высоким частотам Найквиста, что означает возможность записи и воссоздания сверхзвуковых частот. Фильтры нижних частот оказывают меньшее влияние на звук и увеличивают количество выборок в секунду, что приводит к воссозданию исходного звука в более высоком разрешении.

Вы слышите разницу между частотами дискретизации звука?

Некоторые опытные инженеры могут услышать разницу между частотами дискретизации. Однако по мере совершенствования технологий фильтрации и аналого-цифрового преобразования становится все труднее услышать эти различия.

Чем выше частота дискретизации звука, тем лучше?

Теоретически неплохо работать с более высокой частотой дискретизации звука, например 176,4 кГц или 192 кГц. Файлы будут больше, но было бы неплохо увеличить качество звука до финального отскока. Однако в конце концов звук, скорее всего, будет преобразован в 44,1 кГц или 48 кГц. Математически гораздо проще преобразовать 88,2 в 44,1 и 96 в 48, поэтому лучше придерживаться одного формата для всего проекта. Однако общепринятой практикой является работа с частотой 44,1 кГц или 48 кГц.

Если бы в системе была установлена частота дискретизации 48 кГц, а мы использовали аудиофайл с частотой 44,1 кГц, система считывала бы сэмплы быстрее, чем должна. В результате звук будет звучать ускоренно и немного выше. Обратное происходит, если частота дискретизации системы находится на шкале 44,1 кГц, а аудиофайлы - на шкале 48 кГц; звук стал медленнее и чуть ниже.

Сверхвысокие частоты дискретизации звука также имеют интересное творческое применение. Если вы когда-либо понижали высоту звука стандартного аудиофайла с частотой 44,1 кГц, вы, вероятно, замечали, что высокие частоты становятся несколько пустыми. Частоты выше 22,05 кГц были отфильтрованы перед преобразованием, поэтому в них нет частотного содержимого для понижения тона, что приводит к зияющей дыре в высоких частотах.

Однако, если этот звук был записан, например, с частотой 192 кГц, в исходном звуке будут записаны частоты до 96 кГц. Это, очевидно, выходит за рамки того, что люди могут слышать, но при понижении звука эти неслышимые частоты становятся слышимыми. В результате вы можете значительно понизить высоту тона записи, сохранив при этом высокочастотный контент. Для получения дополнительной информации о частоте дискретизации аудио обязательно ознакомьтесь с видео ниже.

Что такое битовая глубина звука?

Аналоговый звук представляет собой непрерывную волну с практически бесконечным числом возможных значений амплитуды. Однако для измерения этой волны в цифровом аудио нам необходимо определять амплитуду волны как конечное значение каждый раз, когда мы ее сэмплируем.

Разрядность звука определяет количество возможных значений амплитуды, которые мы можем записать для каждого семпла. Наиболее распространенные разрядности аудио — 16, 24 и 32 бита. Каждый из них представляет собой двоичный термин, представляющий ряд возможных значений. Системы с более высокой битовой глубиной звука могут выражать больше возможных значений:

При более высокой битовой глубине звука и, следовательно, более высоком разрешении нам доступно больше значений амплитуды для записи. В результате точная амплитуда непрерывной аналоговой волны приближается к доступному значению при дискретизации. Таким образом, цифровая аппроксимация амплитуды становится ближе к исходной аналоговой волне жидкости.

16-разрядный: 65 536 ампер. значения
24-разрядная версия: 16 777 217 ампер. значения
32-разрядная версия: 4 284 967 296 ампер. значения

Увеличение разрядности звука вместе с увеличением частоты дискретизации звука создает больше точек для восстановления аналоговой волны.

Однако плавная аналоговая волна не всегда идеально совпадает с возможным значением независимо от разрешения.В результате последний бит данных, обозначающий амплитуду, округляется до 0 или 1 в процессе, называемом квантование. Это означает, что в сигнале присутствует существенно рандомизированная часть сигнала.

В цифровом аудио мы слышим эту рандомизацию как низкий белый шум, который мы называем минимальным уровнем шума. Подобно механическому шуму, возникающему в аналоговом контексте, или фоновому шуму в живом акустическом окружении, цифровая ошибка квантования вносит шум в наш звук.

Гармонические соотношения между частотой дискретизации и звуком, а также битовой глубиной могут вызывать определенные закономерности при квантовании. Это известно как коррелированный шум, который мы слышим как резонансы в шумовом пороге на определенных частотах. Здесь наш минимальный уровень шума на самом деле выше, принимая во внимание потенциальные значения амплитуды записанного сигнала.

Однако мы можем выполнить искусственную рандомизацию, чтобы избежать подобных паттернов. В процессе, называемом дизеринг, мы можем случайным образом округлить этот последний бит. Паттерны не создаются, создавая более рандомизированный «некоррелированный шум», который оставляет больше потенциальных значений амплитуды.

Амплитуда минимального уровня шума становится нижней частью нашего возможного динамического диапазона. С другой стороны спектра, цифровая система может искажать, если амплитуда слишком высока, когда сигнал превышает максимальное значение, которое может создать двоичная система. Этот уровень обозначается как 0 dBFS.

В конце концов, наша битовая глубина звука определяет количество возможных значений амплитуды между минимальным шумом и 0 дБ полной шкалы.

Вы слышите разницу между битовой глубиной звука?

Возможно, вы думаете: "Могут ли человеческие уши действительно отличить уровни амплитуды 65 536 и 4 294 967 296?"

Это правильный вопрос. Уровень шума даже в 16-битной системе невероятно низок. Если вам не нужен эффективный динамический диапазон более 96 дБ, 16 бит подойдет для финальной обработки проекта.

Однако при работе над проектом неплохо было бы работать с более высокой битовой глубиной звука. Поскольку уровень шума падает, у вас, по сути, появляется больше места для искажения — также известного как запас по уровню. Наличие этого дополнительного буферного пространства перед искажением является хорошей защитой от сбоев во время работы и обеспечивает большую гибкость.

Для получения дополнительной информации о битовой глубине звука обязательно ознакомьтесь с видео ниже.

Выводы

Получив более четкое представление о частоте дискретизации и разрядности звука, становится ясно, насколько нам повезло жить в наш век аудиотехники. Цифровой звук дает нам множество возможностей для управления звуком, многие из которых недоступны в аналоговых системах.

Кроме того, совершенствование технологий с годами помогло устранить многие проблемы, возникшие в цифровой системе. Технологии продолжают развиваться, благодаря чему цифровое аудио становится полностью неотличимым от аналогового.

Количество уровней квантования для N-битного преобразователя равно 2N.

Связанные термины:

Скачать в формате PDF

Об этой странице

Общая картина

1.2.3.2.2 Квантование

Рисунок 1.6. Оцифровка непрерывного сигнала (вверху слева) требует разделения сигнала по времени и амплитуде (справа). Результат в левом нижнем углу представляет собой серию чисел, которые аппроксимируют исходный сигнал как серию дискретных уровней при дискретных значениях времени. Эта операция оцифровки также известна как аналого-цифровое преобразование.

Пример 1.1

12-разрядный аналого-цифровой преобразователь (АЦП) заявляет точность ± младший значащий бит (LSB). Если входной диапазон АЦП составляет от 0 до 10 В, какова точность АЦП в аналоговых вольтах?

Решение. Если входной диапазон равен 10 В, то аналоговое напряжение, представленное младшим разрядом, равно:

Следовательно, точность будет ±0,0024 В.

Относительно просто и распространено преобразование между аналоговым и цифровым доменами с использованием электронных схем, специально разработанных для этой цели. Многие медицинские устройства получают физиологическую информацию в виде аналогового сигнала, а затем преобразуют ее в цифровой формат с помощью «аналогово-цифрового преобразователя» («АЦП») для последующей компьютерной обработки. Например, электрическая активность, производимая сердцем, может быть обнаружена с помощью правильно расположенных электродов, а результирующий сигнал, электрокардиограмма (ЭКГ), представляет собой аналоговый закодированный сигнал. Этот сигнал может пройти некоторую «предварительную обработку» или «обработку» с использованием аналоговой электроники, но в конечном итоге будет преобразован в цифровой сигнал с помощью АЦП для более сложной компьютерной обработки и хранения. На самом деле преобразование в цифровой формат обычно выполняется, даже если данные сохраняются только для последующего использования.

Преобразование из цифрового в аналоговый домен возможно с помощью «цифро-аналогового преобразователя» («ЦАП»). Большинство ПК включают в себя как АЦП, так и ЦАП как часть звуковой карты. Эта схема специально разработана для преобразования аудиосигналов, но может использоваться и для других аналоговых сигналов. Карты преобразования данных и USB-устройства, разработанные как АЦП и ЦАП общего назначения, легко доступны и предлагают большую гибкость в частоте дискретизации и коэффициенте преобразования. Эти устройства обычно имеют многоканальные АЦП (обычно 8–16 каналов) и несколько каналов ЦАП.

В этом тексте основные понятия, связанные с сигналами, часто вводятся или обсуждаются с точки зрения аналоговых сигналов, но большинство этих понятий в равной степени применимы и к цифровой области, при условии, что цифровое представление исходного аналогового сигнала является точным. Эквивалентное уравнение цифровой области представлено рядом с аналоговым уравнением, чтобы подчеркнуть эквивалентность. Многие задачи и примеры используют компьютер, поэтому они обязательно реализуются в цифровой области, даже если они представлены как задачи в аналоговой области.

Является ли сигнал, преобразованный из непрерывной в дискретную область, тем же самым? Явно нет; просто сравните два разных сигнала на рис. 1.5. Тем не менее, при анализе сигналов мы часто оперируем дискретными сигналами, преобразованными из аналогового сигнала, ожидая (или допущения), что дискретная версия по существу такая же, как исходный непрерывный сигнал. Если они не одинаковы, есть ли между ними хоть какая-то значимая связь? Окончательный ответ, может быть. Условия, необходимые для существования значимой связи между непрерывным сигналом и его дискретной версией, описаны в главе 4. Сейчас мы будем считать, что все компьютерные сигналы, используемые в примерах и задачах, являются точными представлениями связанных с ними непрерывных сигналов. В главе 4 мы более подробно рассмотрим последствия процесса аналого-цифрового преобразования и установим правила, когда оцифрованный сигнал можно считать достоверным представлением исходного аналогового сигнала.

Цифровое аудио превращает аналоговые звуки в форму, в которой их можно хранить и обрабатывать на компьютере. Audacity — это программное приложение для редактирования, микширования и применения эффектов к цифровым аудиозаписям.

Цифровая выборка

Все звуки, которые мы слышим ушами, представляют собой волны давления в воздухе. Начиная с демонстрации Томасом Эдисоном первого фонографа в 1877 году, стало возможным улавливать эти волны давления на физической среде, а затем воспроизводить их позже, регенерируя те же волны давления. Волны звукового давления, или формы волны, выглядят примерно так:

Аналоговые носители записи, такие как грампластинки и кассеты, представляют форму сигнала напрямую, используя глубину канавки для записи или степень намагниченности для ленты. Аналоговая запись может воспроизводить впечатляющий набор звуков, но она также страдает от шума. Примечательно, что каждый раз, когда копируется аналоговая запись, вводится больше шума, что снижает точность воспроизведения. Этот шум можно свести к минимуму, но не полностью устранить.

Цифровая запись работает по-другому: она сэмплирует сигнал в равномерно распределенных временных точках, представляя каждую выборку в виде точного числа. Цифровые записи, хранящиеся на компакт-диске (CD), цифровой аудиоленте (DAT) или на персональном компьютере, не ухудшаются со временем и могут быть идеально скопированы без каких-либо дополнительных помех. На следующем изображении показан образец звуковой волны:

Цифровой звук можно редактировать и микшировать без добавления дополнительных шумов. Кроме того, к оцифрованным аудиозаписям можно применять множество цифровых эффектов, например, для имитации реверберации, усиления определенных частот или изменения высоты тона.

Возможность Audacity воспроизводить или записывать звук непосредственно с вашего компьютера зависит от вашего конкретного компьютерного оборудования. Большинство настольных компьютеров поставляются с звуковой картой с разъемами 1/8 дюйма (3,5 мм), к которым можно подключить микрофон или другой источник для записи, а также динамики или наушники для прослушивания. Многие портативные компьютеры имеют встроенные динамики и микрофон. Звуковая карта, которая поставляется с большинством компьютеров, не особенно высокого качества, в этом случае вы можете рассмотреть возможность использования внешнего аудиоинтерфейса USB. Информацию о том, как настроить Audacity для воспроизведения и записи, см. в разделе Настройка и конфигурация Audacity.

Качество цифрового звука

Качество цифровой аудиозаписи сильно зависит от двух факторов: частоты выборки и формата выборки или разрядности. Увеличение частоты дискретизации или количества бит в каждом сэмпле повышает качество записи, но также увеличивает объем места, используемого аудиофайлами на компьютере или диске.

Коэффициенты выборки

Частота дискретизации измеряется в герцах (Гц) или циклах в секунду. Это значение представляет собой количество выборок, захваченных в секунду для представления формы волны. Более высокие частоты дискретизации позволяют представлять более высокие звуковые частоты. При условии, что частота дискретизации более чем в два раза превышает самую высокую имеющуюся звуковую частоту, форма волны может быть точно восстановлена из цифровых выборок. Частоты, которые составляют более половины частоты дискретизации, не могут быть правильно представлены в цифровых образцах, и, если они присутствуют в исходном звуке, должны быть удалены перед преобразованием в цифровой формат. Таким образом, «половина частоты дискретизации» представляет собой верхний предел, называемый частотой Найквиста, и аналоговый сигнал должен быть полностью ниже этого предела, чтобы его можно было правильно представить в цифровом виде. Аналоговые частоты на этом пределе или выше не могут быть правильно представлены цифровыми образцами и могут вызвать своего рода искажение, называемое алиасингом.

Человеческое ухо чувствительно к звуковым паттернам с частотами примерно от 20 Гц до 20 000 Гц. Звуки за пределами этого диапазона не слышны. Поэтому частота дискретизации 40 000 Гц является абсолютным минимумом, необходимым для воспроизведения всего диапазона слышимых звуков. Обычно используются более высокие скорости (называемые передискретизацией), чтобы обеспечить адекватную фильтрацию и избежать артефактов наложения псевдонимов в районе частоты Найквиста.

Частота дискретизации, используемая аудио компакт-дисками, составляет 44 100 Гц. Человеческая речь понятна, даже если исключить частоты выше 4000 Гц; на самом деле телефоны передают только частоты от 200 Гц до 4000 Гц. Поэтому обычная частота дискретизации для аудиозаписей составляет 8000 Гц, что иногда называют качеством речи. Обратите внимание, что на частоте Найквиста требуется очень крутая фильтрация (называемая сглаживающим фильтром), чтобы предотвратить сворачивание сигнала выше этой точки отсечки обратно в слышимый диапазон цифровым преобразователем и создание искажающие артефакты наложения шума.

Самые распространенные частоты дискретизации в Гц: 8000, 16 000, 22 050, 44 100, 48 000, 96 000 и 192 000. Частота дискретизации также может быть указана в кГц или в единицах 1000 Гц. Таким образом, в единицах кГц наиболее распространенные частоты выражаются как 8 кГц, 16 кГц, 22,05 кГц, 44,1 кГц, 48 кГц, 96 кГц и 192 кГц.

Audacity поддерживает любую из этих частот дискретизации, однако большинство звуковых карт компьютеров ограничены частотой не более 48 000 Гц, 96 000 Гц или иногда 192 000 Гц. Опять же, наиболее распространенная частота дискретизации на сегодняшний день составляет 44 100 Гц, поэтому многие карты по умолчанию используют эту частоту, какие бы другие частоты они ни поддерживали.

На изображении ниже левая половина имеет низкую частоту дискретизации, а правая половина — высокую частоту дискретизации (то есть высокое разрешение):

Примеры форматов

Другой мерой качества звука является формат сэмпла (или разрядность), который обычно измеряется количеством компьютерных бит, используемых для представления каждого семпла. Чем больше битов используется, тем точнее представление каждой выборки. Увеличение числа битов также увеличивает максимальный динамический диапазон аудиозаписи, другими словами, разницу в громкости между самым громким и самым тихим звуком, который может быть воспроизведен.

Динамический диапазон измеряется в децибелах (дБ). Человеческое ухо может воспринимать звуки с динамическим диапазоном не менее 90 дБ. Однако, когда это возможно, рекомендуется записывать цифровой звук с динамическим диапазоном намного больше 90 дБ, отчасти для того, чтобы слишком тихие звуки можно было усилить для максимальной точности. Обратите внимание, что хотя сигналы, записанные обычно с низким уровнем, можно повысить (то есть нормализовать), чтобы воспользоваться преимуществами доступного динамического диапазона, при записи сигналов низкого уровня не будет использоваться вся доступная битовая глубина. Эту потерю разрешения невозможно восстановить, просто нормализовав общий уровень цифрового сигнала.

Распространенные образцы форматов и соответствующие им динамические диапазоны включают:

Обратите внимание, что существуют практические ограничения динамического диапазона из-за возможностей аппаратного обеспечения и входных и выходных преобразователей. Из-за этого практический предел больше похож на 90 дБ для 16 бит.

Другие форматы образцов, такие как ADPCM, приблизительно соответствуют 16-битному звуку со сжатыми 4-битными образцами. Audacity может импортировать многие из этих форматов, но они редко используются из-за гораздо лучших новых методов сжатия.

Аудио компакт-диски и большинство форматов компьютерных аудиофайлов используют 16-битные целые числа. Audacity использует 32-битные сэмплы с плавающей запятой внутри и, при необходимости, преобразует разрядность сэмпла при экспорте окончательного микса. Формат образца Audacity по умолчанию во время записи можно настроить в настройках качества или установить отдельно для каждой дорожки в раскрывающемся меню «Аудиодорожка». Во время воспроизведения аудио в любых дорожках, которые имеют формат сэмпла, отличный от проекта, будет пересэмплироваться на лету с использованием настроек преобразования в реальном времени в настройках качества. Настройки высококачественного преобразования используются при обработке, микшировании или экспорте.

На изображении ниже левая половина имеет образец формата с несколькими битами, а правая половина имеет образец формата с большим количеством битов. Если вы думаете о частоте дискретизации как о расстоянии между вертикальными линиями сетки, формат выборки — это расстояние между горизонтальными линиями сетки.

Размер аудиофайлов

Аудиофайлы очень большие, вероятно, намного больше, чем большинство файлов, с которыми вы работаете (если только вы не работаете с видеофайлами). Чтобы определить размер несжатого аудиофайла, умножьте частоту дискретизации (например, 44 100 Гц) на скорость передачи битов формата выборки (например, 16 бит) на количество каналов (2 для стерео) по количеству секунд. Полностью полный 74-минутный аудио CD со стереозвуком занимает более 6 миллиардов битов. Разделите это на 8, чтобы получить количество байтов; аудио компакт-диск весит чуть меньше 800 мегабайт (МБ). См. сжатый звук ниже.

Отсечение

Одним из ограничений цифрового звука является то, что в большинстве случаев он не может работать с волнами звукового давления, которые превышают максимальные уровни, для которых он предназначен. Когда регистрируется сигнал, превышающий максимальный уровень +/-1,0 линейный или 0 дБ, сэмплы за пределами диапазона обрезаются до максимального значения, например:

Звук, записанный с отсечением, будет звучать искаженно и резко. Хотя есть некоторые методы, которые могут устранить небольшое количество шума из-за клиппирования, всегда предпочтительнее избегать клиппинга во время записи. Измените громкость источника входного сигнала (микрофон, кассетный проигрыватель, проигрыватель грампластинок) и установите регулятор громкости входного сигнала Audacity (на панели инструментов микшера) таким образом, чтобы форма сигнала была максимально возможной (для максимальной точности) без обрезки.

Обратите внимание, что в стандартном 32-битном формате выборки Audacity с плавающей запятой законно захваченные значения выборки, превышающие максимальное значение, могут быть сохранены, но даже если они сохранены в экспортированном 32-битном файле с плавающей запятой, они, вероятно, все равно будут сохранены. искажения на любом обычном воспроизводящем оборудовании. Если Audacity обнаружит законные сэмплы выше предела, эффект Amplify покажет отрицательное значение по умолчанию «Усиление (дБ)», и вы можете нажать OK в этой настройке, чтобы уменьшить пиковое усиление до максимального 0 дБ без потери исходных пиков. форма волны.

Сжатое аудио

Поскольку цифровые аудиофайлы очень велики, по возможности обычно использовалась пониженная частота дискретизации. В 1991 году стандарт MP3 (MPEG I, слой 3) изменил все. MP3 – это метод сжатия с потерями, который позволяет значительно уменьшить размер цифрового аудиофайла, практически не влияя на качество. Одна секунда звука CD-качества занимает 1,4 мегабита, в то время как обычная скорость передачи данных для файлов MP3 составляет 128 кбит/с, что является коэффициентом сжатия более чем в 10 раз! Работа MP3 основана на психоакустической модели того, как наши уши и мозг обрабатывают звуки. Все файлы MP3 создаются по-разному; разные психоакустические модели приведут к разным искажениям в аудиофайле.

При поставке Audacity может импортировать и экспортировать файлы MP3.

С хорошими динамиками большинство людей могут услышать разницу между MP3 со скоростью 128 кбит/с и несжатым аудиофайлом с компакт-диска. Файлы MP3 со скоростью 256 кбит/с и 320 кбит/с более популярны среди аудиофилов, предпочитающих более высокое качество.

Существует много других форматов аудиофайлов со сжатием с потерями. Audacity полностью поддерживает формат Ogg Vorbis, который похож на MP3, но является полностью открытым стандартом без патентов. Со временем качество файлов Ogg Vorbis стало превосходить качество MP3, а его формат стал более расширяемым, поэтому возможны дополнительные улучшения. Ogg Vorbis — отличный выбор для вашего собственного аудио, однако реальность такова, что гораздо больше устройств, таких как iPod и другие портативные аудиоплееры, поддерживают MP3, но пока не поддерживают Ogg Vorbis.

К другим известным методам сжатия относятся ATRAC, используемый записывающими устройствами Sony MiniDisc, Windows Media Audio (WMA) и AAC. Audacity поддерживает больше форматов за счет добавления дополнительной библиотеки FFmpeg.

Сжатие без потерь

Сжатие без потерь уменьшает размер файла без потери качества. Этот, казалось бы, волшебный метод уменьшения размеров файлов можно применить и к аудиофайлам. В то время как в MP3 используется сжатие с потерями, для создания сжатых аудиофайлов без потерь можно использовать более новые алгоритмы сжатия, такие как FLAC и Apple Lossless.

Такое сжатие фактически перезаписывает данные исходного файла более эффективным способом. Однако, поскольку качество не теряется, результирующие файлы обычно намного больше, чем файлы изображений и аудио, сжатые с помощью сжатия с потерями. Например, файл, сжатый с использованием сжатия с потерями, может иметь размер в одну десятую от исходного, а сжатие без потерь вряд ли приведет к созданию файла меньше половины исходного размера.

Аудиоформаты без потерь чаще всего используются для архивирования или производства, в то время как меньшие аудиофайлы с потерями обычно используются на портативных проигрывателях и в других случаях, когда пространство для хранения ограничено или точное воспроизведение звука не требуется.

Читайте также: