Качество звука, оцифрованного звуковой картой, определяется такими параметрами, как

Обновлено: 31.12.2025

Область применения
Это обсуждение касается независимого от медиа звукового контента в двух категориях форматов. Первая категория состоит из форматов, представляющих записанный звук, часто называемый звуком waveform. Такие форматы используются для таких приложений, как записи популярной музыки, записанные книги и цифровые устные истории. Вторая категория состоит из форматов, которые предоставляют данные для поддержки динамического построения звука с помощью комбинации программного и аппаратного обеспечения. Такое программное обеспечение включает в себя секвенсоры и трекеры, которые используют данные, контролирующие, когда отдельные звуковые элементы должны начинаться и останавливаться, атрибуты, такие как громкость и высота тона, и другие эффекты, которые должны применяться к звуку. звуковые элементы. Звуковые элементы могут быть короткими отрезками звуковой волны (иногда называемыми сэмплами или лупами) или элементами данных, которые характеризуют звук таким образом, что синтезатор ( который может быть программным или аппаратным) или звуковой генератор (обычно аппаратный) может воспроизводить фактический звук. Данные собираются во время воспроизведения файла, т. е. звуки генерируются динамически во время runtime. Эту вторую категорию иногда называют структурированным звуком.

В категории форматов структурированного аудио основное внимание на этом веб-сайте уделяется форматам на основе нот, созданным системами для создания музыки, а также используемым для воспроизведения. Наиболее известные форматы на основе нот связаны с MIDI, цифровым интерфейсом музыкальных инструментов, хотя есть много приверженцев форматов, называемых MOD, из модулей, иногда называемых файлами tracker. Другие форматы содержат данные, используемые синтезаторами, имитирующими человеческий голос, например, для справочных служб телефонных компаний. Поскольку содержание голосового синтеза с меньшей вероятностью будет добавлено в коллекции Библиотеки Конгресса, эта тема здесь не обсуждается. Этот документ также опускает обсуждение составных документов, которые объединяют звук, изображения и другие формы выражения, или многодорожечные записи, в которых отдельные дорожки управляются как отдельные битовые потоки (файлы). Этот последний вопрос является частью темы, связанной с тем, что на этом веб-сайте называется форматами объединения или упаковки, например, AES-31 и METS.

Нормальное воспроизведение звука
Нормальное воспроизведение звука позволяет воспроизводить моно или стерео через один или два динамика (или эквивалентные наушники) или, в случае объемного звучания, через несколько динамиков, тщательно расположенных в комнате (или через специальные наушники). Программное обеспечение для воспроизведения предоставляет пользователю контроль над громкостью, тоном, балансом и т. д., а также средства для быстрой перемотки вперед и поиска определенного места (обычно временного смещения), дорожки или другого сегмента, например, главы в записанной книге. Обычный рендеринг (если позволяет прикладное программное обеспечение) также включает воспроизведение с помощью программного обеспечения, которое предлагает анализ звука и выдержки. Большинство персональных компьютеров имеют звуковые карты, которые могут поддерживать нормальное воспроизведение форматов на основе заметок; более сложные, специализированные устройства имитируют инструменты или воспроизводят придуманные звуки в более богатой манере.

Обычный рендеринг не должен ограничиваться конкретными моделями оборудования или устройств и должен быть доступен для нынешних и будущих пользователей и ученых. Этот уровень функциональности ожидается от любого цифрового формата-кандидата на сохранение звукового контента и не упоминается как фактор выбора среди форматов.

Верность (поддержка высокого аудиоразрешения)
Верность — это фактор, связанный с форматами сигналов, который относится к степени, в которой "высококачественное" содержимое может быть воспроизведено в этом формате. В этом контексте этот термин имеет широкое значение, относящееся к характеристикам, которые будут влиять на внимательное (даже экспертное) прослушивание. Настоящая проверка точности происходит, когда воспроизведение перепрофилируется, например, когда «мастер-файл» используется в качестве основы для мастер-файла для нового музыкального выпуска аудио-CD. Результат такого перепрофилирования, вероятно, будет более успешным, если мастер имеет очень высокую точность, особенно с учетом того, что достижения в области технологий, вероятно, повысят ожидания пользователей.

Двумя характеристиками, наиболее часто связанными с достоверностью звуковых сигналов, представленных в виде данных с линейной импульсно-кодовой модуляцией (LPCM), являются частота дискретизации и длина слова (т. е. разрядность). 1 Другие факторы также могут влиять на точность воспроизведения, такие как наличие искажений, водяных знаков или — в сжатых с потерями изображениях, полученных из файлов LPCM — слышимых артефактов, возникающих в результате применения сжатия с потерями. Как правило, несжатые данные или данные, сжатые без потерь, обеспечивают наивысшую точность; однако сжатие с потерями, основанное на понимании человеческого восприятия звука, обеспечивает высокий уровень точности в нормальных условиях воспроизведения.Новые методы сжатия с потерями разрабатываются, тестируются и стандартизируются, и можно ожидать, что спецификации того, что представляет собой высококачественное сжатие с потерями, со временем изменятся. 2

Влияние сжатия с потерями может отражаться в других факторах, связанных с выбором цифровых форматов. Как правило, сжатие с потерями снижает прозрачность, желательную для любого формата, выбранного для долговременного хранения. Кроме того, ограничения на скорость передачи данных могут потребовать балансировки поддержки многоканального звука (объемного звука) с ограничениями точности в отдельных каналах.

Обработка произнесенных слов или искусственно созданной речи в контексте телефонии (и связанных с ней действий) имеет особый характер с использованием таких методов кодирования, как µ-закон, LPC (линейное предиктивное кодирование) и GSM (Глобальная система для Мобильная связь) компрессия. Контент из этих способов коммуникации вряд ли попадет в коллекции Библиотеки Конгресса. 3

Поддержка нескольких каналов
Поддержка нескольких каналов относится к степени, в которой форматы могут представлять многоканальный звук, который представляется конечному пользователю как минимум двумя способами. Первый связан с акустическим пространством, или с тем, что инженеры называют звуковым полем, например, со стереозвуком или объемным звуком. Вторая форма представления состоит из двух или более потоков сигналов, которые предоставляют альтернативный или дополнительный контент, например повествование на французском и немецком языках, звуковые эффекты отдельно от музыки, контент "музыка минус один" и т. п.

Битовые потоки сигналов обычно кодируют несколько каналов в чередующихся или матричных структурах. 4 Например, стереофонический или двухканальный звук, представленный в линейном ИКМ-контенте, обычно использует чередующуюся структуру (чередование информации из двух каналов), в то время как объемный звук или многоканальный контент использует дополнительные данные, которые матрично распределяются по двум чередующимся каналам и декодируется во время воспроизведения. (Можно также использовать мультиплексирование; это кодирование можно сравнить с гетеродинированием, используемым в радиовещании.) Терминология объемного звука включает 5.1 (аудиоканалы передаются на четыре направленных громкоговорителя спереди слева, спереди справа , задний левый и задний правый, и один ненаправленный низкочастотный/низкочастотный динамик), 7.1 (то же самое, с двумя добавленными боковыми центральными громкоговорителями) и так далее. Во многих случаях практические ограничения скорости передачи цифровых данных во время воспроизведения в реальном времени вынуждают создателей этих форматов ограничивать точность воспроизведения некоторых каналов, обычно каналов, отличных от переднего левого и переднего правого.

Файлы на основе нот, отформатированные в системе General MIDI, могут быть организованы в шестнадцать каналов, что позволяет одновременно играть на отдельных «инструментах» для полифонического эффекта, который может быть дополнительно структурирован для представления звукового пространства. Некоторые композиторы даже размещают на сцене громкоговорители или синтезированные инструменты, а затем проигрывают нотные файлы через контроллер, тем самым имитируя звучание ансамбля.

Поддержка загружаемых или определяемых пользователем звуков, сэмплов и патчей
Поддержка загружаемых или определяемых пользователем звуков, сэмплов (лупов) и патчей распространяется на нотные форматы, и относится к степени, в которой формат допускает ссылки или включение цифровых звуковых данных и параметров артикуляции, необходимых для создания одного или нескольких голосов или инструментов в музыкальном представлении. 5

Функциональность, выходящая за рамки обычного рендеринга звука.
Форматы на основе Note могут использоваться в ряде интересных приложений, которые находятся на грани обычного рендеринга или лежат за пределами обычного рендеринга. Например, специализированные приложения используют форматы на основе заметок для создания записи на экране или на бумаге. Такие приложения также могут разрешать воспроизведение файлов с выборочным управлением количеством каналов, например, для подавления синтезированной скрипки в присутствии живого музыканта, а также для регулировки высоты тона и темпа. В специализированных форматах и приложениях есть караоке-контент, в котором тексты синхронизируются с музыкой. Другие приложения управляют выступлениями или оборудованием, например, MIDI Show Control для живого театра или мультимедиа, или для игры в роли инструмента среди группы живых исполнителей, или MIDI Machine Control для магнитофонов и их цифровых преемников.

При обычном рендеринге ожидается определенный уровень навигации, но некоторые форматы предоставляют или ссылаются на данные, поддерживающие расширенные возможности, например списки воспроизведения; тексты для записанных книг; или описательная информация, включая имена авторов, исполнителей, рассказчиков; названия глав или разделов или дополнительная информация типов, знакомых пользователям библиотеки.

Нормальная визуализация обеспечивается форматами, представленными конечным пользователям. Обычный рендеринг может быть не обеспечен — или, по крайней мере, удобно обеспечен — форматами волновых форм, которые поддерживают представления звука с расширенными данными, т. е. представления, иногда называемые мастерами в деятельности, ориентированной на сохранение.Например, версии линейного звукового элемента PCM с расширенными данными могут использовать очень высокие частоты дискретизации и/или длинные слова и могут состоять из связанных пакетов, содержащих синхронизированные многодорожечные элементы. Может быть невозможно «воспроизвести» такой файл в режиме реального времени на оборудовании конечного пользователя по сети. Такие мастер-файлы обычно используются для перепрофилирования и создания форм того же контента для конечного пользователя, которые содержат меньше данных, но обеспечивают удобство воспроизведения. Связь между форматами расширенных данных и обычной визуализацией заключается в том, что элемент расширенных данных можно использовать для создания копии для конечного пользователя, которая успешно поддерживает нормальную визуализацию.

1 Альтернативный подход к LPCM был реализован SONY и называется у них DSD (Direct Stream Digital). Аудиоинженеры также называют это кодирование широтно-импульсной модуляцией (ШИМ) или дельта-сигма (или сигма-дельта) модуляцией, также сокращенно DSD. DSD представляет собой однобитовое кодирование и в реализации SONY использует скорость передачи данных 2,8224 мегабита в секунду. На момент написания этой статьи DSD можно было услышать исключительно на дисках Sony SACD (Super Audio Compact Disks), и авторы этого документа не знали о каком-либо независимом от носителя формате DSD. Комментарии в инженерной прессе разнятся; некоторые заявляют о явном предпочтении сэмплирования LPCM с высоким разрешением, в то время как другие вежливо говорят, что оба подхода будут приемлемы для большинства аудиофилов.

2 По состоянию на 2003 г. Отдел киновещания и звукозаписи Библиотеки Конгресса считает, что файл MP3 со сжатием для поддержки скорости воспроизведения данных 128 кбит/с на канал (256 кбит/с для стерео) нижний предел качества, приемлемый для опубликованной музыки. Сжатие более низкого качества допустимо для культурно значимого, но домашнего звука.

4 Стереозвук или объемный звук также могут быть представлены несколькими отдельными файлами сигналов, синхронизированными в форматах-оболочках, таких как AES31 или SMIL_2_1 (синхронизированный язык интеграции мультимедиа, версия 2.1). Эти упакованные наборы файлов могут представлять звуковое пространство звукового поля или могут просто содержать альтернативный контент, такой как версии на английском и испанском языках, описательные комментарии в параллельном потоке и т.п. Форматы многофайловых оболочек не рассматриваются в этом документе. Формат AES-31, который в настоящее время, по-видимому, не получил широкого распространения, предназначен для управления многодорожечным звуковым контентом, создаваемым в студиях звукозаписи, как правило, с целью последующего микширования в стерео или объемный звук.

5 В зависимости от формата используются два метода генерации звука: прямое включение сегментов сигнала и синтез. Предпочтительным методом синтеза звуков инструментов (в 2004 г.) является синтез с таблицами волн. Существуют форматы для обмена звуковыми таблицами (иногда называемые звуковыми шрифтами), не зависящие от музыкальных форматов. Более старый метод синтеза называется синтез с частотной модуляцией (FM).

Цифровое аудио превращает аналоговые звуки в форму, в которой их можно хранить и обрабатывать на компьютере. Audacity — это программное приложение для редактирования, микширования и применения эффектов к цифровым аудиозаписям.

Цифровая выборка

Все звуки, которые мы слышим ушами, представляют собой волны давления в воздухе. Начиная с демонстрации Томасом Эдисоном первого фонографа в 1877 году, стало возможным улавливать эти волны давления на физической среде, а затем воспроизводить их позже, регенерируя те же волны давления. Волны звукового давления, или формы волны, выглядят примерно так:

Аналоговые носители записи, такие как грампластинки и кассеты, представляют форму волны напрямую, используя глубину канавки для записи или величину намагниченности для ленты. Аналоговая запись может воспроизводить впечатляющий набор звуков, но она также страдает от шума. Примечательно, что каждый раз, когда копируется аналоговая запись, вводится больше шума, что снижает точность воспроизведения. Этот шум можно свести к минимуму, но не полностью устранить.

Цифровая запись работает по-другому: она сэмплирует сигнал в равномерно распределенных временных точках, представляя каждую выборку в виде точного числа. Цифровые записи, хранящиеся на компакт-диске (CD), цифровой аудиоленте (DAT) или на персональном компьютере, не ухудшаются со временем и могут быть идеально скопированы без каких-либо дополнительных помех. На следующем изображении показан образец звуковой волны:

Цифровой звук можно редактировать и микшировать без добавления дополнительных шумов.Кроме того, к оцифрованным аудиозаписям можно применять множество цифровых эффектов, например, для имитации реверберации, усиления определенных частот или изменения высоты тона.

Возможность Audacity воспроизводить или записывать звук непосредственно с вашего компьютера зависит от вашего конкретного компьютерного оборудования. Большинство настольных компьютеров поставляются с звуковой картой с разъемами 1/8 дюйма (3,5 мм), к которым можно подключить микрофон или другой источник для записи, а также динамики или наушники для прослушивания. Многие портативные компьютеры имеют встроенные динамики и микрофон. Звуковая карта, которая поставляется с большинством компьютеров, не особенно высокого качества, в этом случае вы можете рассмотреть возможность использования внешнего аудиоинтерфейса USB. Информацию о том, как настроить Audacity для воспроизведения и записи, см. в разделе Настройка и конфигурация Audacity.

Качество цифрового звука

Качество цифровой аудиозаписи сильно зависит от двух факторов: частоты выборки и формата выборки или разрядности. Увеличение частоты дискретизации или количества бит в каждом сэмпле повышает качество записи, но также увеличивает объем места, используемого аудиофайлами на компьютере или диске.

Коэффициенты выборки

Частота дискретизации измеряется в герцах (Гц) или циклах в секунду. Это значение представляет собой количество выборок, захваченных в секунду для представления формы волны. Более высокие частоты дискретизации позволяют представлять более высокие звуковые частоты. При условии, что частота дискретизации более чем в два раза превышает самую высокую имеющуюся звуковую частоту, форма волны может быть точно восстановлена из цифровых выборок. Частоты, которые составляют более половины частоты дискретизации, не могут быть правильно представлены в цифровых образцах, и, если они присутствуют в исходном звуке, должны быть удалены перед преобразованием в цифровой формат. Таким образом, «половина частоты дискретизации» представляет собой верхний предел, называемый частотой Найквиста, и аналоговый сигнал должен быть полностью ниже этого предела, чтобы его можно было правильно представить в цифровом виде. Аналоговые частоты на этом пределе или выше не могут быть правильно представлены цифровыми образцами и могут вызвать своего рода искажение, называемое алиасингом.

Человеческое ухо чувствительно к звуковым паттернам с частотами примерно от 20 Гц до 20 000 Гц. Звуки за пределами этого диапазона не слышны. Поэтому частота дискретизации 40 000 Гц является абсолютным минимумом, необходимым для воспроизведения всего диапазона слышимых звуков. Обычно используются более высокие скорости (называемые передискретизацией), чтобы обеспечить адекватную фильтрацию и избежать артефактов наложения псевдонимов в районе частоты Найквиста.

Частота дискретизации, используемая аудио компакт-дисками, составляет 44 100 Гц. Человеческая речь понятна, даже если исключить частоты выше 4000 Гц; на самом деле телефоны передают только частоты от 200 Гц до 4000 Гц. Поэтому обычная частота дискретизации для аудиозаписей составляет 8000 Гц, что иногда называют качеством речи. Обратите внимание, что на частоте Найквиста требуется очень крутая фильтрация (называемая сглаживающим фильтром), чтобы предотвратить сворачивание сигнала выше этой точки отсечки обратно в слышимый диапазон цифровым преобразователем и создание искажающие артефакты наложения шума.

Самые распространенные частоты дискретизации в Гц: 8000, 16 000, 22 050, 44 100, 48 000, 96 000 и 192 000. Частота дискретизации также может быть указана в кГц или в единицах 1000 Гц. Таким образом, в единицах кГц наиболее распространенные частоты выражаются как 8 кГц, 16 кГц, 22,05 кГц, 44,1 кГц, 48 кГц, 96 кГц и 192 кГц.

Audacity поддерживает любую из этих частот дискретизации, однако большинство звуковых карт компьютеров ограничены частотой не более 48 000 Гц, 96 000 Гц или иногда 192 000 Гц. Опять же, наиболее распространенная частота дискретизации на сегодняшний день составляет 44 100 Гц, поэтому многие карты по умолчанию используют эту частоту, какие бы другие частоты они ни поддерживали.

На изображении ниже левая половина имеет низкую частоту дискретизации, а правая половина — высокую частоту дискретизации (то есть высокое разрешение):

Примеры форматов

Другой мерой качества звука является формат сэмпла (или разрядность), который обычно измеряется количеством компьютерных бит, используемых для представления каждого семпла. Чем больше битов используется, тем точнее представление каждой выборки. Увеличение числа битов также увеличивает максимальный динамический диапазон аудиозаписи, другими словами, разницу в громкости между самым громким и самым тихим звуком, который может быть воспроизведен.

Динамический диапазон измеряется в децибелах (дБ). Человеческое ухо может воспринимать звуки с динамическим диапазоном не менее 90 дБ. Однако, когда это возможно, рекомендуется записывать цифровой звук с динамическим диапазоном намного больше 90 дБ, отчасти для того, чтобы слишком тихие звуки можно было усилить для максимальной точности.Обратите внимание, что хотя сигналы, записанные обычно с низким уровнем, можно повысить (то есть нормализовать), чтобы воспользоваться преимуществами доступного динамического диапазона, при записи сигналов низкого уровня не будет использоваться вся доступная битовая глубина. Эту потерю разрешения невозможно восстановить, просто нормализовав общий уровень цифрового сигнала.

Распространенные образцы форматов и соответствующие им динамические диапазоны включают:

Обратите внимание, что существуют практические ограничения динамического диапазона из-за возможностей аппаратного обеспечения и входных и выходных преобразователей. Из-за этого практический предел больше похож на 90 дБ для 16 бит.

Другие форматы образцов, такие как ADPCM, приблизительно соответствуют 16-битному звуку со сжатыми 4-битными образцами. Audacity может импортировать многие из этих форматов, но они редко используются из-за гораздо лучших новых методов сжатия.

Аудио компакт-диски и большинство форматов компьютерных аудиофайлов используют 16-битные целые числа. Audacity использует 32-битные сэмплы с плавающей запятой внутри и, при необходимости, преобразует разрядность сэмпла при экспорте окончательного микса. Формат образца Audacity по умолчанию во время записи можно настроить в настройках качества или установить отдельно для каждой дорожки в раскрывающемся меню «Аудиодорожка». Во время воспроизведения аудио в любых дорожках, которые имеют формат сэмпла, отличный от проекта, будет пересэмплироваться на лету с использованием настроек преобразования в реальном времени в настройках качества. Настройки высококачественного преобразования используются при обработке, микшировании или экспорте.

На изображении ниже левая половина имеет образец формата с несколькими битами, а правая половина имеет образец формата с большим количеством битов. Если вы думаете о частоте дискретизации как о расстоянии между вертикальными линиями сетки, формат выборки — это расстояние между горизонтальными линиями сетки.

Размер аудиофайлов

Аудиофайлы очень большие, вероятно, намного больше, чем большинство файлов, с которыми вы работаете (если только вы не работаете с видеофайлами). Чтобы определить размер несжатого аудиофайла, умножьте частоту дискретизации (например, 44 100 Гц) на скорость передачи битов формата выборки (например, 16 бит) на количество каналов (2 для стерео). по количеству секунд. Полностью полный 74-минутный аудио CD со стереозвуком занимает более 6 миллиардов битов. Разделите это на 8, чтобы получить количество байтов; аудио компакт-диск весит чуть меньше 800 мегабайт (МБ). См. сжатый звук ниже.

Отсечение

Одним из ограничений цифрового звука является то, что в большинстве случаев он не может работать с волнами звукового давления, которые превышают максимальные уровни, для которых он предназначен. Когда регистрируется сигнал, превышающий максимальный уровень +/-1,0 линейный или 0 дБ, сэмплы за пределами диапазона обрезаются до максимального значения, например:

Звук, записанный с отсечением, будет звучать искаженно и резко. Хотя есть некоторые методы, которые могут устранить небольшое количество шума из-за клиппирования, всегда предпочтительнее избегать клиппинга во время записи. Измените громкость источника входного сигнала (микрофон, кассетный проигрыватель, проигрыватель грампластинок) и установите регулятор громкости входного сигнала Audacity (на панели инструментов микшера) таким образом, чтобы форма сигнала была максимально возможной (для максимальной точности) без обрезки.

Обратите внимание, что в стандартном 32-битном формате выборки Audacity с плавающей запятой законно захваченные значения выборки, превышающие максимальное значение, могут быть сохранены, но даже если они сохранены в экспортированном 32-битном файле с плавающей запятой, они, вероятно, все равно будут сохранены. искажения на любом обычном воспроизводящем оборудовании. Если Audacity обнаружит законные сэмплы выше предела, эффект Amplify покажет отрицательное значение по умолчанию «Усиление (дБ)», и вы можете нажать OK в этой настройке, чтобы уменьшить пиковое усиление до максимального 0 дБ без потери исходных пиков. форма волны.

Сжатое аудио

Поскольку цифровые аудиофайлы очень велики, по возможности обычно использовалась пониженная частота дискретизации. В 1991 году стандарт MP3 (MPEG I, слой 3) изменил все. MP3 – это метод сжатия с потерями, который позволяет значительно уменьшить размер цифрового аудиофайла, практически не влияя на качество. Одна секунда звука CD-качества занимает 1,4 мегабита, в то время как обычная скорость передачи данных для файлов MP3 составляет 128 кбит/с, что является коэффициентом сжатия более чем в 10 раз! Работа MP3 основана на психоакустической модели того, как наши уши и мозг обрабатывают звуки. Все файлы MP3 создаются по-разному; разные психоакустические модели приведут к разным искажениям в аудиофайле.

При поставке Audacity может импортировать и экспортировать файлы MP3.

С хорошими динамиками большинство людей могут услышать разницу между MP3 со скоростью 128 кбит/с и несжатым аудиофайлом с компакт-диска. Файлы MP3 со скоростью 256 кбит/с и 320 кбит/с более популярны среди аудиофилов, предпочитающих более высокое качество.

Существует много других форматов аудиофайлов со сжатием с потерями. Audacity полностью поддерживает формат Ogg Vorbis, который похож на MP3, но является полностью открытым стандартом без патентов. Со временем качество файлов Ogg Vorbis стало превосходить качество MP3, а его формат стал более расширяемым, поэтому возможны дополнительные улучшения. Ogg Vorbis — отличный выбор для вашего собственного аудио, однако реальность такова, что гораздо больше устройств, таких как iPod и другие портативные аудиоплееры, поддерживают MP3, но пока не поддерживают Ogg Vorbis.

К другим известным методам сжатия относятся ATRAC, используемый записывающими устройствами Sony MiniDisc, Windows Media Audio (WMA) и AAC. Audacity поддерживает больше форматов за счет добавления дополнительной библиотеки FFmpeg.

Сжатие без потерь

Сжатие без потерь уменьшает размер файла без потери качества. Этот, казалось бы, волшебный метод уменьшения размеров файлов можно применить и к аудиофайлам. В то время как в MP3 используется сжатие с потерями, для создания сжатых аудиофайлов без потерь можно использовать более новые алгоритмы сжатия, такие как FLAC и Apple Lossless.

Такое сжатие фактически перезаписывает данные исходного файла более эффективным способом. Однако, поскольку качество не теряется, результирующие файлы обычно намного больше, чем файлы изображений и аудио, сжатые с помощью сжатия с потерями. Например, файл, сжатый с использованием сжатия с потерями, может иметь размер в одну десятую от исходного, а сжатие без потерь вряд ли приведет к созданию файла меньше половины исходного размера.

Аудиоформаты без потерь чаще всего используются для архивирования или производства, в то время как меньшие аудиофайлы с потерями обычно используются на портативных проигрывателях и в других случаях, когда пространство для хранения ограничено или точное воспроизведение звука не требуется.

Варианты: моно (один канал) или стерео (два канала, правый/левый): чередование находится в одном файле; или сплит-стерео находится в двух отдельных файлах.

Частота дискретизации указана в герцах (Гц) или "циклах в секунду":
Используйте 44 100 Гц (44,1 кГц) = частота дискретизации CD-качества для профессионального аудио. Каждый семпл содержит 16 бит информации.

Размеры файлов
Это огромный объем информации: 2 дорожки * 44 100 сэмплов в секунду * 16 бит/сэмпл = 1 411 200 бит/с.
Стереозвук CD-качества, 16 бит, 44,1 кГц = 176 кбайт/сек слишком высок для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (28,8
модем ~2,88 кбайт/сек). сек). См. Сжатие ниже.

Хорошее эмпирическое правило: каждая минута 16-битного стереозвука с частотой 44,1 кГц требует около 10 МБ дискового пространства.
Таким образом, на пустой 200-мегабайтный жесткий диск можно записать чуть менее 20 минут стереозвука CD-качества (точно 19 минут 20 секунд).

Качество звука CD (стерео, 16 бит, 44,1 кГц = 176 кбайт/сек) слишком высокое для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (модем 28,8
~ 2,88 кбайт /сек).
Аудиофайлы, сжатые в другие форматы, такие как rm или MP3, могут быть меньше, занимать меньше места на диске и передаваться быстрее.

../../index.html	sonic1ac.wav	155 КБ	13 сек
	sonic.rm (то же, что и выше)	65 КБ	13 секунд
большая разрядность	sonic1ac.mp3 (то же, что и выше)	225 КБ	13 секунд
../audio/heartsounds.html	00b10001.wav	62 КБ	3 сек

Возможные компромиссы между качеством звука и размером файла:
В зависимости от вашего предполагаемого использования звука вы можете пожертвовать некоторым качеством, чтобы уменьшить объем информации, необходимой для оцифрованного звука. Вот некоторые вещи, которые следует учитывать:

Стерео часто можно свернуть в монофонический (однодорожечный) аудиофайл. Если две дорожки суммируются, вся звуковая информация будет сохранена, но информация о направлении будет потеряна. Поскольку компьютерные динамики часто не разнесены на подходящее расстояние, даже стереосигналы скомпрометированы.Переход в моно уменьшит размер файла вдвое.
Частота дискретизации: компьютеры часто предлагают частоты дискретизации 44K, 22K, 11K и 6K (или числа, очень близкие к этим). Частота дискретизации является важным фактором качества звука цифрового файла. Для полнодиапазонных звуков необходимы скорости 22K или 44K, в то время как речь часто приемлема при 11K. Когда вы снижаете частоту дискретизации, звук теряет свои высокие частоты, поэтому для воспроизведения криков певчих птиц вам может понадобиться 44K, но для озвучивания вполне подойдет 11K. Чтобы быть точным, частота дискретизации должна быть в два раза выше самой высокой частоты, которая должна быть оцифрована.

Для преобразования файла можно использовать кодировщик MP3. Но его битовая глубина составляет 128, поэтому размер файла может увеличиться.

Расчет требований к свободному пространству на жестком диске:
Для работы с компьютерным цифровым звуком требуется большое количество места на жестком диске. Если вы планируете создавать новые аудиофайлы на диске, вам потребуется достаточно места на жестком диске для их хранения.

Пример: я записал 13 секунд звука в коридоре ITC, 16-битное стерео, 44 100 Гц. Это файл размером 2,5 М, и его определенно нужно сжать.

Требования к аудиофайлам в байтах в секунду:

Качество звука CD (стерео, 16 бит, 44,1 кГц = 176 кбайт/сек) слишком высокое для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (модем 28,8
~ 2,88 кбайт /сек).

Сжатие кодеком (компрессор/декомпрессор), возможно, для уменьшения размера файла:
Сжатие IMA работает достаточно хорошо для компакт-дисков, но является кросс-платформенным только с QuickTime.
MPEG 1 -- качество компакт-диска
MPEG 3 = MP3 и RealAudio являются наиболее популярными из многочисленных решений для веб-аудио.
Для музыки MIDI является лучшим решением как для компакт-дисков, так и для доставки через Интернет.
Кредиты для вышеуказанного материала:

Подпишитесь на нашу рассылку и получайте учебные пособия и советы по электронной почте.

Я помню, как мне не терпелось заняться созданием музыки. Возможности аранжировки были безграничны, и я мог научиться микшировать музыку так, чтобы она звучала так, как я слышала. К сожалению, в хаосе начала производства я не изучил основы того, как компьютер на самом деле обрабатывает звук, поэтому вся концепция создания музыки на ноутбуке казалась немного абстрактной.

Даже воспроизведение моего первого трека сбивало с толку. Что делает каждый из вариантов? Откуда мне было знать, что будет звучать лучше всего?

В этой статье мы рассмотрим некоторые основные аспекты цифрового звука и то, как они влияют на производственный процесс. Сегодня мы сосредоточимся на частоте дискретизации аудио и разрядности аудио, а также на нескольких темах, связанных с ними. Немного теории и немного математики, но мы надеемся, что это приоткроет часть тайны того, как работает цифровое аудио.

Что такое цифровое аудио?

Цифровой звук — это система, в которой мы храним, воссоздаем и обрабатываем аудиоинформацию в компьютерной системе. Некоторые характеристики аналоговой звуковой волны, такие как частота и амплитуда, преобразуются в данные, которые может прочитать компьютерное программное обеспечение. Это позволяет нам управлять, редактировать и упорядочивать аудио в программном контексте.

Что такое звуковой образец?

Звуковая волна преобразуется в данные с помощью серии снимков или выборок. Образец берется в определенное время в звуковой волне, записывая амплитуду. Затем эта информация преобразуется в удобоваримые двоичные данные.

Система выполняет тысячи измерений в секунду. Если мы сможем очень быстро выполнить множество измерений с достаточным количеством возможных значений амплитуды, мы сможем эффективно использовать эти снимки для восстановления разрешения и сложности аналоговой волны.

Что такое частота дискретизации звука?

Система выполняет эти измерения со скоростью, которая называется частотой дискретизации аудио и измеряется в килогерцах. Частота дискретизации аудио определяет диапазон частот, захваченных в цифровом аудио. В большинстве DAW вы найдете регулируемую частоту дискретизации в настройках звука. Это управляет частотой дискретизации звука в вашем проекте.

Параметры, которые вы видите в среднем DAW — 44,1 кГц, 48 кГц — могут показаться немного случайными, но это не так! Для демонстрации воспользуемся синусоидой:

Чтобы измерить частоту этой синусоиды, нам нужно обнаружить и определить один период. Один полный цикл любой волны содержит положительную и отрицательную стадии. Чтобы узнать длину этого цикла — длину волны, которая приводит нас к частоте волны, — нам нужно обнаружить обе эти две стадии. Поэтому нам нужно измерять волну как минимум два раза за полный период, чтобы точно зафиксировать ее частоту.

Это означает, что мы можем захватывать и реконструировать частоту исходной синусоидальной волны с частотой дискретизации звука как минимум в два раза больше ее частоты, которая называется скоростью Найквиста. И наоборот, система может захватывать и воссоздавать частоты до половины частоты дискретизации звука, предел, называемый частотой Найквиста.

Сигнал выше частоты Найквиста не записывается должным образом аудио-цифровыми преобразователями (АЦП), отражаясь обратно на частоте Найквиста и создавая искусственные частоты в процессе, называемом наложением частот.

Чтобы предотвратить наложение частот, преобразователям аудио в цифру часто предшествуют фильтры нижних частот, которые устраняют частоты выше частоты Найквиста до того, как звук достигнет преобразователя. Это предотвратит появление наложения нежелательных сверхвысоких частот в исходном звуке. Ранние фильтры могли испортить звук, но эта проблема сводится к минимуму по мере внедрения более совершенных технологий.

Хотите поэкспериментировать с концепциями аудио в DAW?

Получите свою копию Music Production Suite 4.1 или начните бесплатную пробную версию Music Production Suite Pro, чтобы получить стандартные плагины для микширования и мастеринга, включая Neutron, Ozone и RX.

Почему стандартная частота дискретизации звука составляет 44,1 кГц?

Самая распространенная частота дискретизации звука – 44,1 кГц, или 44 100 выборок в секунду. Это стандарт для большинства потребительских аудиоматериалов, используемый для таких форматов, как компакт-диски.

Это не произвольное число. Люди могут слышать частоты от 20 Гц до 20 кГц. Большинство людей теряют способность слышать верхние частоты в течение жизни и могут слышать только частоты до 15–18 кГц. Однако это правило «20 к 20» по-прежнему считается стандартным диапазоном для всего, что мы могли услышать.

Компьютер должен уметь воспроизводить волны с частотой до 20 кГц, чтобы сохранить все, что мы слышим. Следовательно, частота дискретизации 40 кГц технически должна сработать, верно?

Это верно, но вам нужен довольно мощный — и в то же время дорогой — фильтр нижних частот, чтобы предотвратить слышимое наложение. Частота дискретизации 44,1 кГц технически позволяет записывать звук на частотах до 22,05 кГц. Поместив частоту Найквиста за пределы нашего слышимого диапазона, мы можем использовать более умеренные фильтры для устранения наложения спектров без особого слышимого эффекта.

Другие частоты дискретизации аудио: 48 кГц, 88,2 кГц, 96 кГц и т. д.

Хотя 44,1 кГц является приемлемой частотой дискретизации для потребительского аудио, в некоторых случаях используются более высокие частоты дискретизации. Некоторые из них были представлены на заре цифрового аудио, когда мощные фильтры сглаживания были дорогими. Перемещение частоты Найквиста еще выше позволяет нам размещать фильтр все дальше и дальше от человеческого слуха и, следовательно, еще меньше влияет на звук.

48 кГц – еще одна распространенная частота дискретизации звука. Более высокая частота дискретизации технически приводит к большему количеству измерений в секунду и более точному воссозданию исходного звука, поэтому частота 48 кГц часто используется в контекстах «профессионального аудио» больше, чем в музыкальных контекстах. Например, это стандартная частота дискретизации аудио для видео. Эта частота дискретизации сдвигает частоту Найквиста примерно до 24 кГц, что дает дополнительное пространство для буфера до того, как потребуется фильтрация.

Некоторые инженеры предпочитают работать с еще более высокой частотой дискретизации звука, которая, как правило, кратна 44,1 кГц или 48 кГц. Частоты дискретизации 88,2 кГц, 96 кГц, 176,4 кГц и 192 кГц приводят к более высоким частотам Найквиста, что означает возможность записи и воссоздания сверхзвуковых частот. Фильтры нижних частот оказывают меньшее влияние на звук и увеличивают количество выборок в секунду, что приводит к воссозданию исходного звука в более высоком разрешении.

Вы слышите разницу между частотами дискретизации звука?

Некоторые опытные инженеры могут услышать разницу между частотами дискретизации. Однако по мере совершенствования технологий фильтрации и аналого-цифрового преобразования становится все труднее услышать эти различия.

Чем выше частота дискретизации звука, тем лучше?

Теоретически неплохо работать с более высокой частотой дискретизации звука, например 176,4 кГц или 192 кГц. Файлы будут больше, но было бы неплохо увеличить качество звука до финального отскока. Однако в конце концов звук, скорее всего, будет преобразован в 44,1 кГц или 48 кГц. Математически гораздо проще преобразовать 88,2 в 44,1 и 96 в 48, поэтому лучше придерживаться одного формата для всего проекта. Однако общепринятой практикой является работа с частотой 44,1 кГц или 48 кГц.

Если бы в системе была установлена частота дискретизации 48 кГц, а мы использовали аудиофайл с частотой 44,1 кГц, система считывала бы сэмплы быстрее, чем должна. В результате звук будет звучать ускоренно и немного выше. Обратное происходит, если частота дискретизации системы находится на шкале 44,1 кГц, а аудиофайлы - на шкале 48 кГц; звук стал медленнее и чуть ниже.

Сверхвысокие частоты дискретизации звука также имеют интересное творческое применение. Если вы когда-либо понижали высоту звука стандартного аудиофайла с частотой 44,1 кГц, вы, вероятно, замечали, что высокие частоты становятся несколько пустыми. Частоты выше 22,05 кГц были отфильтрованы перед преобразованием, поэтому в них нет частотного содержимого для понижения тона, что приводит к зияющей дыре в высоких частотах.

Однако, если этот звук был записан, например, с частотой 192 кГц, в исходном звуке будут записаны частоты до 96 кГц. Это, очевидно, выходит за рамки того, что люди могут слышать, но при понижении звука эти неслышимые частоты становятся слышимыми. В результате вы можете значительно понизить высоту тона записи, сохранив при этом высокочастотный контент. Для получения дополнительной информации о частоте дискретизации аудио обязательно ознакомьтесь с видео ниже.

Что такое битовая глубина звука?

Аналоговый звук представляет собой непрерывную волну с практически бесконечным числом возможных значений амплитуды. Однако для измерения этой волны в цифровом аудио нам необходимо определять амплитуду волны как конечное значение каждый раз, когда мы ее сэмплируем.

Разрядность звука определяет количество возможных значений амплитуды, которые мы можем записать для каждого семпла. Наиболее распространенные разрядности аудио — 16, 24 и 32 бита. Каждый из них представляет собой двоичный термин, представляющий ряд возможных значений. Системы с более высокой битовой глубиной звука могут выражать больше возможных значений:

При более высокой битовой глубине звука и, следовательно, более высоком разрешении нам доступно больше значений амплитуды для записи. В результате точная амплитуда непрерывной аналоговой волны приближается к доступному значению при дискретизации. Таким образом, цифровая аппроксимация амплитуды становится ближе к исходной аналоговой волне жидкости.

16-разрядный: 65 536 ампер. значения
24-разрядная версия: 16 777 217 ампер. значения
32-разрядная версия: 4 284 967 296 ампер. значения

Увеличение разрядности звука вместе с увеличением частоты дискретизации звука создает больше точек для восстановления аналоговой волны.

Однако плавная аналоговая волна не всегда идеально совпадает с возможным значением независимо от разрешения. В результате последний бит данных, обозначающий амплитуду, округляется до 0 или 1 в процессе, называемом квантование. Это означает, что в сигнале присутствует существенно рандомизированная часть сигнала.

В цифровом аудио мы слышим эту рандомизацию как низкий белый шум, который мы называем минимальным уровнем шума. Подобно механическому шуму, возникающему в аналоговом контексте, или фоновому шуму в живом акустическом окружении, цифровая ошибка квантования вносит шум в наш звук.

Гармонические соотношения между частотой дискретизации и звуком, а также битовой глубиной могут вызывать определенные закономерности при квантовании. Это известно как коррелированный шум, который мы слышим как резонансы в шумовом пороге на определенных частотах. Здесь наш минимальный уровень шума на самом деле выше, принимая во внимание потенциальные значения амплитуды записанного сигнала.

Однако мы можем выполнить искусственную рандомизацию, чтобы избежать подобных паттернов. В процессе, называемом дизеринг, мы можем случайным образом округлить этот последний бит. Паттерны не создаются, создавая более рандомизированный «некоррелированный шум», который оставляет больше потенциальных значений амплитуды.

Амплитуда минимального уровня шума становится нижней частью нашего возможного динамического диапазона. С другой стороны спектра, цифровая система может искажать, если амплитуда слишком высока, когда сигнал превышает максимальное значение, которое может создать двоичная система. Этот уровень обозначается как 0 dBFS.

В конце концов, наша битовая глубина звука определяет количество возможных значений амплитуды между минимальным шумом и 0 дБ полной шкалы.

Вы слышите разницу между битовой глубиной звука?

Возможно, вы думаете: "Могут ли человеческие уши действительно отличить уровни амплитуды 65 536 и 4 294 967 296?"

Это правильный вопрос. Уровень шума даже в 16-битной системе невероятно низок. Если вам не нужен эффективный динамический диапазон более 96 дБ, 16 бит подойдет для финальной обработки проекта.

Однако при работе над проектом неплохо было бы работать с более высокой битовой глубиной звука. Поскольку уровень шума падает, у вас, по сути, появляется больше места для искажения — также известного как запас по уровню. Наличие этого дополнительного буферного пространства перед искажением является хорошей защитой от сбоев во время работы и обеспечивает большую гибкость.

Для получения дополнительной информации о битовой глубине звука обязательно ознакомьтесь с видео ниже.

Выводы

Получив более четкое представление о частоте дискретизации и разрядности звука, становится ясно, насколько нам повезло жить в наш век аудиотехники. Цифровой звук дает нам множество возможностей для управления звуком, многие из которых недоступны в аналоговых системах.

Кроме того, совершенствование технологий с годами помогло устранить многие проблемы, возникшие в цифровой системе. Технологии продолжают развиваться, благодаря чему цифровое аудио становится полностью неотличимым от аналогового.

Читайте также: