Какой должна быть частота дискретизации аудиофайла продолжительностью 2 минуты

Обновлено: 27.06.2026

Эта утилита вычисляет размер аудиофайлов (как несжатых, так и аудиофайлов PCM/IEEE FP, таких как .WAV/ .W64/ .RF64, .AIFF/.AIF, а также файлов со сжатием с потерями, таких как MP3, WMA, AAC и OGG Vorbis), в зависимости от продолжительности записи и выбранных вами настроек файла:

**N.B.** Если вы ищете калькулятор для обратного действия (т. е. для расчета продолжительности из доступного места), перейдите сюда.

Введите продолжительность файла в часах, минутах, секундах и миллисекундах. Для расчета размера несжатых файлов также требуется информация о частоте дискретизации, битовой глубине и канале (но не битовая скорость, которая вычисляется автоматически). Помимо продолжительности, для расчета размера сжатых файлов, таких как MP3 и т. д., требуется только информация о скорости передачи (в этом случае информация о частоте дискретизации, разрядности и канале игнорируется). Для сжатых файлов, закодированных с помощью CBR (постоянная скорость передачи данных), отображаемый размер файла должен быть максимально точным (независимо от переменных, таких как информация заголовка и т. д. — см. ниже). Для сжатых файлов, закодированных с помощью VBR (переменная скорость передачи данных), отображаемый размер файла может быть немного менее точным, поскольку в этом случае скорость передачи данных может варьироваться в зависимости от программного материала.

Обратите внимание, что размер файла, сообщаемый вашим устройством, может немного отличаться от показанного из-за методов размещения файлов, возможных различий в количестве информации в заголовке и/или того факта, что некоторые операционные системы рассчитывают место на жестком диске иначе, чем другие (например, , некоторые считают его в двоичном формате и называют 1 КБ 1024 байтами, в то время как другие (и большинство производителей жестких дисков) вычисляют его в десятичном формате и называют 1 КБ 1000 байтами) — этот калькулятор поддерживает оба метода.

Если вы найдете это полезным и/или у вас есть какие-либо комментарии или предложения, дайте мне знать через раздел комментариев ниже (пожалуйста, ознакомьтесь с правилами нашего веб-сайта перед публикацией).

Дайте мне знать, что вы думаете. Отменить ответ

Этот сайт использует Akismet для уменьшения количества спама. Узнайте, как обрабатываются данные ваших комментариев.

74 мысли о «Калькуляторе размера аудиофайла»

Очень полезно, спасибо! Я получаю SD-карту для своего Zoom R8, и меня беспокоит, будет ли достаточно скорости записи U1. Выяснилось, что я могу одновременно записывать 64 канала в формате 24 бит/48 кГц, и карта U1 по-прежнему прекрасно с этим справится.

Я потратил время, чтобы выяснить формулы, используемые этим сайтом, чтобы найти размер файла аудио и максимально возможную длину на основе размера диска и скорости передачи данных, что я смог сделать благодаря этому сайту.
Благодаря этому я узнал, как рассчитать максимальный битрейт аудио на основе длины аудио и размера диска. Вот формула, если вам это нужно по какой-то причине:

((размер файла в мегабайтах / длина в секундах) * 1000) * 8

Если бы не этот сайт, я бы не смог его сделать, так как раньше не мог уложить в голове, как это сделать.

Если вам интересно, какой смысл в возможности рассчитать максимально возможный битрейт, это полезно для сжатия аудио до определенного размера файла, обычно для того, чтобы вы могли обойти ограничение размера файла на веб-сайте. Но для меня это полезно, потому что значительно упрощает сжатие аудио до размеров файлов, пригодных для потоковой передачи.

Рад, что вы нашли этот сайт полезным и нашли решение – вы действительно правы. Однако вашу формулу можно упростить для ясности. На самом деле, самые простые формулы для расчета размера файла, продолжительности или битрейта будут такими:

Размер файла (бит) = продолжительность (секунды) * скорость передачи данных (бит в секунду)

Продолжительность (секунды) = размер файла (биты) / скорость передачи данных (биты в секунду)

Битрейт (бит в секунду) = размер файла (бит) / продолжительность (секунды)

Это именно то, что мне было нужно. Я рассматриваю возможность реализации звукового сэмплера на плате микроконтроллера, и мне нужно знать, какая емкость мне понадобится. Это был идеальный инструмент для этого. Спасибо!

Очень полезно! Спасибо

Это то, что я искал. Спасибо.

Отличный инструмент! Спасибо за его создание.

Спасибо за создание, это действительно полезный ресурс, к которому я регулярно возвращаюсь. Есть ли шанс, что вы могли бы добавить 256 кГц в качестве частоты дискретизации? Это довольно часто встречается в ультразвуковых приборах.

Хорошо, Сэм, готово. 😉

Здравствуйте,
У меня вопрос об аудиоканалах.
Как может быть 65535 каналов в аудиофайле?

Здравствуйте, Saturn, потому что 65535 действительно является максимальным числом аудиоканалов, поддерживаемым форматом файла .wav. Дополнительную информацию можно найти здесь.

Звукорежиссер решил записать фоновый звук для предстоящего фильма в стереофоническом режиме. Для создания высококачественного несжатого цифрового аудиофайла звукоинженер будет использовать разрядность 16 бит и частоту дискретизации 88 кГц. Каков будет приблизительный итоговый размер файла для звуковой дорожки продолжительностью 1,5 минуты 37 секунд?

Здравствуйте, roury! Конечно, просто введите эти данные в калькулятор выше.

да, извините, я думал, что сделал что-то не так, но теперь все хорошо.. большое спасибо

Здравствуйте, Колин! Я разрабатываю студию и пытаюсь рассчитать пропускную способность, которую должен иметь мой локальный сервер, чтобы иметь возможность запускать большую сессию оркестрового озвучивания — 400 дорожек (96 кГц/24 бит) на двух Рабочие станции Protools и видео 4K на третьей — чтобы прийти к выводу, какое серверное решение будет правильным.

Привет, Адитья! Всегда полезно знать, как люди используют мои онлайн-инструменты. Удачи вашему проекту!

Привет, Колин!
Я пытаюсь загрузить файлы аудиокниг в систему продажи аудиокниг Findaway Voices. Я автор и понятия не имею о битах и т. д. Файлы 129-битные. Компании нужны файлы в 192000 бит. Это звучит так, как будто есть так много различий. Что я делаю? Надеюсь, вы можете помочь. Спасибо.
КДж

Здравствуйте, KJ,
Похоже, вы записали свою аудиокнигу в формате mp3, да? С точки зрения кодирования mp3-файла, описание файла как 128 или 129 «бит» не имеет смысла. Важно понимать, что кодеки mp3-файлов (CODEC — сокращение от encode/decode) обычно выражаются в кбит/с, что означает килобиты В СЕКУНДУ, другими словами, это количество данных, которые передаются в потоке в секунду при воспроизведении. файл, поэтому он называется битрейтом — он НЕ относится к общему количеству битов в самом файле; размер файла определяется длительностью закодированного звука, умноженной на скорость передачи данных. Основная формула: Размер файла (биты) = Продолжительность (секунды) * Скорость передачи данных (биты в секунду).

Это также звучит так, как будто вы, возможно, использовали переменную скорость передачи данных (VBR), потому что 129 кбит/с (файлы не могут иметь 129 бит/с — это было бы смехотворно низкой скоростью передачи данных) не совсем стандартно для CBR (непрерывная скорость передачи битов). скорость) mp3-файлов — хотя стандартная скорость передачи данных — 128 кбит/с, это может быть просто ошибкой отчета.

Я ознакомился с их техническими требованиями, и вашему дистрибьютору, похоже, требуются либо файлы mp3 со скоростью 192 кбит/с, либо файлы FLAC с частотой дискретизации 44,1 кГц (и, по-видимому, поскольку они не уточняют это, 16-битные ).

В любом случае, похоже, что вы записали свои файлы со скоростью 128 или 129 кбит/с вместо требуемых 192 кбит/с, поэтому вам нужно будет исправить их перед отправкой. Поскольку mp3 — это формат с потерями, перекодирование в mp3 со скоростью 192 кбит/с неизбежно приведет к ухудшению качества (что может быть для вас приемлемым или неприемлемым). Однако способ, которым я справился бы с этим (за исключением перезаписи), состоял бы в том, чтобы преобразовать файлы в WAV (с частотой 44,1 кГц/16 бит), а затем в FLAC (который сжат, но без потерь) и использовать это как формат доставки — таким образом вы не потеряете качество исходных файлов.

Поскольку вы спрашиваете моего совета; Я предлагаю вам в будущем всегда записывать файлы WAV (несжатые и без потерь), а НЕ mp3 (которые и сжаты, и с потерями). MP3 хорош как формат доставки, но (по нескольким причинам, слишком сложным, чтобы вдаваться в них) далек от идеального формата записи. Лично я всегда записывал разговорный материал (музыка немного отличается) в виде стандартного файла WAV с частотой дискретизации 44,1 кГц/16 бит или 48 кГц/16 бит. Затем вы можете конвертировать в mp3 (или любой другой формат, который может потребоваться) для доставки, сохраняя исходные файлы WAV нетронутыми на случай, если вам может понадобиться преобразовать их в другой формат позже без потери качества звука.

Варианты: моно (один канал) или стерео (два канала, правый/левый): чередование находится в одном файле; или сплит-стерео находится в двух отдельных файлах.

Частота дискретизации указана в герцах (Гц) или "циклах в секунду":
Используйте 44 100 Гц (44,1 кГц) = частота дискретизации CD-качества для профессионального аудио. Каждый семпл содержит 16 бит информации.

Размеры файлов
Это огромный объем информации: 2 дорожки * 44 100 сэмплов в секунду * 16 бит/сэмпл = 1 411 200 бит/с.
Стереозвук CD-качества, 16 бит, 44,1 кГц = 176 кбайт/сек слишком высок для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (28,8
модем ~2,88 кбайт/сек). сек). См. Сжатие ниже.

Хорошее эмпирическое правило: каждая минута 16-битного стереозвука с частотой 44,1 кГц требует около 10 МБ дискового пространства.
Таким образом, на пустой 200-мегабайтный жесткий диск можно записать чуть менее 20 минут стереозвука CD-качества (точно 19 минут 20 секунд).

Качество звука CD (стерео, 16 бит, 44,1 кГц = 176 кбайт/сек) слишком высокое для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (модем 28,8
~ 2,88 кбайт /сек).
Аудиофайлы, сжатые в другие форматы, такие как rm или MP3, могут быть меньше, занимать меньше места на диске и передаваться быстрее.

../../index.html	sonic1ac.wav	155 КБ	13 сек
	sonic.rm (то же, что и выше)	65 КБ	13 секунд
большая разрядность	sonic1ac.mp3 (тот же, что и выше)	225 КБ < /td>	13 секунд
../audio /heartsounds.html	00b10001.wav	62 КБ	3 сек

Возможные компромиссы между качеством звука и размером файла:
В зависимости от вашего предполагаемого использования звука вы можете пожертвовать некоторым качеством, чтобы уменьшить объем информации, необходимой для оцифрованного звука. Вот некоторые вещи, которые следует учитывать:

Стерео часто можно свернуть в монофонический (однодорожечный) аудиофайл. Если две дорожки суммируются, вся звуковая информация будет сохранена, но информация о направлении будет потеряна. Поскольку компьютерные динамики часто не разнесены на подходящее расстояние, даже стереосигналы скомпрометированы. Переход в моно уменьшит размер файла вдвое.
Частота дискретизации: компьютеры часто предлагают частоты дискретизации 44K, 22K, 11K и 6K (или числа, очень близкие к этим). Частота дискретизации является важным фактором качества звука цифрового файла. Для полнодиапазонных звуков необходимы скорости 22K или 44K, в то время как речь часто приемлема при 11K. Когда вы снижаете частоту дискретизации, звук теряет свои высокие частоты, поэтому для воспроизведения криков певчих птиц вам может понадобиться 44K, но для озвучивания вполне подойдет 11K. Чтобы быть точным, частота дискретизации должна быть в два раза выше самой высокой частоты, которая должна быть оцифрована.

Для преобразования файла можно использовать кодировщик MP3. Но его битовая глубина составляет 128, поэтому размер файла может увеличиться.

Расчет требований к свободному пространству на жестком диске:
Для работы с компьютерным цифровым звуком требуется большое количество места на жестком диске. Если вы планируете создавать новые аудиофайлы на диске, вам потребуется достаточно места на жестком диске для их хранения.

Пример: я записал 13 секунд звука в коридоре ITC, 16-битное стерео, 44 100 Гц. Это файл размером 2,5 М, и его определенно нужно сжать.

Требования к аудиофайлам в байтах в секунду:

Качество звука CD (стерео, 16 бит, 44,1 кГц = 176 кбайт/сек) слишком высокое для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (модем 28,8
~ 2,88 кбайт /сек).

Сжатие кодеком (компрессор/декомпрессор), возможно, для уменьшения размера файла:
Сжатие IMA работает достаточно хорошо для компакт-дисков, но является кросс-платформенным только с QuickTime.
MPEG 1 -- качество компакт-диска
MPEG 3 = MP3 и RealAudio являются наиболее популярными из многочисленных решений для веб-аудио.
Для музыки MIDI является лучшим решением как для компакт-дисков, так и для доставки через Интернет.
Кредиты для вышеуказанного материала:

Неврология??

В аудиофильской индустрии существует бесконечный список тем, вызывающих споры. Спорные темы, такие как дорогие кабели и звук высокого разрешения (hi-res), особенно раздражают сообщество.

Определение аудио высокого разрешения гласит, что любой музыкальный файл, записанный с частотой дискретизации и разрядностью выше 44,1 кГц/16 бит, считается аудио высокой четкости (HD).

Изображение от Sony

В этой статье мы рассмотрим основы частоты дискретизации и разрядности, а также их влияние на воспринимаемое качество звука.

Мы также коснемся еще одного понятия: битрейта. Битрейт или битрейт обычно используется для описания качества аудиопотока для сервисов потоковой передачи музыки.

Как звук записывается в цифровом виде?

При воспроизведении звука создается волна давления, которая распространяется по воздуху.Если диафрагма записывающего устройства, например микрофона, находится поблизости, волны давления в воздухе создают вибрацию в диафрагме. Благодаря волшебству преобразователей эта вибрация, в свою очередь, создает электрический сигнал, который постоянно меняется вместе с волнами в воздухе.

Эта непрерывная и пропорциональная вариация - то, откуда происходит термин "аналоговый".

Сигнал, создаваемый диафрагмой, часто сам по себе недостаточно силен. Обычно предварительный усилитель сначала усиливает сигнал, чтобы его можно было записать несколькими способами.

На протяжении всей истории для записи и хранения аналоговых сигналов использовались различные материалы. Сюда входят воск, виниловые диски и магнитные ленты. Со временем цифровые записи были введены и стали обычным явлением.

Цифровые системы (единицы и нули) записывают аналоговые сигналы (непрерывно изменяющиеся значения) путем их дискретизации.

Разница между низкой частотой дискретизации и высокой частотой дискретизации

Захватив достаточное количество образцов входящего аналогового сигнала и сохранив их в памяти, цифровые записи могут захватить, а затем воспроизвести указанный сигнал.

Обычная цифровая аудиозапись содержит до 44 100 сэмплов в секунду. Однако нередко можно увидеть 96 000 сэмплов в секунду для некоторых цифровых аудиоформатов.

Существует несколько типов методов дискретизации, но стандартом де-факто является импульсно-кодовая модуляция (ИКМ).

Что такое импульсно-кодовая модуляция?

PCM служит отраслевым стандартом для хранения аналоговых сигналов в цифровом формате. В потоке PCM амплитуда звука дискретизируется с одинаковым интервалом. PCM не является собственностью, поэтому каждый может использовать его бесплатно!

Однако звук в формате PCM редко можно найти по двум причинам:

Размер файла

Поскольку формат PCM несжатый, размер записанного аудиофайла огромен. Можно сжимать аудиофайлы, используя алгоритмы сжатия с потерями или даже без потерь, чтобы сохранить точность звука при уменьшении размера файла.

Dolby и DTS — это форматы сжатия аудио с потерями, которые часто используются для этой цели, поскольку они способны уменьшить размер аудиофайлов PCM на целых 90%.< /p>

К сожалению, способ, которым Dolby и DTS кодируют каналы PCM в битовый поток для хранения, а затем декодируют его обратно для воспроизведения, не идеален. Полученный звук, несмотря на меньший размер файла, не всегда такой чистый и четкий, как исходный, что приводит к снижению точности и качества.

Именно здесь на помощь приходят форматы без потерь, такие как Dolby Digital TrueHD и DTS-HD Master Audio. Они способны декодировать аудиосигналы PCM точно так, как они были изначально. захвачено.

Совместимость воспроизведения

К сожалению, популярные операционные системы (ОС) изначально не поддерживают воспроизведение файлов PCM. IBM и Microsoft определили формат Waveform Audio Format (WAV) для ОС Windows, в то время как Apple использовала формат аудиообмена (AIFF) для ОС Macintosh. Оба формата представляют собой просто обертку аудиоформата PCM с дополнительной аудиоинформацией, такой как профиль автора, название трека и т. д.

Представление достоверности

Верность/качество потока PCM определяется двумя атрибутами:

Эти два атрибута показывают, насколько цифровая запись соответствует исходному аналоговому сигналу.

Что такое частота дискретизации?

Вспомните анимационные фильмы, снятые пару десятилетий назад.

Фильмы представляли собой просто слайды из неподвижных изображений, которые показывались одно за другим, чтобы создать иллюзию движения. Скорость перехода определяла плавность полученной анимации. Чем быстрее переход, тем лучше иллюзия анимации.

Скорость смены слайдов такая же, как частота кадров в современном видео.

Цифровая звуковая волна подобна снимку исходного аудиосигнала. Чем больше сэмплированная звуковая волна похожа на оригинальную звуковую волну, тем выше точность цифровой звуковой волны.

В цифровых аудиозаписях частота дискретизации аналогична частоте кадров в видео. Чем больше звуковых данных (сэмплов) собрано за определенный период времени, тем ближе к исходному аналоговому звуку становятся захваченные данные.

Чем выше частота дискретизации, тем точнее захват исходного аудиосигнала

В типичной записи цифрового аудио компакт-диска частота дискретизации составляет 44 100 или 44,1 кГц. Если вам интересно, почему частота такая высокая, когда человеческое ухо может слышать частоты в лучшем случае до 20 кГц. Это связано с теоремой выборки Найквиста-Шеннона.

Теорема Найквиста

Этот принцип, обычно называемый теоремой Найквиста или частотой Найквиста, гласит, что для предотвращения потери информации при цифровой выборке сигнала частота дискретизации должна быть как минимум в два раза выше максимальной ожидаемой частоты сигнала.

В этом случае использование частоты дискретизации 44 100 выборок в секунду или 44,1 кГц позволяет точно воспроизводить частоты около 22 кГц.

Другие примеры распространенной частоты дискретизации: 8000 Гц для телефонов и от 96 000 Гц до 192 000 Гц для аудиодорожек Blu-ray. Частота дискретизации 384 000 Гц также используется в некоторых особых ситуациях, например при записи животных, излучающих ультразвук.

Что такое битовая глубина?

Компьютер хранит информацию в единицах и нулях. Эти двоичные значения называются битами. Чем выше число битов, тем больше места для хранения информации.

4-битное двоичное число. Время викторины: что представляет приведенный выше двоичный файл?

Когда сигнал дискретизируется, он должен хранить дискретизированную аудиоинформацию в битах. Вот где битовая глубина встает на место. Разрядность определяет, сколько информации может быть сохранено. Выборка с 24-битной глубиной может хранить больше нюансов и, следовательно, является более точной, чем выборка с 16-битной глубиной.

Чтобы быть более точным, давайте посмотрим, какое максимальное количество значений может хранить каждая битовая глубина.

16 разрядов: мы можем хранить до 65 536 уровней информации.
24-разрядная версия: мы можем хранить до 16 777 216 уровней информации.

Вы можете увидеть огромную разницу в количестве возможных значений между двумя разрядностями.

Динамический диапазон

Еще один важный фактор, на который влияет битовая глубина, — это динамический диапазон сигнала. 16-битный цифровой звук имеет максимальный динамический диапазон 96 дБ, а 24-битная глубина даст нам максимум 144 дБ.

Звук CD-качества записывается с глубиной 16 бит, потому что, как правило, мы хотим иметь дело только со звуком, который достаточно громок, чтобы мы его слышали, но в то же время недостаточно громок, чтобы повредить оборудование или барабанные перепонки.

Разрядность 16 бит при частоте дискретизации 44,1 кГц достаточна для воспроизведения слышимой частоты и динамического диапазона для среднего человека, поэтому он стал стандартным форматом компакт-диска.

Всегда ли записывать в формате 192 кГц/24 бит?

Несмотря на отсутствие ограничений по частоте дискретизации и битовой глубине, 192 кГц/24 бит — это золотой стандарт для аудио высокого разрешения. (Есть производители, которые уже рекламируют возможность 32-битной глубины, упс!) Мы будем использовать 192 кГц/24 бит в качестве эталона для вершины точности записи.

Так когда же требуется такая верность?

Мы знаем, что чем выше частота дискретизации и разрядность, тем больше наш цифровой сигнал будет похож на исходный аналоговый сигнал. Но это также дает нам дополнительный запас прочности.

Дополнительный запас

Запас – это разница между динамическим диапазоном аудиосигнала и допустимой разрядностью. Это как проехать на грузовике высотой 3 метра по эстакаде с вертикальным просветом 5 метров. Это дает вам 2 метра свободного пространства для работы на тот случай, если вам придется перевозить необычно высокий груз.

Сэмплирование в 16-битном режиме дает звукорежиссерам динамический диапазон 96 дБ. С другой стороны, 24-битный формат расширяет динамический диапазон до 144 дБ, хотя на самом деле большинство аудиооборудования может достигать только 125 дБ.

Благодаря дополнительному запасу звуковые инженеры могут свести к минимуму, если не устранить, возможность чрезмерного шума или клиппирования, когда звуковые волны по существу становятся плоскими и вызывают слышимые искажения.

Отсечение происходило, когда входящий электрический сигнал не мог быть представлен полностью в числовом виде. Это может произойти, если битовая глубина невелика.

Поскольку возможный диапазон сигналов профессионального звукового оборудования намного больше, чем то, что может слышать обычный человек, использование 24-битной технологии позволяет профессионалам в области звука безошибочно применять тысячи эффектов и операций, связанных с микшированием и мастерингом звука, чтобы подготовить его к работе. воспроизведение и распространение.

Увеличить размер файла

Помимо потенциально избыточного запаса, запись с более высокой точностью создает гораздо больший размер файла.

Расчет размера файла

Чтобы дать вам представление о разнице в размере файла, давайте попробуем придумать гипотетический сценарий с пятиминутной несжатой песней.

1) Сначала рассчитайте битрейт по формуле частота дискретизации * битовая глубина * количество каналов.

44,1 кГц/16 бит: 44 100 x 16 x 2 = 1 411 200 бит в секунду (1,4 Мбит/с).
192 кГц/24 бит: 192 000 х 24 х 2 = 9 216 000 бит в секунду (9,2 Мбит/с).

2) Используя вычисленный битрейт, мы умножаем его на продолжительность записи в секундах.

44,1 кГц/16 бит: 1,4 Мбит/с * 300 с = 420 МБ (52,5 МБ)
192 кГц/24 бит: 9,2 МБ/с * 300 с = 2 760 МБ (345 МБ)

Аудио, записанное в формате 192 кГц/24 бит, займет в 6,5 раз больше места, чем звук, записанный в формате 44,1 кГц/16 бит.

Итак, когда вам нужно записывать в формате 192 кГц/24 бит?

Все зависит от того, что вы хотите делать с аудиозаписью. Вы хотите манипулировать записью и у вас есть неограниченная память? Тогда 192 кГц/24 бита не составит труда. Но если вы собираетесь транслировать свою музыку своим слушателям, 192 кГц/24 бит будут поглощать полосу пропускания вашего слушателя и увеличивать его счета за интернет.

Обеспечивает ли 192 кГц/24 бит превосходное качество прослушивания?

Он использует комбинацию обработки сигнала и того, как мы, люди, воспринимаем звук, чтобы объяснить, почему сэмплирование в формате 192 кГц/24 бит не имеет смысла, а также дать читателям представление о том, как проводить собственные тесты на прослушивание дома, чтобы попробовать и проверить. самостоятельно.

Смысл в том, чтобы наслаждаться музыкой, верно? Современная точность воспроизведения непостижимо лучше, чем уже превосходные аналоговые системы, доступные поколение назад. Является ли логическая крайность чем-то большим, чем просто еще одной проблемой первого мира? Возможно, но меня беспокоят плохие миксы и кодировки; они отвлекают меня от музыки, и я, наверное, не одинок.

Зачем отказываться от 24/192? Потому что это решение несуществующей проблемы, бизнес-модель, основанная на умышленном невежестве и обмане людей. Чем больше лженаука выходит из-под контроля в мире в целом, тем труднее истине победить правдивость… даже если это небольшой и относительно незначительный пример.

Мы считаем, что закон убывающей отдачи применим к частоте дискретизации/разрядности. Как только вы достигаете определенного порога, незначительное улучшение качества звука становится все меньше и меньше, пока не станет незначительным.

Что такое битрейт?

Битрейт (или скорость передачи, если хотите) – это количество битов, передаваемых или обрабатываемых в секунду, минуту или любую другую единицу времени, используемую в качестве измерения.

Это похоже на частоту дискретизации, но вместо этого измеряется количество битов, а не количество выборок.

Битрейт чаще используется в контексте воспроизведения/потоковой передачи, чем в контексте записи.

Термин "битрейт" используется не только в аудиоиндустрии. Он также распространен в мультимедиа и сетях. Однако в музыке более высокий битрейт обычно ассоциируется с более высоким качеством. Это связано с тем, что каждый бит аудиофайла содержит часть данных, которые мы можем использовать для воспроизведения исходного звука.

По сути, чем больше битов вы можете уместить в единицу времени, тем ближе будет воссоздание исходной непрерывно изменяющейся звуковой волны и, следовательно, тем точнее она будет представлять песню.

К сожалению, более высокий битрейт также означает больший размер файла, что недопустимо, когда речь идет о месте для хранения и пропускной способности, например, при работе со службами потоковой передачи музыки, такими как Apple Music и Spotify.

Службы потоковой передачи музыки

Из приведенного выше раздела видно, что для потоковой передачи несжатой 5-минутной песни, записанной в формате 44,1 кГц/16 бит, требуется битрейт 1,4 Мбит/с, что является значительной пропускной способностью.

Apple Music и Spotify обходят эту проблему пропускной способности, сжимая звук. Конечно, сжатие файлов не проходит без последствий. Для начала Spotify ограничивает битрейт аудиофайлов до 160 кбит/с для пользователей настольных компьютеров и 96 кбит/с для мобильных пользователей. Однако у премиум-подписчиков есть возможность слушать звук со скоростью 320 кбит/с на настольном компьютере. Между тем, подписчики Apple Music «ограничены» битрейтом 256 кбит/с.

Качество потоковой передачи Spotify

Apple Music и Spotify используют формат AAC (Advanced Audio Coding) и формат Ogg Vorbis соответственно для своих служб потоковой передачи аудио.

Существуют также службы потокового аудио для тех, кто предпочитает слушать музыку с более высоким битрейтом.

И TIDAL, и Qobuz Sublime+ считаются популярными сервисами потоковой передачи аудио для тех, кто предпочитает потоковую передачу звука наилучшего качества. Варианты Hi-FI доступны при ежемесячной подписке за 19,99 долларов США.

TIDAL поддерживает файлы FLAC 44,1 кГц/16 бит, которые можно передавать со скоростью 1 411 кбит/с.

Таблица качества приливного звука

Подписка TIDAL Hi-Fi предлагает лучшее соотношение цены и качества. Это связано с тем, что вы получаете доступ к огромной библиотеке высококачественных файлов FLAC, а также к 50 000 песен высочайшего качества, сжатых с использованием запатентованной технологии Master Quality Authenticated (MQA) для улучшения качества звука.

Высокий битрейт гарантирует превосходное качество прослушивания?

В нашем примере выше типичная пятиминутная песня в формате 44,1 кГц/16 бит имела бы несжатый файл размером более 50 МБ.

Кодек MP3 был разработан для решения этой проблемы, позволяя сжимать звук с качеством CD без потери качества. Ранние кодеры MP3 начинали со 128 или 192 кбит/с, а затем перешли на 320 кбит/с, чтобы конкурировать с другими кодеками. Однако в потоковом аудио используются Ogg Vorbis (Spotify) и AAC (Apple Music).

Это общедоступный исходный код с открытым исходным кодом, который обеспечивает высокое качество по сравнению с пропускной способностью, необходимой для его потоковой передачи. Мы опробовали несколько различных форматов файлов и провели еще один тест пару лет назад, и формат Ogg Vorbis оказался лучшим.

Неизвестность формата не так уж актуальна, поскольку пользователи никогда не видят сами файлы, поэтому, если по какой-то причине стал известен другой формат, обеспечивающий более высокую рентабельность инвестиций, перейти на этот новый формат несложно. Бывший вице-президент Spotify.

Возвращаясь к объяснению Криса Монтгомери, мы теперь знаем, что все, что выше 192 кбит/с на приличном кодировщике, на самом деле не имеет значения — обычное человеческое ухо просто недостаточно точно, чтобы заметить разницу.

Это означает, что любая музыка с битрейтом 192 кбит/с или выше становится неотличимой от исходного аудиоаналога, если она правильно закодирована в аудиофайл Ogg, MP3, AAC или FLAC.

Конечно, это не означает, что высокий битрейт бесполезен. Это помогает гарантировать превосходное качество прослушивания. Однако это применимо только в определенных ситуациях. Например, если у вас есть полноценная аудиосистема Hi-Fi, вы можете воспользоваться небольшими улучшениями качества звука при потоковой передаче аудиофайлов Hi-Fi.

Как правило, случайный слушатель, использующий обычные наушники, не выиграет от потоковой передачи звука со скоростью ниже 192 кбит/с.

Заключение

Подводя итог, можно сказать, что частота дискретизации — это количество аудиосэмплов, записанных в единицу времени, а битовая глубина показывает, насколько точно были закодированы сэмплы. Наконец, битрейт — это количество битов, записываемых в единицу времени.

Теперь это было не так сложно, не так ли?

Надеюсь, с помощью нашего руководства мы помогли прояснить некоторые загадки, связанные с частотой дискретизации, битовой глубиной и битрейтом.

В дальнейшем вы должны быть в состоянии критически мыслить, когда кто-то говорит вам, насколько «чище» звучит аудиофайл в зависимости от процесса его кодирования. Что еще более важно, теперь вам будет проще находить соответствующие аудиоформаты и потоковые сервисы, отвечающие вашим слуховым потребностям.

В предыдущей записи в блоге Рахул рассказал об аудиокодеках и транскодировании, некоторые из которых «сжимают» аудио для экономии места на диске. Но что именно эти аудиокодеки делают с точки зрения сжатия и что в первую очередь определяет качество аудиофайла?

Когда дело доходит до обработки звука, существует множество терминов, которые большинство людей слышали раньше, но не понимают. Раньше я был одним из таких людей, прежде чем мне пришлось работать над обработкой звука. С этой целью я хотел поговорить о некоторых из этих терминов, описать, что они из себя представляют, и продемонстрировать, что они означают для качества аудиозаписи или потоковой передачи. В оставшейся части этого поста мы будем предполагать, что имеем дело только с одним каналом несжатого аудио.

(1) Частота дискретизации / частота дискретизации

Первым термином, который мы часто слышим, является частота дискретизации или частота дискретизации, которые относятся к одному и тому же. Некоторые из значений, с которыми вы могли столкнуться, это 8 кГц, 44,1 кГц и 48 кГц. Какова именно частота дискретизации аудиофайла?

Частота дискретизации — это количество аудиозаписей, записываемых каждую секунду. Он измеряется в выборках в секунду или Герцах (сокращенно Гц или кГц, где один кГц равен 1000 Гц).Аудиосэмпл — это просто число, представляющее измеренное значение акустической волны в определенный момент времени. Очень важно отметить, что эти выборки берутся в моменты времени, равноотстоящие друг от друга в секунду. Например, если частота дискретизации составляет 8000 Гц, недостаточно, чтобы в течение секунды производилось 8000 сэмплов; они должны быть сняты с интервалом ровно 1/8000 секунды. Число 1/8000 в этом случае будет называться интервалом выборки (измеряемым в секундах), а частота выборки — это просто мультипликативное обратное значение.

Частота дискретизации аналогична измерению частоты кадров или FPS (кадров в секунду) для видео. Видео – это просто серия изображений, обычно называемых в данном контексте "кадрами", отображаемых друг за другом очень быстро, чтобы создать иллюзию (по крайней мере, для нас, людей) непрерывного непрерывного движения или движения.

Несмотря на то, что частота дискретизации звука и частота кадров видео одинаковы, обычный числовой минимум для гарантированного удобства использования в каждом из них сильно различается. Для видео требуется минимум 24 кадра в секунду, чтобы гарантировать точное изображение движения; меньше этого, и движение может казаться прерывистым, и иллюзия непрерывного непрерываемого движения не может поддерживаться. Это особенно верно, чем больше движения происходит между кадрами. Кроме того, в видео с частотой 1 или 2 кадра в секунду могут быть «доли секунды», которые гарантированно будут пропущены между кадрами.

Для аудио минимальное количество выборок в секунду для однозначного представления английской речи составляет 8000 Гц. Использование меньшего значения приведет к тому, что речь может быть непонятна по целому ряду причин, одна из которых заключается в том, что похожие высказывания не будут отличимы друг от друга. Более низкие частоты дискретизации смешивают фонемы или звуки языка, которые обладают значительной высокочастотной энергией; например, при частоте 5000 Гц трудно отличить /s/ от /sh/ или /f/.

Поскольку мы упомянули видеокадры, следует уточнить еще один термин — аудиокадры. Хотя звуковые образцы и звуковые кадры измеряются в герцах, это не одно и то же. Аудиокадр – это группа аудиосэмплов за определенный период времени, которые поступают из одного или нескольких аудиоканалов.

Наиболее распространенными значениями частоты дискретизации являются вышеупомянутые 8 кГц (чаще всего для телефонной связи), 44,1 кГц (чаще всего для музыкальных компакт-дисков) и 48 кГц (чаще всего для звуковых дорожек в фильмах). Более низкие частоты дискретизации означают меньше выборок в секунду, что, в свою очередь, означает меньшее количество аудиоданных, поскольку для представления аудио требуется меньшее количество точек выборки. Частота дискретизации выбирается для конкретного приложения в зависимости от того, какие акустические артефакты необходимо зафиксировать. Для некоторых акустических артефактов, таких как речевые высказывания, требуется более низкая частота дискретизации, чем для акустических артефактов, таких как музыкальная мелодия на музыкальном компакт-диске. Важно отметить, что более высокие частоты дискретизации требуют больше места для хранения и вычислительной мощности, хотя сейчас это может быть не такой серьезной проблемой, как раньше, когда цифровая память и вычислительная мощность были главными соображениями.< /p>

(2) Глубина выборки / Точность выборки / Размер выборки

В дополнение к частоте дискретизации, то есть количеству точек данных аудио, которые у нас есть, существует также глубина дискретизации. Измеряемая в битах на выборку, глубина выборки (также известная как точность выборки или размер выборки) является вторым важным свойством аудиофайла или потока и представляет уровень детализации или «качество» каждого образца. Как мы упоминали выше, каждый звуковой образец — это просто число, и хотя наличие большого количества чисел полезно для представления звука, вам также необходимо, чтобы диапазон или «качество» каждого отдельного числа был достаточно большим для представления каждого образца или точки данных. точно.

Что означает «качество»? Для звукового образца это просто означает, что звуковой образец может представлять более высокий диапазон амплитуд. Глубина выборки 8 бит означает, что у нас есть 2 ^ 8 = 256 различных амплитуд, которые может представлять каждый звуковой образец, а глубина выборки 16 бит означает, что у нас есть 2 ^ 16 = 65 536 различных амплитуд, которые может представлять звуковой образец, и и так далее для большей глубины выборки. Наиболее распространенная глубина выборки для аудио телефонии составляет 16 бит и 32 бита. Чем больше четких амплитуд в цифровой записи, тем ближе звук цифровой записи к исходному акустическому событию.

(3) Битрейт

Связывание частоты дискретизации и глубины дискретизации представляет собой битрейт, который является просто произведением обоих. Поскольку частота дискретизации измеряется в выборках в секунду, а глубина выборки измеряется в битах на выборку, поэтому она измеряется в (выборки в секунду) x (биты в выборке) = биты в секунду, сокращенно бит/с или кбит/с. Стоит отметить, что, поскольку глубина выборки и битрейт связаны, они часто, хотя и ошибочно, используются взаимозаменяемо.

Скорость передачи аудио зависит от приложения. Приложения, требующие высокого качества звука, такие как музыка, обычно имеют более высокую скорость передачи данных, что обеспечивает более высокое качество или «более четкое» звучание. Звук телефонии, в том числе колл-центров, не нуждается в высокой скорости передачи данных, поэтому скорость передачи данных для обычного телефонного звонка обычно намного ниже, чем у музыкального компакт-диска. Ни для частоты дискретизации, ни для битрейта более низкие значения могут (буквально) звучать хуже, но опять же, в зависимости от приложения, более низкие значения экономят место на диске и/или вычислительную мощность.

В целом, что на самом деле означает сжатие, когда речь идет об аудио? Сжатые аудиоформаты, такие как AAC или MP3, имеют битрейт, который несколько меньше истинного произведения частоты дискретизации и глубины дискретизации. Форматы достигают этого за счет «хирургического» удаления информации из потока битов на основе восприятия, что означает, что --- в динамических контекстах --- те частоты или амплитуды, которые не слышны человеческим ухом по биологическим причинам, не сохраняются, что приводит к уменьшению общего размера файла.

Спасибо Корнелу Ласковски, главному научному сотруднику Voci, за рассмотрение технических деталей этой статьи.

Раги Моркос

Рэги Моркос — инженер-программист, работающий в исследовательском коллективе Voci. Он разрабатывает веб-демонстрации новых и будущих речевых технологий, создает автоматизированную инфраструктуру проверки и тестовые примеры, а также создает инструменты подготовки данных, которые взаимодействуют с существующей линейкой продуктов Voci. Его обязанности также распространяются на область машинного обучения, где он работает над анализом очередности и определением возраста по речи.

Я сделал это. Но для файла 500 мс. Он показывает длину как 23664, после деления на 44100 мы получаем 0,5365, что означает приблизительно 536 мс. Как это возможно. Откуда взялись эти лишние 36 мс?

Я пробовал с файлом ровно 2 секунды, там тоже показало 2.что-то. Почему длина отображается больше реальной?

Еще ответы (6)

Прямая ссылка на этот ответ

0 комментариев

Прямая ссылка на этот ответ

Я имею в виду, что есть в 1 образце? 1/Fs продолжительность? Я думаю, что 2 образца должны иметь 1/Fs (минимальная продолжительность). Мы также используем для построения графика как [0:N-1] по оси X, а не как [0:N] или [1:N]. Тогда взятие [0:N-1]/Fs действительно соответствует продолжительности, если вы заметили. Правый конец (N-1)/Fs.

0 комментариев

Прямая ссылка на этот ответ

Вы можете импортировать данные с помощью функции импорта аудио, такой как WAVREAD или AUREAD, или даже с помощью мастера импорта, выбрав «Файл» > «Импорт данных». Это принесет ваш аудио образец. Вы можете увидеть количество элементов в переменной, которую вы ввели, используя функцию LENGTH. Однако, если вам нужна длина синхронизации, вам нужно будет разделить это число на частоту дискретизации.

0 комментариев

Прямая ссылка на этот ответ

может ли кто-нибудь сказать, как изменить размер кадра по умолчанию 1024 аудиосигнала на требуемый размер кадра (1024*x), где x кратен 2.

Читайте также: