Определить объем памяти для хранения цифрового аудиофайла, время воспроизведения которого составляет 2 минуты

Обновлено: 09.07.2026

Эта утилита вычисляет размер аудиофайлов (как несжатых, так и аудиофайлов PCM/IEEE FP, таких как .WAV/ .W64/ .RF64, .AIFF/.AIF, а также файлов со сжатием с потерями, таких как MP3, WMA, AAC и OGG Vorbis), в зависимости от продолжительности записи и выбранных вами настроек файла:

**N.B.** Если вы ищете калькулятор для обратного действия (т. е. для расчета продолжительности из доступного места), перейдите сюда.

Введите продолжительность файла в часах, минутах, секундах и миллисекундах. Для расчета размера несжатых файлов также требуется информация о частоте дискретизации, битовой глубине и канале (но не битовая скорость, которая рассчитывается автоматически). Помимо продолжительности, для расчета размера сжатых файлов, таких как MP3 и т. д., требуется только информация о скорости передачи (в этом случае информация о частоте дискретизации, разрядности и канале игнорируется). Для сжатых файлов, закодированных с помощью CBR (постоянная скорость передачи данных), отображаемый размер файла должен быть максимально точным (независимо от переменных, таких как информация заголовка и т. д. — см. ниже). Для сжатых файлов, закодированных с помощью VBR (переменная скорость передачи данных), отображаемый размер файла может быть немного менее точным, поскольку в этом случае скорость передачи данных может варьироваться в зависимости от программного материала.

Обратите внимание, что размер файла, сообщаемый вашим устройством, может немного отличаться от показанного из-за методов размещения файлов, возможных различий в количестве информации в заголовке и/или того факта, что некоторые операционные системы рассчитывают место на жестком диске иначе, чем другие (например, , некоторые считают его в двоичном формате и называют 1 КБ 1024 байтами, в то время как другие (и большинство производителей жестких дисков) вычисляют его в десятичном формате и называют 1 КБ 1000 байтами) — этот калькулятор поддерживает оба метода.

Если вы найдете это полезным и/или у вас есть какие-либо комментарии или предложения, дайте мне знать через раздел комментариев ниже (пожалуйста, ознакомьтесь с правилами нашего веб-сайта перед публикацией).

Дайте мне знать, что вы думаете. Отменить ответ

Этот сайт использует Akismet для уменьшения количества спама. Узнайте, как обрабатываются данные ваших комментариев.

74 мысли о «Калькуляторе размера аудиофайла»

Очень полезно, спасибо! Я получаю SD-карту для своего Zoom R8, и меня беспокоит, будет ли достаточно скорости записи U1. Выяснилось, что я могу одновременно записывать 64 канала в формате 24 бит/48 кГц, и карта U1 по-прежнему прекрасно с этим справится.

Я потратил время, чтобы выяснить формулы, используемые этим сайтом, чтобы найти размер файла аудио и максимально возможную длину на основе размера диска и скорости передачи данных, что я смог сделать благодаря этому сайту.
Благодаря этому я узнал, как рассчитать максимальный битрейт аудио на основе длины аудио и размера диска. Вот формула, если вам это нужно по какой-то причине:

((размер файла в мегабайтах / длина в секундах) * 1000) * 8

Если бы не этот сайт, я бы не смог его сделать, так как раньше не мог уложить в голове, как это сделать.

Если вам интересно, какой смысл в возможности рассчитать максимально возможный битрейт, это полезно для сжатия аудио до определенного размера файла, обычно для того, чтобы вы могли обойти ограничение размера файла на веб-сайте. Но для меня это полезно, потому что значительно упрощает сжатие аудио до размеров файлов, пригодных для потоковой передачи.

Рад, что вы нашли этот сайт полезным и нашли решение – вы действительно правы. Однако вашу формулу можно упростить для ясности. На самом деле, самые простые формулы для расчета размера файла, продолжительности или битрейта будут такими:

Размер файла (бит) = продолжительность (секунды) * скорость передачи данных (бит в секунду)

Продолжительность (секунды) = размер файла (биты) / скорость передачи данных (биты в секунду)

Битрейт (бит в секунду) = размер файла (бит) / продолжительность (секунды)

Это именно то, что мне было нужно. Я рассматриваю возможность реализации звукового сэмплера на плате микроконтроллера, и мне нужно знать, какая емкость мне понадобится. Это был идеальный инструмент для этого. Спасибо!

Очень полезно! Спасибо

Это то, что я искал. Спасибо.

Отличный инструмент! Спасибо за его создание.

Спасибо за создание, это действительно полезный ресурс, к которому я регулярно возвращаюсь. Есть ли шанс, что вы могли бы добавить 256 кГц в качестве частоты дискретизации? Это довольно часто встречается в ультразвуковых приборах.

Хорошо, Сэм, готово. 😉

Здравствуйте,
У меня вопрос об аудиоканалах.
Как может быть 65535 каналов в аудиофайле?

Здравствуйте, Saturn, потому что 65535 действительно является максимальным числом аудиоканалов, поддерживаемым форматом файла .wav. Дополнительную информацию можно найти здесь.

Звукорежиссер решил записать фоновый звук для предстоящего фильма в стереофоническом режиме. Для создания высококачественного несжатого цифрового аудиофайла звукоинженер будет использовать разрядность 16 бит и частоту дискретизации 88 кГц. Каким будет приблизительный результирующий размер файла для 1.5 минут 37 секунд звуковой дорожки?

Здравствуйте, roury! Конечно, просто введите эти данные в калькулятор выше.

да, извините, я думал, что сделал что-то не так, но теперь все хорошо.. большое спасибо

Здравствуйте, Колин! Я разрабатываю студию и пытаюсь рассчитать пропускную способность, которую должен иметь мой локальный сервер, чтобы иметь возможность запускать большую сессию оркестрового озвучивания — 400 дорожек (96 кГц/24 бит) на двух Рабочие станции Protools и видео 4K на третьей — чтобы прийти к выводу, какое серверное решение будет правильным.

Привет, Адитья! Всегда полезно знать, как люди используют мои онлайн-инструменты. Удачи вашему проекту!

Привет, Колин!
Я пытаюсь загрузить файлы аудиокниг в систему продажи аудиокниг Findaway Voices. Я автор и понятия не имею о битах и т. д. Файлы 129-битные. Компании нужны файлы в 192000 бит. Это звучит так, как будто есть так много различий. Что я делаю? Надеюсь, вы можете помочь. Спасибо.
КДж

Здравствуйте, KJ,
Похоже, вы записали свою аудиокнигу в формате mp3, да? С точки зрения кодирования mp3-файла, описание файла как 128 или 129 «бит» не имеет смысла. Важно понимать, что кодеки mp3-файлов (CODEC — сокращение от encode/decode) обычно выражаются в кбит/с, что означает килобиты В СЕКУНДУ, другими словами, это количество данных, которые передаются в потоке в секунду при воспроизведении. файл, поэтому он называется битрейтом — он НЕ относится к общему количеству битов в самом файле; размер файла определяется длительностью закодированного звука, умноженной на скорость передачи данных. Основная формула: Размер файла (биты) = Продолжительность (секунды) * Скорость передачи данных (биты в секунду).

Это также звучит так, как будто вы, возможно, использовали переменную скорость передачи данных (VBR), потому что 129 кбит/с (файлы не могут иметь 129 бит/с — это было бы смехотворно низкой скоростью передачи данных) не совсем стандартно для CBR (непрерывная скорость передачи битов). скорость) mp3-файлов — хотя стандартная скорость передачи данных — 128 кбит/с, это может быть просто ошибкой отчета.

Я ознакомился с их техническими требованиями, и вашему дистрибьютору, похоже, требуются либо файлы mp3 со скоростью 192 кбит/с, либо файлы FLAC с частотой дискретизации 44,1 кГц (и, по-видимому, поскольку они не уточняют это, 16-битные ).

В любом случае, похоже, что вы записали свои файлы со скоростью 128 или 129 кбит/с вместо требуемых 192 кбит/с, поэтому вам нужно будет исправить их перед отправкой. Поскольку mp3 — это формат с потерями, перекодирование в mp3 со скоростью 192 кбит/с неизбежно приведет к ухудшению качества (что может быть для вас приемлемым или неприемлемым). Однако способ, которым я справился бы с этим (за исключением перезаписи), состоял бы в том, чтобы преобразовать файлы в WAV (с частотой 44,1 кГц / 16 бит), а затем в FLAC (который сжат, но без потерь) и использовать это как формат доставки — таким образом вы не потеряете качество исходных файлов.

Поскольку вы спрашиваете моего совета; Я предлагаю вам в будущем всегда записывать файлы WAV (несжатые и без потерь), а НЕ mp3 (которые и сжаты, и с потерями). MP3 хорош как формат доставки, но (по нескольким причинам, слишком сложным, чтобы вдаваться в них) далек от идеального формата записи. Лично я всегда записывал разговорный материал (музыка немного отличается) в виде стандартного WAV-файла с частотой дискретизации 44,1 кГц/16 бит или 48 кГц/16 бит. Затем вы можете конвертировать в mp3 (или любой другой формат, который может потребоваться) для доставки, сохраняя исходные файлы WAV нетронутыми на случай, если вам может понадобиться преобразовать их в другой формат позже без потери качества звука.

Варианты: моно (один канал) или стерео (два канала, правый/левый): чередование находится в одном файле; или сплит-стерео находится в двух отдельных файлах.

Частота дискретизации указана в герцах (Гц) или "циклах в секунду":
Используйте 44 100 Гц (44,1 кГц) = частота дискретизации качества CD для профессионального аудио. Каждый семпл содержит 16 бит информации.

Размеры файлов
Это огромный объем информации: 2 дорожки * 44 100 сэмплов в секунду * 16 бит/сэмпл = 1 411 200 бит/с.
Стереозвук CD-качества, 16 бит, 44,1 кГц = 176 кбайт/сек слишком высок для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (28,8
модем ~2,88 кбайт/сек). сек). См. Сжатие ниже.

Хорошее эмпирическое правило: каждая минута 16-битного стереозвука с частотой 44,1 кГц требует около 10 МБ дискового пространства.
Таким образом, на пустой 200-мегабайтный жесткий диск можно записать чуть менее 20 минут стереозвука CD-качества (точно 19 минут 20 секунд).

Качество звука CD (стерео, 16 бит, 44,1 кГц = 176 кбайт/сек) слишком высокое для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (модем 28,8
~ 2,88 кбайт /сек).
Аудиофайлы, сжатые в другие форматы, такие как rm или MP3, могут быть меньше, занимать меньше места на диске и передаваться быстрее.

../../index.html	sonic1ac.wav	155 КБ	13 сек
	sonic.rm (то же, что и выше)	65 КБ	13 секунд
большая разрядность	sonic1ac.mp3 (то же, что и выше)	225 КБ	13 секунд
../audio/heartsounds.html	00b10001.wav	62 КБ	3 секунды

Возможные компромиссы между качеством звука и размером файла:
В зависимости от вашего предполагаемого использования звука вы можете пожертвовать некоторым качеством, чтобы уменьшить объем информации, необходимой для оцифрованного звука. Вот некоторые вещи, которые следует учитывать:

Стерео часто можно свернуть в монофонический (однодорожечный) аудиофайл. Если две дорожки суммируются, вся звуковая информация будет сохранена, но информация о направлении будет потеряна. Поскольку компьютерные динамики часто не разнесены на подходящее расстояние, даже стереосигналы скомпрометированы. Переход в моно уменьшит размер файла вдвое.
Частота дискретизации: компьютеры часто предлагают частоты дискретизации 44K, 22K, 11K и 6K (или числа, очень близкие к этим). Частота дискретизации является важным фактором качества звука цифрового файла. Для полнодиапазонных звуков необходимы скорости 22K или 44K, в то время как речь часто приемлема при 11K. Когда вы снижаете частоту дискретизации, звук теряет свои высокие частоты, поэтому для воспроизведения криков певчих птиц вам может понадобиться 44K, но для озвучивания вполне подойдет 11K. Чтобы быть точным, частота дискретизации должна быть в два раза выше самой высокой частоты, которая должна быть оцифрована.

Для преобразования файла можно использовать кодировщик MP3. Но его битовая глубина составляет 128, поэтому размер файла может увеличиться.

Расчет требований к свободному пространству на жестком диске:
Для работы с компьютерным цифровым звуком требуется большое количество места на жестком диске. Если вы планируете создавать новые аудиофайлы на диске, вам потребуется достаточно места на жестком диске для их хранения.

Пример: я записал 13 секунд звука в коридоре ITC, 16-битное стерео, 44 100 Гц. Это файл размером 2,5 М, и его определенно нужно сжать.

Требования к аудиофайлам в байтах в секунду:

Качество звука CD (стерео, 16 бит, 44,1 кГц = 176 кбайт/сек) слишком высокое для CD-ROM (2x привод ~ 200 кбайт/сек устойчиво) или модемов (модем 28,8
~ 2,88 кбайт /сек).

Сжатие кодеком (компрессор/декомпрессор), возможно, для уменьшения размера файла:
Сжатие IMA работает достаточно хорошо для компакт-дисков, но является кросс-платформенным только с QuickTime.
MPEG 1 -- качество компакт-диска
MPEG 3 = MP3 и RealAudio являются наиболее популярными из многочисленных решений для веб-аудио.
Для музыки MIDI является лучшим решением как для компакт-дисков, так и для доставки через Интернет.
Кредиты для вышеуказанного материала:

С таким количеством доступных аудиоформатов, какой из них вам следует использовать? Ответ не так прост.

Объяснение формата аудиофайла

В этой статье мы рассмотрим наиболее распространенные форматы аудиофайлов, используемые сегодня, и выясним, действительно ли существует лучший аудиоформат.

Что такое формат аудиофайла?
Что считается HD-аудио и при чем здесь формат аудиофайла?
Понять разницу между файлами несжатыми, с потерями и файлами без потерь
Сравнение популярных типов аудиофайлов
Какой формат песен следует использовать?
Какие аудиоформаты лучше всего?

Если вы пользуетесь цифровым аудио в течение нескольких лет, ваш компьютер будет заполнен цифровыми музыкальными файлами в различных форматах. В большинстве случаев вам не нужно об этом думать, если ваш медиаплеер может их прочитать. Но по мере того, как вы погружаетесь глубже в это аудиофильское увлечение, вы можете начать задаваться вопросом: «Какой аудиоформат лучше всего подходит для моей музыки?».

Что ж, эта статья для вас.

Давайте разбираться.

Быстрые ссылки

Используйте эти быстрые ссылки для быстрой навигации по статье.

Что такое формат аудиофайла?

Формат аудиофайла – это формат файла для хранения цифрового звука в компьютерной системе, такой как ПК, мобильный телефон и т. д. Аудиоинформация хранится в виде битов в файле и может называться битовой структурой.

Эта битовая раскладка может быть несжатой или сжатой с использованием кодирования без потерь или с потерями.

Форматы аудиофайлов и качество звука

Не все форматы аудиофайлов одинаковы. Частота дискретизации и битовая глубина определяют разрешение, частотный диапазон и динамический диапазон звука. Стандарт качества звука CD – частота дискретизации 44,1 кГц и разрядность – 16 бит.

Все, что ниже этого, и ваше аудио не считается высоким разрешением (HD) или высоким разрешением. Многие форматы аудиофайлов используют настройки ниже, чем HD. Причины объясняются в следующих разделах.

Вся музыка, которую вы слушаете, должна иметь как минимум частоту дискретизации 44,1 кГц (44 100 Гц). Эта скорость захватывает частоты до 22 050 Гц, что чуть выше предела человеческого слуха (~ 20 кГц).

Загружаемые HD-файлы

Если вы меломан, у вас есть возможность приобрести звук с частотой дискретизации до 192 кГц и разрядностью 24 бита. Хотя они не получили широкого распространения, 24-битные файлы доступны в некоторых музыкальных магазинах, таких как:

Пока нет большого спроса на файлы с частотой дискретизации выше 48 кГц. Хотя они предлагают более высокое качество, они также требуют гораздо больше места для хранения. Многие создатели контента не публикуют аудио с частотой дискретизации выше 44,1 кГц.

Потоковое HD

Если вы не заинтересованы в загрузке файлов и ограничении ресурсов вашего компьютера, вы можете рассмотреть возможность потоковой передачи HD-аудио.

Существует несколько потоковых сервисов, предлагающих потоковое вещание в формате HD, например, Amazon HD, Tidal и Qobuz. Музыкальная библиотека, которую они предлагают в этом формате, часто меньше, чем та, что предлагает библиотека без HD.

3 основных группы форматов аудиофайлов

Форматы аудиофайлов можно разделить на 3 основные группы:

В таблице представлены все форматы аудиофайлов и их типы кодирования:

Формат	Кодировка
WAV	Без сжатия
AIFF	Без сжатия
ALAC	Без потерь
FLAC	Без потерь
MP3	Потери файлов
AAC	с потерями
WMA	с потерями
OGG	Потери

Несжатый аудиоформат

Если ваши аудиофайлы не сжаты, они полностью идентичны цифровым копиям, созданным производителем.

Несжатые форматы создаются с использованием импульсно-кодовой модуляции, PCM. Это тот же формат, который используется для компакт-дисков и DVD-дисков.

Итак, если в вашей мастер-студии есть следующие элементы:

1100110011000000

Дорожка PCM будет содержать точно такие же биты:

1100110011000000

Выборка и квантование сигнала для PCM (Из: Wikipedia)

Большой размер файла

Поскольку PCM несжатый, несжатые файлы занимают огромное место на диске. Единственным подходящим портативным носителем для хранения таких файлов являются такие диски, как CD, DVD или даже диски Blu-ray. (RIP HD DVD)

Сжатый аудиоформат без потерь

При кодировании без потерь или сжатии без потерь вы получаете лучшее из обоих миров. Файлы без потерь сжимаются, что уменьшает их размер и упрощает их хранение и распространение.

При воспроизведении их можно декодировать до исходного несжатого состояния без ухудшения качества сигнала.

Думайте об этом как о ZIP-файле. Когда вы архивируете документы, они сжимаются, а размер файла уменьшается. Когда вы «разархивируете» или декодируете их, ваши исходные документы воссоздаются без каких-либо изменений.

Как работает сжатие без потерь?

Сжатие без потерь похоже на волшебство. Как выбрасывать данные, но воссоздавать их точно таким же образом? Сжатие с потерями также отбрасывает данные, и они не могут воссоздать исходную копию.

Оказывается, при сжатии без потерь данные удаляются разумным образом, что позволяет воссоздать исходную копию. Это достигается путем выявления закономерностей и более краткого представления данных.

Существует сложный статистический анализ для выявления закономерностей сжатия, но ниже приведен простой пример, демонстрирующий, как разумно отбрасывать данные.

Биты для основной студийной дорожки:

1100011110000000

Кодер без потерь может удалить все 0 и заменить их символом, который занимает меньше места, тем самым уменьшая размер файла:

Когда декодер получает вышеуказанные биты, он снова заменяет символ на 0, чтобы воссоздать исходные биты.

Для получения дополнительной информации о различиях между звуком без потерь и несжатым звуком вы можете прочитать это.

Помимо использования для прослушивания музыки, форматы без потерь полезны для архивирования аудиофайлов. В процессе сжатия данные не теряются. Хотя вы не получаете такого значительного уменьшения размера, как сжатие с потерями, сжатие без потерь все же может привести к впечатляющему уменьшению размера файла до 60%.

Сжатый аудиоформат с потерями

При кодировании с потерями или сжатии с потерями используется психоакустический анализ. Алгоритмы обнаруживают содержимое, которое считается неслышимым из-за маскирования (звуки, которые не слышны из-за других звуков). Затем эта информация отбрасывается.

Преимущество заключается в том, что размер файла можно значительно уменьшить, до 1/10 исходного размера. Однако невозможно восстановить потерянные данные и восстановить файл в исходном несжатом формате позже.

Обратной стороной этого является то, что это влияет на качество музыки. Показателем качества потокового аудио является битрейт, измеряемый в килобитах в секунду, кбит/с.

Формула битрейта = частота дискретизации x битовая глубина x количество каналов

< /tr>

Формат	Макс. битрейт
MP3	320kbps< /td>
AAC	320kbps
OGG	500kbps
WMA	576kbps

При скорости передачи данных 320 кбит/с или выше, в зависимости от качества вашего воспроизводящего оборудования, трудно отличить файл, закодированный с потерями, от несжатого файла.

Чем ниже битрейт, тем больше данных выбрасывается, тем хуже качество звука.

Многие магазины цифровой музыки и потоковые сервисы, такие как Spotify, предлагают/используют битрейт не более 320 кбит/с. Это снижает качество музыкального контента, напрямую влияя на качество прослушивания.

Для некоторых эта потеря качества не является проблемой, а иногда и вовсе незаметной. Для случайного прослушивания это может быть приемлемо.

Если вы увлечены музыкой и/или вложили средства в качественное оборудование для воспроизведения, первостепенное значение имеет исходный материал самого высокого качества.

Сделав эти различия, давайте рассмотрим различные форматы аудиофайлов.

WAV

WAV расшифровывается как Waveform Audio. Файлы в этом формате также называются волновыми файлами, их расширение «.wav». Разработанный IBM и Microsoft, это был один из первых типов аудиофайлов, разработанных для ПК.

Хотя это может быть контейнер для сжатых или несжатых файлов, он обычно используется в качестве контейнера для несжатых файлов PCM, чтобы его можно было воспроизводить в Windows.

Он поддерживает частоту дискретизации до 192 кГц и разрядность до 32 бит. Это формат HD, никакой дополнительной обработки или кодирования не применяется.

Поскольку он существует с 1991 года, он совместим со всеми проигрывателями, оборудованием и программным обеспечением, которые могут работать с цифровыми файлами.

Единственным недостатком всех несжатых форматов является то, что размеры файлов могут быть большими.

Сравнение размеров аудиофайлов (от: ask.audio)

В результате они занимают больше места на жестком диске вашего компьютера. Кроме того, они занимают больше времени для загрузки и скачивания в Интернете и используют большую пропускную способность.

В предыдущей записи в блоге Рахул рассказал об аудиокодеках и транскодировании, некоторые из которых «сжимают» аудио для экономии места на диске. Но что именно эти аудиокодеки делают с точки зрения сжатия и что в первую очередь определяет качество аудиофайла?

Когда дело доходит до обработки звука, существует множество терминов, которые большинство людей слышали раньше, но не понимают. Раньше я был одним из таких людей, прежде чем мне пришлось работать над обработкой звука. С этой целью я хотел поговорить о некоторых из этих терминов, описать, что они из себя представляют, и продемонстрировать, что они означают для качества аудиозаписи или потоковой передачи. В оставшейся части этого поста мы будем предполагать, что имеем дело только с одним каналом несжатого аудио.

(1) Частота дискретизации / частота дискретизации

Первым термином, который мы часто слышим, является частота дискретизации или частота дискретизации, которые относятся к одному и тому же. Некоторые из значений, с которыми вы могли столкнуться, это 8 кГц, 44,1 кГц и 48 кГц. Какова именно частота дискретизации аудиофайла?

Частота дискретизации — это количество аудиозаписей, записываемых каждую секунду. Он измеряется в выборках в секунду или Герцах (сокращенно Гц или кГц, где один кГц равен 1000 Гц). Аудиосэмпл — это просто число, представляющее измеренное значение акустической волны в определенный момент времени. Очень важно отметить, что эти выборки берутся в моменты времени, равноотстоящие друг от друга в секунду. Например, если частота дискретизации составляет 8000 Гц, недостаточно, чтобы в течение секунды производилось 8000 сэмплов; они должны быть сняты с интервалом ровно 1/8000 секунды. Число 1/8000 в этом случае будет называться интервалом выборки (измеряемым в секундах), а частота выборки — это просто мультипликативное обратное значение.

Частота дискретизации аналогична измерению частоты кадров или FPS (кадров в секунду) для видео. Видео – это просто серия изображений, обычно называемых в этом контексте "кадрами", отображаемых один за другим очень быстро, чтобы создать иллюзию (по крайней мере, для нас, людей) непрерывного непрерывного движения или движения.

Несмотря на то, что частота дискретизации аудио и частота кадров видео одинаковы, обычный числовой минимум для гарантированного удобства использования в каждом из них сильно различается. Для видео требуется минимум 24 кадра в секунду, чтобы гарантировать точное изображение движения; меньше этого, и движение может казаться прерывистым, и иллюзия непрерывного непрерываемого движения не может поддерживаться. Это особенно верно, чем больше движения происходит между кадрами. Кроме того, в видео с частотой 1 или 2 кадра в секунду могут быть «доли секунды», которые гарантированно будут пропущены между кадрами.

Для аудио минимальное количество выборок в секунду для однозначного представления английской речи составляет 8000 Гц. Использование меньшего значения приведет к тому, что речь может быть непонятна по целому ряду причин, одна из которых заключается в том, что похожие высказывания не будут отличимы друг от друга. Более низкие частоты дискретизации смешивают фонемы или звуки языка, которые обладают значительной высокочастотной энергией; например, при частоте 5000 Гц трудно отличить /s/ от /sh/ или /f/.

Поскольку мы упомянули видеокадры, следует уточнить еще один термин — аудиокадры. Хотя звуковые образцы и звуковые кадры измеряются в герцах, это не одно и то же. Аудиокадр – это группа аудиосэмплов за определенный период времени, которые поступают из одного или нескольких аудиоканалов.

Наиболее распространенными значениями частоты дискретизации являются вышеупомянутые 8 кГц (чаще всего для телефонной связи), 44,1 кГц (чаще всего для музыкальных компакт-дисков) и 48 кГц (чаще всего для звуковых дорожек в фильмах). Более низкие частоты дискретизации означают меньше выборок в секунду, что, в свою очередь, означает меньшее количество аудиоданных, поскольку для представления аудио требуется меньшее количество точек выборки. Частота дискретизации выбирается для конкретного приложения в зависимости от того, какие акустические артефакты необходимо зафиксировать. Для некоторых акустических артефактов, таких как речевые высказывания, требуется более низкая частота дискретизации, чем для акустических артефактов, таких как музыкальная мелодия на музыкальном компакт-диске. Важно отметить, что более высокие частоты дискретизации требуют больше места для хранения и вычислительной мощности, хотя сейчас это может быть не такой серьезной проблемой, как раньше, когда цифровая память и вычислительная мощность были главными соображениями.< /p>

(2) Глубина выборки / Точность выборки / Размер выборки

В дополнение к частоте дискретизации, то есть количеству точек данных аудио, которые у нас есть, существует также глубина дискретизации. Измеряемая в битах на сэмпл, глубина сэмпла (также известная как точность сэмпла или размер семпла) является вторым важным свойством аудиофайла или потока и представляет уровень детализации или «качество» каждого семпла. Как мы упоминали выше, каждый звуковой образец — это просто число, и хотя наличие большого количества чисел полезно для представления звука, вам также необходимо, чтобы диапазон или «качество» каждого отдельного числа был достаточно большим для представления каждого образца или точки данных. точно.

Что означает «качество»? Для звукового образца это просто означает, что звуковой образец может представлять более высокий диапазон амплитуд. Глубина выборки 8 бит означает, что у нас есть 2 ^ 8 = 256 различных амплитуд, которые может представлять каждый звуковой образец, а глубина выборки 16 бит означает, что у нас есть 2 ^ 16 = 65 536 различных амплитуд, которые может представлять звуковой образец, и и так далее для большей глубины выборки. Наиболее распространенная глубина выборки для аудио телефонии составляет 16 бит и 32 бита. Чем больше четких амплитуд в цифровой записи, тем ближе звук цифровой записи к исходному акустическому событию.

(3) Битрейт

Связывание частоты дискретизации и глубины дискретизации представляет собой битрейт, который является просто произведением обоих. Поскольку частота дискретизации измеряется в выборках в секунду, а глубина выборки измеряется в битах на выборку, поэтому она измеряется в (выборки в секунду) x (биты в выборке) = биты в секунду, сокращенно бит/с или кбит/с.Стоит отметить, что, поскольку глубина выборки и битрейт связаны, они часто, хотя и ошибочно, используются взаимозаменяемо.

Скорость передачи аудио зависит от приложения. Приложения, требующие высокого качества звука, такие как музыка, обычно имеют более высокую скорость передачи данных, что обеспечивает более высокое качество или «более четкое» звучание. Звук телефонии, в том числе колл-центров, не требует высокой скорости передачи данных, поэтому скорость передачи данных при обычном телефонном звонке обычно намного ниже, чем у музыкального компакт-диска. Ни для частоты дискретизации, ни для битрейта более низкие значения могут (буквально) звучать хуже, но опять же, в зависимости от приложения, более низкие значения экономят место на диске и/или вычислительную мощность.

В целом, что на самом деле означает сжатие, когда речь идет об аудио? Сжатые аудиоформаты, такие как AAC или MP3, имеют битрейт, который несколько меньше истинного произведения частоты дискретизации и глубины дискретизации. Форматы достигают этого за счет «хирургического» удаления информации из потока битов на основе восприятия, что означает, что --- в динамических контекстах --- те частоты или амплитуды, которые не слышны человеческим ухом по биологическим причинам, не сохраняются, что приводит к уменьшению общего размера файла.

Спасибо Корнелу Ласковски, главному научному сотруднику Voci, за рассмотрение технических деталей этой статьи.

Раги Моркос

Рэги Моркос — инженер-программист, работающий в исследовательском коллективе Voci. Он разрабатывает веб-демонстрации новых и будущих речевых технологий, создает автоматизированную инфраструктуру проверки и тестовые примеры, а также создает инструменты подготовки данных, которые взаимодействуют с существующей линейкой продуктов Voci. Его обязанности также распространяются на область машинного обучения, где он работает над анализом очередности и определением возраста по речи.

Не позволяйте выбору ошеломить вас. Если вы просто слушаете или занимаетесь микшированием и мастерингом, найдите формат аудиофайла, который соответствует вашим потребностям.

Основы качества звука.

Аудиокодеки — это программы, которые сжимают данные для передачи и распаковывают их на принимающей стороне. Их скорость измеряется тысячами битов, обрабатываемых в секунду, известная как «битрейт» или «кбит/с», и это число варьируется даже в пределах одного формата. Как правило, более низкий битрейт означает файл меньшего размера, но это также означает, что при сжатии теряется больше данных (звука).

Другими важными факторами являются частота дискретизации и разрядность. Частота дискретизации — это количество выборок (амплитуды сигнала или «звука») в секунду. Битовая глубина — это количество битов на сэмпл. Чем выше это число, тем полнее (и, возможно, громче) звук.

Форматы с потерями.

В аудиоформатах с потерями данные теряются при передаче. Они не распаковываются до исходного размера файла, поэтому в конечном итоге они становятся меньше, а некоторые звуковые волны теряются. Художники и инженеры, которые пересылают аудиофайлы туда и обратно, предпочитают не использовать форматы с потерями, потому что файлы ухудшаются при каждом экспорте.

MP3
MP3 (MPEG-1 Audio Layer III) — самый популярный из форматов с потерями. Файлы MP3 работают на большинстве устройств, и их размер может составлять всего одну десятую размера файлов без потерь. MP3 подходит потребителю, так как большая часть звука, который он пропускает, неслышна, но это не тот случай, когда речь идет о битовой глубине. «Файлы MP3 могут быть только до 16 бит, а это не то, с чем вы хотите работать», — говорит продюсер, микшер и инженер Гас Берри. «Вы хотите работать как минимум в 24-битном или более высоком разрешении при записи и микшировании».

AAC
Advanced Audio Coding, или файлы AAC (также известные как MPEG-4 AAC), занимают очень мало места и подходят для потоковой передачи, особенно на мобильные устройства.Формат AAC, требующий менее 1 МБ музыки в минуту и звучащий лучше, чем MP3, с тем же битрейтом, используется iTunes/Apple Music, YouTube и Android.

Ogg Vorbis
Ogg Vorbis — это бесплатный аудиокодек с открытым исходным кодом, который использует Spotify. Это отлично подходит для потоковой передачи, но сжатие приводит к некоторой потере данных. Эксперты считают его более эффективным форматом, чем MP3, с лучшим звуком при том же битрейте.

Форматы без потерь.

Эти файлы распаковываются до исходного размера, сохраняя качество звука. Профессионалы в области аудио хотят использовать все исходные звуковые волны, поэтому они предпочитают звук без потерь. Эти файлы могут быть в несколько раз больше, чем MP3. Битрейт без потерь зависит от громкости и плотности музыки, а не от качества звука.

FLAC
Бесплатный аудиокодек без потерь предлагает сжатие без потерь, он бесплатный и с открытым исходным кодом.

ALAC
Аудиокодек Apple Lossless Audio Codec позволяет выполнять сжатие без потерь, но работает только на устройствах Apple.

Несжатые форматы.

Эти файлы остаются одного размера от источника до места назначения.

WAV
WAV (аудиофайл формы волны) сохраняет все исходные данные, что делает его идеальным форматом для звукорежиссеров. «WAV имеет более широкий динамический диапазон и большую битовую глубину», — говорит креативный продюсер и звуковой микшер Ло Бутилетт о своем предпочтительном формате. «Это высочайшее качество, — соглашается Берри. «Он может быть 24-битным, 32-битным, вплоть до частоты дискретизации 192 кГц и даже выше в наши дни». Если вы сотрудничаете и отправляете файлы туда и обратно, WAV сохраняет свой временной код. Это может быть особенно полезно для видеопроектов, в которых важна точная синхронизация.

AIFF
Первоначально созданные Apple, файлы AIFF (Audio Interchange File Format) похожи на файлы WAV в том смысле, что они сохраняют весь исходный звук и занимают больше места, чем файлы MP3. В них можно играть на компьютерах Mac и ПК, но они не содержат временных кодов, поэтому их не так удобно использовать для редактирования и микширования.

DSD
Direct Stream Digital — это несжатый аудиоформат высокого разрешения. Эти файлы кодируют звук с помощью модуляции плотности импульсов. Они очень большие, с частотой дискретизации в 64 раза больше, чем у обычного аудио компакт-диска, поэтому для них требуются первоклассные аудиосистемы.

PCM
Импульсно-кодовая модуляция, используемая для компакт-дисков и DVD-дисков, захватывает аналоговые сигналы и преобразует их в цифровые биты. До DSD считалось, что это максимальное приближение к полному качеству аналогового звука.

Код о цифровых аудиоформатах.

Если вы слушаете записи разговорных слов или просто слушаете неоптимизированные музыкальные файлы, вы можете выбрать сжатый формат и сэкономить место в своей музыкальной библиотеке. Если у вас более образованный слух и дорогое аудиооборудование, вам может понадобиться сжатие без потерь из-за его сочетания экономии места и точности. Если вы записываете или обрабатываете звук или настраиваете его на видео, всегда выбирайте формат без потерь или без сжатия. Независимо от ваших потребностей, для вас найдется формат аудиофайла.

Читайте также: