Укажите, для каких сетей используется кодек g 711, какие параметры в нем стандартизированы

Обновлено: 24.08.2025

Компания NTT разработала метод масштабируемого широкополосного кодирования речи, базовым уровнем которого является стандарт ITU-T G.711, а также с января выступает в качестве лидера по его стандартизации в ITU-T (Международный союз электросвязи, Сектор стандартизации электросвязи). 2007 г. В результате деятельности по стандартизации новый метод широкополосного кодирования речи, предложенный NTT и четырьмя другими организациями, был утвержден как ITU-T G.711.1 в марте 2008 г. В этой статье представлены предыстория и процесс до его утверждения. а затем описывает концепции, технические характеристики и оценку качества G.711.1.

†	NTT Cyber Space Laboratories Musashino-shi, 180-8585 Япония

1. Фон

Наряду с распространением сетей широкополосного доступа, основанных на оптоволокне или ADSL (асимметричная цифровая абонентская линия), службы IP-телефонии, использующие эти сети, такие как Hikari Denwa, все чаще используются в домашних условиях (IP: Internet протокол). На предприятиях многие из устаревших АТС (УАТС) также заменяются IP-УАТС или шлюзами VoIP (передача голоса по IP), установленными во внутренних сетях компании с пропускной способностью 100 Мбит/с и более. В результате услуги речевой связи, предоставляемые в IP-сетях, в настоящее время становятся популярными. Новое поколение таких сервисов требует новых алгоритмов кодирования речи, разработанных с упором на такие факторы, как более широкая полоса звуковых частот, меньшая задержка и меньшая сложность, а не на эффективность битрейта.

Сегодня большинство цифровых телекоммуникационных терминалов фиксированной связи и VoIP-терминалов, использующих транспортный протокол реального времени (RTP) в IP-сетях, способны работать с Рекомендацией ITU-T (Международный союз электросвязи, Сектор стандартизации электросвязи) G.711. *1 [1]. NTT Cyber Space Laboratories (далее именуемые NTT Labs) сосредоточились на том факте, что G.711 является наиболее широко используемым кодеком. В 2005 году компания разработала масштабируемый метод широкополосного кодирования речи*2 под названием UEMCLIP (встроенный кодер мю-закона для IP-коммуникаций с малой задержкой) [2], основным кодеком которого является G.711. (Преимущества масштабируемого кодирования описаны в разделе 3.) С тех пор мы пытались продвигать широкополосную речевую связь, внедряя этот кодек в терминал голосовой конференции NTT MB-1000 и высококачественные IP-телефоны, используемые в СПП (Next Generation сети) полевые испытания.

2. Процесс до утверждения .711.1

Чтобы обеспечить широкополосную речевую связь в коммерческих сервисах NGN, NTT Labs. предложил начать стандартизацию широкополосного кодирования речи, масштабируемого с помощью G.711, на собрании ITU-T, состоявшемся в январе 2008 года. Было признано, что такой кодек будет иметь преимущества в ситуациях, когда сосуществуют новые широкополосные терминалы и устаревшие терминалы G.711, а было согласовано начало стандартизации. После этого NTT выступил в качестве руководителя задачи и занимал две ответственные должности: модератора, отвечающего за координацию, и редактора, отвечающего за составление рекомендации. NTT и четыре другие организации — ETRI (Корея), France Telecom (Франция), Huawei Technologies (Китай) и VoiceAge (Канада) — совместно предложили алгоритм-кандидат, сочетающий UEMCLIP и технологии четырех других организаций. Тесты характеристик, проведенные в ITU-T с использованием субъективного прослушивания, подтвердили, что этот алгоритм отвечает всем требованиям в отношении качества прослушивания. В результате на собрании РГ3*3 ИК16 МСЭ-Т, состоявшемся в феврале 2008 года, было дано согласие на переход кодека-кандидата к процессу альтернативного утверждения (ААР)*4, который является окончательным процессом утверждения для стандартизации МСЭ-Т. . Этот AAP был завершен в марте 2008 г. То есть предложенный кандидат был утвержден в качестве нового стандарта ITU-T, G.711.1.

ИК16 МСЭ-Т РГ3: 16-я Исследовательская комиссия (ИК16) отвечает за вопросы, связанные со стандартизацией. к мультимедийным терминалам, системам и приложениям. Рабочая группа 3 (WP3) занимается общими вопросами кодирования мультимедиа.

AAP: Для технических стандартов применяется альтернативный процесс утверждения. Последний запрос комментариев проводится в режиме онлайн после получения согласия на собрании ИК МСЭ-Т. Это может сократить период до утверждения примерно до двух месяцев.

3. Концепции G.711.1

3.1 Возможности широкополосной речи

Поскольку полоса частот телефонного диапазона речи, закодированной по G.711, ограничена диапазоном от 300 Гц до 3,4 кГц, она имеет достаточное качество для обработки разговоров, но немного теряет четкость и естественность человеческого голоса. Первый приоритет для концепций, необходимых для G.711.1 была возможность обрабатывать широкополосную речь (от 50 Гц до 7 кГц), которая может передавать свойства, которые теряются в телефонном диапазоне. Он также должен передавать как музыку, так и звуки окружающей среды с высоким качеством прослушивания.

3.2 Масштабируемость битового потока с помощью G.711

Уже установлено несколько стандартов широкополосного кодирования речи, но их концепция не включает масштабируемость с помощью G.711. Если битовый поток базового уровня G.711 и поток расширенного уровня мультиплексируются для расширения полосы пропускания, широкополосная речь может быть получена с использованием всех частей битового потока, а речь телефонного диапазона может быть получена из части G.711 (рис. 1). Эта структура битового потока дает два преимущества, как описано ниже.

Рис. 1. Структура битового потока масштабируется с помощью G.711.

3.2.1 Транскодирование между G.711 и G.711.1

Пока широкополосные речевые терминалы полностью не заменят телефонные терминалы, оба типа терминалов будут продолжать сосуществовать. Кодек, который будет использоваться во время сеанса связи, обычно согласовывается между терминалами при установлении вызова. В ситуации сосуществования при переводе вызовов с широкополосных терминалов на унаследованные терминалы перекодирование потребуется после установления согласования (рис. 2). Такое транскодирование обычно выполняется следующим образом: декодирование потока битов с широкополосного терминала и повторное кодирование декодированных речевых сигналов в поток битов G.711 для традиционных терминалов. Для транскодирования между различными типами битовых потоков на медиашлюзе в сети в широкополосном случае можно было бы ожидать гораздо больше вычислений. Кроме того, нельзя игнорировать ухудшение качества, вызванное транскодированием. Однако введение структуры битового потока, масштабируемой с помощью битового потока G.711, как описано здесь, позволяет выполнять транскодирование только путем извлечения битового потока G.711. Это почти не требует дополнительных вычислений, и никогда не будет никакого ухудшения качества, вызванного повторным кодированием.

Рис. 2. Пример транскодирования при переводе вызова.

3.2.2 Широкополосное микширование речи

В многоточечной конференции процесс микширования должен выполняться на микшере сигналов. Как правило, микшер сигналов декодирует все потоки битов из всех местоположений, объединяет декодированные сигналы в один речевой сигнал, повторно кодирует объединенный сигнал в поток битов, а затем передает его во все места. Однако, чтобы избежать эхо-сигналов, генерируемых путем отправки обратно сигнала, полученного из каждого местоположения, смешанный сигнал для каждого местоположения должен быть подготовлен индивидуально путем удаления декодированного сигнала этого местоположения из полного сигнала и последующего его повторного кодирования. То есть для многоточечной конференц-связи между N различными точками необходимо одновременно выполнить все следующие процессы в микшерном сервере: N процессов декодирования, которые производят N речевых сигналов из N местоположений, N процессов микширования, которые подготавливают N смешанных сигналов для N местоположений. , и N процессов перекодирования, которые генерируют N битовых потоков для N местоположений. Поскольку существующие широкополосные речевые кодеки требуют гораздо большего объема вычислений, чем кодеки G.711, они требуют гораздо больших средств с точки зрения как стоимости, так и масштаба для предоставления систем и услуг многоточечной конференции, чем обычные широкополосные кодеки. Эта проблема широкополосного микширования речи может быть решена путем введения частичного микширования [2], разработанного NTT Labs. Как показано на рис. 3, частичное перемешивание осуществляется следующим образом. Поскольку объем вычислений, необходимых для декодирования и повторного кодирования G.711, намного меньше, основные битовые потоки G.711 объединяются с использованием обычного микширования. Обычное смешивание не применяется к улучшающему слою. Текущее местоположение говорящего определяется путем анализа декодированных сигналов G.711, а затем для всех местоположений используется расширенный битовый поток, полученный от места говорящего. Каждый битовый поток G.711, полученный обычным микшированием, и расширенный битовый поток из местоположения говорящего мультиплексируются и передаются в каждое место. Частичное микширование обеспечивает широкополосное микширование речи, просто добавляя небольшие вычисления, необходимые для определения местоположения говорящего, к обычным вычислениям G.711.

Рис. 3. Основная идея частичного смешивания.

3.3 Сокрытие потери пакетов

Скрытие потери пакетов необходимо для голосовой связи в реальном времени в IP-сети. В сети с наилучшими усилиями пакеты могут не достигать стороны получателя в нужное время. В этом случае речь будет прервана. Обычные системы VoIP обычно имеют буферы дрожания, чтобы свести к минимуму колебания задержки при поступлении пакетов. Однако увеличение буфера дрожания означало бы увеличение задержки речи, поэтому длина буфера не может быть увеличена без ограничений. G.711.1 имеет механизм для создания речевых сигналов без прерывания в условиях, когда может произойти потеря нескольких пакетов подряд.

3.4 Низкая задержка и низкие вычисления

Чем меньше задержка речи, возникающая из-за самого алгоритма кодирования речи, тем лучше качество разговора. Подтверждено, что длина кадра G.711.1 составляет 5 мс, поэтому длина речевого пакета устанавливается равной минимум 5 мс или кратной 5 мс. Алгоритмическая задержка, включая длину кадра, установлена на 11,875 мс.

Более низкая стоимость также является одним из важнейших факторов, способствующих распространению услуг широкополосной голосовой связи. Алгоритм G.711.1 предназначен для обработки речевых сигналов с минимальными вычислениями, насколько это возможно, поэтому его можно установить на недорогие процессоры цифровых сигналов. Сложность G.711.1, которая оценивается с помощью программного обеспечения моделирования с фиксированной точкой, составляет 8,70 WMOPS (взвешенный миллион операций в секунду)*5 в худшем случае. Это сравнимо с ITU-T G.722, который является первым широкополосным методом кодирования речи, когда-либо стандартизированным в ITU-T.

*5	WMOPS: сокращение от взвешенного миллиона операций в секунду. Указывает, сколько операций, имитирующих операции цифрового сигнального процессора, выполняется в секунду.

4. Технические описания G.711.1

Блок-схема высокого уровня G.711.1 показана на рис. 4. Входной сигнал, дискретизированный с частотой 16 кГц, обрабатывается покадрово с длительностью кадра 5 мс. Входной сигнал разделяется на низкочастотные и высокочастотные сигналы с помощью анализирующего квадратурного зеркального фильтра. Сигнал нижней полосы кодируется встроенным кодером нижней полосы с импульсно-кодовой модуляцией (ИКМ), который генерирует основной битовый поток, совместимый с G.711, со скоростью 64 кбит/с и расширенный битовый поток нижней полосы со скоростью 16 кбит/с. Сигнал верхней полосы преобразуется в область модифицированного дискретного косинусного преобразования (MDCT), а коэффициенты частотной области кодируются кодером MDCT верхней полосы, который генерирует расширенный битовый поток верхней полосы со скоростью 16 кбит/с. Битовый поток расширения нижней полосы улучшает качество речи в нижней полосе (от 50 Гц до 4 кГц), а уровень улучшения верхней полосы добавляет широкополосные возможности (от 4 до 7 кГц). Эти три битовых потока мультиплексируются и передаются в декодер. Битовый поток, полученный декодером, демультиплексируется в три битовых потока. Битовый поток G.711 и битовый поток расширения нижней полосы передаются встроенным декодерам ИКМ нижней полосы. Битовый поток расширения верхней полосы передается в декодер MDCT верхней полосы, а декодированный сигнал в частотной области затем подается на обратный MDCT (IMDCT), и получается сигнал верхней полосы во временной области. Сигналы нижних и верхних частот объединяются с помощью синтезирующего квадратурного зеркального фильтра для создания широкополосного выходного сигнала. Таким образом, может быть достигнута одна из концепций, упомянутых выше, масштабируемость битового потока с помощью G.711. Четыре режима, отличающиеся частотой дискретизации и битрейтом, и соответствующие комбинации трех битовых потоков приведены в таблице 1. Описанная здесь структура в основном аналогична структуре UEMCLIP.

Рис. 4. Блок-схема высокого уровня G.711.1.

Таблица 1. Комбинация битовых потоков для каждого режима.

Основные технологии, представленные в G.711.1, перечислены ниже.

Формирование шума с использованием линейного предсказания применяется к встроенному ИКМ-кодеру нижней полосы. Он может визуально подавлять шум квантования G.711 при кодировании, а также улучшать качество прослушивания речи, декодированной на устаревших телефонных терминалах.
Кодер MDCT верхней полосы эффективно сжимает входные коэффициенты MDCT со скоростью 16 кбит/с, используя чередующееся векторное квантование с сопряженной структурой (степень сжатия кодера MDCT верхней полосы: 1/8). Метод предварительного выбора и оптимизация таблиц могут значительно сократить объем вычислений, необходимых для векторного квантования.
Если в декодере обнаружена потеря пакета, отсутствующий речевой кадр восстанавливается следующим образом. Ранее декодированный сигнал анализируется для оценки таких параметров, как класс сигнала (например, вокализованный или невокализованный) и основной тон, и замена потерянного кадра синтезируется с использованием этих параметров. Даже если потери пакетов происходят последовательно, ухудшение качества, вызванное потерянным кадром, едва заметно.

5. Оценка качества

Прежде чем утвердить предложенный речевой кодек в качестве Рекомендации, ITU-T обычно проводит субъективные тесты прослушивания, чтобы проверить, соответствует ли он требованиям. Субъективные тесты G.711.1 проводились для речи, музыки, речи с фоновым шумом и смешанной речи. В каждом условии качество речи определялось как требование. Сводка результатов испытаний, полученных NTT Labs. в соответствии с той же процедурой, которая использовалась при тестировании ITU-T, представлена на рис. 5. Расчетные средние оценки мнений (MOS) в режиме R2b при 80 кбит/с и режиме R3 при 96 кбит/с были выше, чем G.722 со скоростью 64 кбит/с для речи и музыки.

Рис. 5. Сводка результатов субъективного тестирования G.711.1.

6. Будущее развертывание

Чтобы предоставлять нашим клиентам высококачественные услуги голосовой связи с использованием G.711.1, NTT Labs. сотрудничает с операционными компаниями NTT и внедряет G.711.1 в терминалы VoIP, терминалы для голосовых конференций и программные телефоны на персональных компьютерах (программные телефоны для ПК). Параллельно с внедрением G.711.1 мы предложим формат полезной нагрузки RTP для G.711.1 в IETF (Internet Engineering Task Force), чтобы он был доступен в Интернете, и запустим структуру для единого лицензирования патентов, включая для G.711.1.

ITU-T только что приступил к стандартизации кодирования речи с пропускной способностью более 7 кГц и функциями стерео, сохраняя при этом масштабируемость с помощью G.711. Лаборатория НТТ. разработает технологии кодирования речи, применимые к этой стандартизации, и внесет свой вклад в нее.

Продукты GL Communications поддерживают различные приложения для передачи сигналов и обработки звука как в VoIP, так и в TDM. Используя эти инструменты, можно эмулировать, анализировать и устранять неполадки при передаче аудиосигналов как по VoIP, так и по TDM. Каждый из этих инструментов поддерживает следующие узкополосные и широкополосные (HD-аудио) стандарты кодеков:

< td width="87" >8 кбит/с < tr> < td width="87" >Режимы - 0, 1, 2 и 3 < td width="105" >8000 < td valign="top">16000 < tr>

Кодек	Скорость передачи данных	Частота дискретизации	Поддерживается VAD	Пакетизация Время (Ptime)
G.711 (PCM µ-law/A-law)	64 кбит/с	8000	Нет	кратно 10 мс
G.711 App II (PCM µ-закон/A-закон с VAD)	64 кбит/с	8000	Да	кратно 10 мс
G.722	64 кбит/с	16000	Нет	кратно 10 мс
G.722.1 (широкополосный)	24 кбит/с 32 кбит/с	16000	Нет	кратно 10 мс
G.729	8000	Нет	кратно 10 мс
G.729B< /td>	8 кбит/с	8000	Да	кратно 10 мс
GSM 6.10 FR	13,2 кбит/с	8000	Нет	кратно 20 мс
GSM EFR	12,2 кбит/с	8000	Да	Исправлено на 20 мс. Несколько Ptime не поддерживаются
GSM HR	5,6 кбит/с	8000	Да	кратно 20 мс
G.726	5 бит 40 кбит/с 4 бит 32 кбит/с 3 бит 24 кбит/с 2 бит 16 кбит/с	8000	Нет	кратно 10 мс
G.726 (с VAD)	5 бит 40 кбит/с 4 бит 32 кбит/с 3 бит 24 кбит/с 2 бит 16 кбит/с	8000	Да	кратно 10 мс
AMR (требуется дополнительная лицензия)	4,75 кбит/с 5,15 кбит/с 5,9 кбит/с 6,7 кбит/с 7,4 кбит/с 7,95 кбит/с 10,2 кбит/с 12,2 кбит/с	8000	Да	кратно 20 мс
AMR WB (Wideba nd) (требуется дополнительная лицензия)	6,60 кбит/с 8,85 кбит/с 12,65 кбит/с 14,25 кбит/с 15,85 кбит/с < br />18,25 кбит/с 19,85 кбит/с 23,05 кбит/с 23.85 кбит/с	16000	Да	кратно 20 мс
EVRC, EVRC0 (требуется дополнительная лицензия)	Расходы EVRC - 1/8, 1/2 и 1< /td>	8000	Нет	кратно 20 мс
EVRCB , EVRCB0 (требуется дополнительная лицензия)	Расходы EVRCB - 1/8, 1/4, 1/2 и 1	8000	Да	кратно 20 мс
EVRC_C (широкополосный) (требуется дополнительная лицензия)	16000	Да	кратно 20 мс
SMV (требуется дополнительная лицензия)	8000	Нет	кратное 20 мс
iLBC	15,2 килобайта бит/с 13,33 кбит/с	8000	Нет	кратно 20 мс < br />кратно 30 мс
SPEEX (узкополосный)	8 кбит/с	Да	Фиксировано на 20 мс. Несколько Ptime не поддерживаются
SPEEX (широкополосный)	11,2 кбит/с	16000	Да	Фиксировано на 20 мс. Несколько Ptime не поддерживаются
EVS (узкополосный) (требуется дополнительная лицензия)	5.9 кбит/с 7,2 кбит/с 8 кбит/с 9,6 кбит/с 13,2 кбит/с 16,4 кбит/с 24,4 кбит/с	8000	Да	от 20 мс до 100 мс с интервалом, кратным 20 мс
EVS (широкополосный) (требуется дополнительная лицензия)	5,9 кбит/с 7,2 кбит/с 8 кбит/с 9,6 кбит/с 13,2 кбит/с 16,4 кбит/с 24,4 кбит/с 32 кбит/с 48 кбит/с 64 кбит/с 96 кбит/с 128 кбит/с	Да	от 20 мс до 100 мс, кратное 20 мс
EVS (сверхширокополосный) (требуется дополнительная лицензия)	9,6 кбит/с 13,2 кбит/с 16,4 кбит/с 24,4 кбит/с 32 кбит/с 48 кбит/с 64 кбит/с 96 кбит/с 128 кбит/с	32000	Да	от 20 мс до 100 мс с интервалом, кратным 20 мс
EVS (полный диапазон) (требуется дополнительная лицензия)	16,4 кбит/с 24,4 кбит/с 32 кбит/с 48 кбит/с 64 кбит/с 96 кбит/с 128 кбит/с	48000	Да	от 20 мс до 100 мс с интервалом, кратным 20 мс
OPUS (узкополосный) (требуется дополнительная лицензия)	от 6 до 128 кбит/с	8000	Да	Фиксировано на 20 мс
OPUS (средний диапазон) (требуется дополнительная лицензия)	от 6 до 128 кбит/с	12000	Да	Фиксировано на 20 мс
OPUS (широкополосный) (требуется дополнительная лицензия)	от 6 до 128 кбит/с	16000	Да	Фиксировано на 20 мс
OPUS (сверхширокополосный) (требуется дополнительная лицензия)	от 6 до 128 кбит/с	24000	Да	Фиксировано на 20 мс
OPUS (полный диапазон) (требуется дополнительная лицензия)	от 6 до 128 кбит/с	48000	Да	Фиксировано на 20 мс

µ-Law, A-law (G.711)
PCM является стандартом для цифровой передачи голоса в телефонии с 1972 года. Он захватывает речь в диапазоне от 300 до 3,4 кГц, частота выборки составляет 8000 выборок/ секунды с 8 битами на выборку, что дает 64 кбит/с при длине кадра кодирования 10 мс. В стандарте определены два алгоритма: µ-Law (Северная Америка и Япония) и A-Law (используется в Европе и остальном мире). Оба являются логарифмическими, но закон А был специально разработан, чтобы его было проще обрабатывать на компьютере.

Этот кодер использует принцип кодирования с регулярным импульсным возбуждением, долгосрочным прогнозированием и линейным прогнозированием. Кодер работает с кадром из 160 речевых образцов с длиной кадра кодирования 20 мс, и просмотр вперед не требуется.

Запись и воспроизведение голосовой почты, что является обязательным требованием для голосовой почты в Интернете.
Голосовой транспорт для мобильных, беспроводных и кабельных сетей.
Голосовой транспорт высокого качества со скоростью 32 кбит/с.

AMR работает на восьми скоростях передачи данных в диапазоне от 4,75 до 12,2 кбит/с с длиной кадра кодирования 20 мс и был специально разработан для повышения надежности канала.

Важным улучшением в EVRC-B является использование кадров с частотой 1/4, которые не использовались в EVRC. Это обеспечивает более низкую среднюю скорость передачи данных (ADR) по сравнению с EVRC при заданном качестве голоса.

EVS обеспечивает значительно улучшенное качество передачи голоса, пропускную способность сети и расширенные функции для голосовых услуг через LTE и другие технологии радиодоступа, стандартизированные 3GPP. Это первый разговорный кодек 3GPP, обеспечивающий полосу пропускания звука до 20 кГц и высочайшее качество речи.

Кодек EVS включает в себя многоскоростной аудиокодек, схему переменной скорости передачи данных с управлением источником (SC-VBR), VAD, систему генерации комфортного шума (CNG) и механизм маскировки ошибок (EC) для компенсации последствия ошибок передачи, приводящих к потере пакетов. Его функция режима с учетом канала дополнительно повышает устойчивость к ошибкам кадров/пакетов.

Кодек SPEEX WB имеет частоту дискретизации 16000 выборок в секунду с фиксированной длиной кадра кодирования 20 мс, что делает его широкополосным кодеком. Этот кодек поддерживает различные параметры кодека, такие как частота дискретизации, переменная скорость передачи данных, обнаружение голосовой активности и улучшение восприятия.

Приложения/программные телефоны: Skype, Nortel, Webex, Hotsip, Marratech, Gatelinx, K-Phone, XTen;
IP-телефоны: WorldGate, Grandstream, Pingtel;
Чип: Audiocodes, TI Telogy, LeadTek, Mindspeed.

Некоторые определения:

Оценка качества речи

Средний балл мнений (MOS) – это широко используемый метод определения качества речи. Каждый кодек имеет определенные характеристики качества речи. В MOS качество речи оценивается по шкале от 1 (плохо) до 5 (отлично).

Недавно. оценки качества речи основаны на модели E ITU G.107. В этих моделях учитывался весь путь "ухо-рот" и все соответствующие условия, такие как сквозной уровень, эхо, побочный тон и частотные характеристики различных сегментов пути.

В модели E используется вычислительный метод, учитывающий такие факторы, как шум, уровень сигнала, рейтинги громкости, искажения, задержка, тип кодека и даже тип сети, для получения показателя качества. Этот рейтинг качества передачи называется коэффициентом «R». Со временем и на основе опыта субъективных и объективных измерений оценка R-фактора модели E была сопоставлена с эквивалентной средней оценкой мнения (от отличной до плохой) для прогнозирования качества речевого тракта «изо рта в ухо» (M2E). Оценка включает рассмотрение типа субъективного теста, используемого для оценки. Пассивные/слушающие и активные/разговорные тесты дают несколько разные оценки.

Для IP-сетей оценка предполагает идеальные условия за пределами IP-облака и основывается на соответствующих ухудшениях IP, таких как потеря пакетов, задержка, дрожание, и даже когда эти ухудшения возникают во время вызова.

В этом документе представлен обзор различных кодеров-декодеров (кодеков), используемых со шлюзами Cisco IOS® Voice over IP (VoIP). В выпусках программного обеспечения Cisco IOS, предшествующих 12.0(5)T, шлюзы VoIP поддерживают только кодеки G.729 и G.711 и только один вызов ретрансляции голоса/факса на процессор цифровых сигналов (DSP). С появлением программного обеспечения Cisco IOS версии 12.0(5)T шлюзы Cisco VoIP поддерживают большее количество кодеков и модулей DSP. Они также могут поддерживать до четырех ретрансляционных голосовых/факсимильных вызовов на DSP.

Инструмент DSP Calculator (только для зарегистрированных клиентов) определяет требования к DSP для платформ маршрутизаторов Cisco серий 1751, 1760, 2600XM, 2691, 2800, 3700 и 3800 и предоставляет рекомендации по настройке PVDM в качестве выходных данных. Инструмент рассчитывает требования DSP на основе интерфейсных модулей, конфигураций кодеков, каналов транскодирования и сеансов конференций, предоставленных в качестве входных данных. Этот инструмент поддерживает различные версии программного обеспечения Cisco IOS, действительные для платформ Cisco 1751, 1760, 2600XM, 2691, 2800, 3700 и 3800.

Предпосылки

Требования

Для этого документа нет особых требований.

Используемые компоненты

Этот документ не ограничивается конкретными версиями программного и аппаратного обеспечения.

Условия

Дополнительную информацию об условных обозначениях документов см. в технических советах Cisco. Условные обозначения.

Сложность кодека

Некоторые методы сжатия кодеков требуют большей вычислительной мощности, чем другие. Сложность кодека делится на две категории: средняя и высокая сложность.

Средняя сложность позволяет DSP C549 обрабатывать до четырех вызовов ретрансляции голоса/факса на DSP, а DSP C5510 — до восьми вызовов ретрансляции голоса/факса на DSP.

Высокая сложность позволяет DSP C549 обрабатывать до двух вызовов ретрансляции голоса/факса на DSP, а DSP C5510 — до шести вызовов ретрансляции голоса/факса на DSP.

Примечание. Разница между кодеками средней и высокой сложности заключается в степени использования ЦП, необходимой для обработки алгоритма кодека, и, следовательно, в количестве голосовых каналов, которые может поддерживать один DSP. По этой причине все кодеки средней сложности также могут работать в режиме высокой сложности, но на DSP доступно меньше (обычно половина) каналов.

Примечание. Факс-ретранслятор (2400 бит/с, 4800 бит/с, 7200 бит/с, 9600 бит/с, 12 кбит/с и 14,4 кбит/с) может использовать кодеки средней или высокой сложности.

На платформах, поддерживающих технологию C549 DSP, сложность кодека настраивается под голосовую карту (например, модуль голосовой сети высокой плотности 2600/3600/VG-200). Некоторые платформы поддерживают только высокую сложность, потому что у них достаточно встроенных DSP для поддержки всех каналов T1/E1, использующих режим высокой сложности. Чтобы указать плотность вызовов и сложность кодека в соответствии с используемым стандартом кодека, используйте команду сложности кодека в режиме настройки голосовой карты.

На платформах, поддерживающих технологию DSP C5510, доступен дополнительный параметр гибкой сложности. При использовании гибкой сложности каждый DSP может выполнять до шестнадцати вызовов. Количество поддерживаемых вызовов варьируется от шести до шестнадцати и зависит от кодека, используемого для вызова.

Это выдержка из вывода show running-config, чтобы определить, какая сложность настроена:

В этой таблице перечислены поддерживаемые кодеки для различных платформ маршрутизаторов Cisco.

Средняя оценка мнений кодека (MOS)

Каждый кодек обеспечивает определенное качество речи. Качество передаваемой речи является субъективной реакцией слушателя. Распространенным эталоном, используемым для определения качества звука, воспроизводимого конкретными кодеками, является средний балл мнений (MOS). С MOS широкий круг слушателей оценивает качество образца голоса (соответствует определенному кодеку) по шкале от 1 (плохо) до 5 (отлично). Баллы усредняются, чтобы обеспечить MOS для этой выборки. В этой таблице показана взаимосвязь между кодеками и показателями MOS.

Хотя преобразование всех вызовов в кодеки с низкой скоростью передачи может показаться логичным с финансовой точки зрения, чтобы сэкономить на затратах на инфраструктуру, следует проявлять дополнительную осторожность при проектировании голосовых сетей с компрессией с низкой скоростью передачи данных. У сжатия голоса есть недостатки. Одним из основных недостатков является искажение сигнала из-за многократного кодирования (называемого тандемным кодированием). Например, когда голосовой сигнал G.729 трижды тандемно кодируется, показатель MOS падает с 3,92 (очень хорошо) до 2,68 (неприемлемо). Еще одним недостатком является задержка, вызванная кодеком, с кодеками с низкой скоростью передачи данных.

Проблемы с кодеком G.729

В этих двух разделах проясняются многие распространенные проблемы совместимости, связанные с реализацией кодека G.729 (8 кбит/с).

Cisco Pre-IETF G.729 и стандартизированная реализация G.729

Cisco выпустила реализацию кодека G.729, предшествовавшую разработке Internet Engineering Task Force (IETF), до того, как кодек G.729 был стандартизирован. В Cisco IOS 12.0(5)T и более поздних версиях порядок битов по умолчанию в кодеке G.729 изменен со стандарта, предшествующего IETF, на стандартизированный формат IETF. Эти два формата не взаимодействуют между собой, что приводит к неразборчивому "хлюпающему звуку" для конечных пользователей.

Для совместимости с реализациями G.729 других поставщиков программное обеспечение Cisco IOS версии 12.0.5T и более поздних версий по умолчанию использует стандартизированную реализацию G.729. Для обратной совместимости с более ранними версиями программного обеспечения Cisco IOS, чем версия программного обеспечения Cisco IOS 12.0.5T, включите реализацию G.729, предшествующую IETF, с помощью этой команды:

Параметр pre-ietf в этой команде не поддерживается в Cisco IOS версии 12.2 и более поздних.

Высокая сложность: G.729, Приложение-B G729 и Средняя сложность: Приложение-B G.729A, G.729A

G.729 — это алгоритм высокой сложности, а G.729A (также известный как G.729 Annex-A) — вариант средней сложности G.729 с немного более низким качеством голоса. Все платформы, поддерживающие G.729, также поддерживают G.729A.

На шлюзах Cisco IOS используемый вариант (G.729 или G.729A) зависит от конфигурации сложности кодека на голосовой карте. Он не отображается явно в выборе кодека интерфейса командной строки (CLI) Cisco IOS. Например, CLI не показывает g729ar8 (код "a") в качестве параметра кодека. Однако, если голосовая карта определена как средняя сложность, то параметр g729r8 — это кодек G.729A.

Примечание. Для MC3810 в версиях программного обеспечения Cisco IOS до 12.0.7XK имеется явный выбор CLI между двадцатью четырьмя каналами G.729A или двенадцатью каналами G.729.

G.729 Annex-B — это алгоритм высокой сложности, а G.729A Annex-B — это вариант средней сложности G.729 Annex-B с немного более низким качеством голоса. Разница между кодеком G.729 и G.729 Annex-B заключается в том, что кодек G.729 Annex-B обеспечивает встроенное обнаружение речевой активности IETF (VAD) и генерацию комфортного шума (CNG).

Эти комбинации кодеков G.729 совместимы:

G.729A и G.729A

Г.729 Приложение-B и G.729A Приложение-B

Приложение G.729-B и Приложение-B G.729

G.729A Приложение-B и G.729A Приложение-B

Примечание. Не существует явного способа настройки G.729A на Cisco 2600/3600/VG-200 NM-1V и NM-2V (голосовой сетевой модуль), поскольку эти голосовые модули не поддерживают конфигурацию «сложность кодека». поддерживается на NM-HDV (модуле голосовой сети высокой плотности). Однако, если вызов G.729A установлен другой конечной точкой, которая заканчивается на NM-1V/2V, вызов успешно установлен.

Проблемы с кодеком G.723.1

Существуют две версии G.723.1: Приложение-A и не Приложение-A. Эти версии не взаимодействуют. G.723.1 Annex-A включает встроенный алгоритм IETF VAD и CNG.

Стандарт G.723.1 позволяет станциям изменять скорость между 6,3 кбит/с и 5,3 кбит/с во время вызова, чтобы приспособиться к нагрузке сетевого трафика. Шлюзы Cisco VoIP не поддерживают эту функцию. Но они понимают, если удаленное устройство (такое как IP-телефон Cisco) передает с другой скоростью, чем было первоначально согласовано.

Эти комбинации кодеков G.723.1 взаимодействуют:

G.723.1 (5,3 кбит/с) и G.723.1 (6,3 кбит/с)

G.723.1 (5,3 кбит/с) и G.723.1 (5,3 кбит/с)

G.723.1 (6,3 кбит/с) и G.723.1 (6,3 кбит/с)

G.723.1 Annex-A (5,3 кбит/с) и G.723.1 Annex-A (6,3 кбит/с)

G.723.1 Annex-A (5,3 кбит/с) и G.723.1 Annex-A (5,3 кбит/с)

G.723.1 Annex-A (6,3 кбит/с) и G.723.1 Annex-A (6,3 кбит/с)

Согласование кодеков

С появлением программного обеспечения Cisco IOS версии 12.0(5)T шлюзы Cisco VoIP поддерживают функцию согласования кодеков. Эта функция позволяет шлюзу Cisco VoIP подключаться к другим устройствам VoIP, не обязательно зная, какой кодек используется для настройки вызова. Кроме того, эта функция позволяет шлюзам Cisco VoIP динамически адаптироваться к изменениям на удаленных устройствах. Пока кодек, используемый удаленным устройством VoIP, соответствует списку возможностей шлюза Cisco VoIP, вызов VoIP завершается. Согласование кодеков поддерживается как C542, так и C549 DSP. Чтобы указать список предпочтительных кодеков для использования на адресуемой точке вызова, используйте команду предпочтения кодека в режиме конфигурации голосового класса.

В этом примере показано, как настроить согласование кодеков:

Связанные сообщения об ошибках

%DSPRM-5-SETCODEC:

Ошибка %DSPRM-5-SETCODEC возникает из-за кодека высокой сложности, настроенного на адресуемой точке вызова VoIP, в то время как голосовая карта по-прежнему настроена на среднюю сложность по умолчанию. Чтобы решить эту проблему, вы должны удалить конфигурацию ds0-group с контроллера, что приводит к удалению голосового порта. После удаления группы ds0 выполните процедуры, приведенные ранее в этом документе, чтобы изменить сложность.

Разные кодеки VoIP оцифровывают звук по-разному. Знание того, какой кодек использовать для данного приложения, позволит вам лучше оптимизировать реализацию телефонии.

В этой статье мы рассмотрим наиболее часто используемые кодеки для VoIP, в том числе кодеки G.711, G.729, G.722, G.726, iLBC и Opus, и определим ситуации, для которых каждый из них подходит. лучше всего подходит.

Типы кодеков

Проще говоря, кодеки — это стандарты, используемые для оцифровки аудио. В качестве введения ознакомьтесь с нашей недавней статьей Демистификация кодеков, часть 1: оцифровка человеческого голоса , в которой описаны основные принципы оцифровки голоса, необходимые для понимания того, как работают кодеки.

Хотя сегодня существует более сотни голосовых кодеков, разработанных несколькими поставщиками, наиболее часто используемые для VoIP стандартизированы Сектором стандартизации телекоммуникаций Международного союза электросвязи (ITU-T) и Инженерной группой Интернета ( IETF).

ITU-T разработал серию кодеков G. Первоначально представленные в начале 70-х годов, когда оцифровка впервые была реализована в телефонии, они постоянно обновлялись и совершенствовались для эффективного использования в приложениях VoIP. На сегодняшний день это наиболее часто поддерживаемые кодеки в устройствах VoIP.

IETF представила двух новичков в мире кодеков: Opus и iLBC, которые были разработаны специально для использования в Интернете и быстро завоевывают популярность среди поставщиков VoIP.

Глоссарий терминов кодека

Давайте начнем с изучения базовой терминологии. Ключевые термины, не включенные сюда, можно найти в статье Демистификация кодеков, часть 1: оцифровка человеческого голоса .

Битрейт – пропускная способность, используемая для передачи голосовых пакетов определенного кодека. Битрейт не включает заголовки IP-пакетов, которые обычно составляют 20 байт на пакет.

Сжатие звука без потерь. Сжатие оцифрованного голоса, позволяющее представить данные с меньшим количеством битов, но без потери информации.Эти алгоритмы сжатия используют статистическую избыточность данных для восстановления оцифрованного голоса во время распаковки.

Сжатие звука с потерями — сжатие оцифрованного голоса с некоторой потерей информации. Это не всегда различимо для человеческого уха и, следовательно, не обязательно плохо. Качество голоса зависит от того, насколько хорошо алгоритм сжатия и другие параметры кодека компенсируют потерю информации.

Узкополосные кодеки. Это кодеки, которые обычно оцифровывают звуковые частоты в диапазоне от 300 до 3400 Гц, что соответствует приблизительному диапазону частот человеческого голоса. Это ограничение частот приводит к тому, что голос приобретает свой характерный «телефонный» тон. С другой стороны, в музыке используются гораздо более высокие частоты, которые обрезаются узкополосными кодеками, из-за чего музыка звучит искаженно при прослушивании по телефону.

Широкополосные кодеки. Это кодеки, которые оцифровывают более широкий частотный диапазон звукового спектра, что обеспечивает более четкое и естественное звучание голоса. Охватываемый диапазон частот обычно составляет от 50 до 7000 Гц.

Полнополосные кодеки. Это кодеки, которые используют весь диапазон частот, доступный человеческому уху, от 50 до 20 000 Гц. Эти кодеки можно использовать для любого звука, включая музыку.

Средняя оценка мнений (MOS) – показатель качества звука определенного кодека, измеряемый от 1 до 5, где 1 – плохо, 5 – отлично. MOS может быть субъективным и может варьироваться для конкретного кодека в зависимости от того, кто оценивает. Таким образом, к этим значениям следует относиться с долей скептицизма.

Размер голосовой полезной нагрузки — типичный размер одного голосового пакета определенного кодека. Это может быть выражено либо в битах/байтах, либо в миллисекундах оцифрованного голоса.

Обнаружение голосовой активности (VAD). VAD — это метод, с помощью которого выявляется отсутствие речи в голосовом разговоре. Во время этих тихих частей разговора сэмплирование и оцифровка звука приостанавливаются, что статистически снижает требуемую полосу пропускания и ресурсы ЦП.

Компанирование — это метод обработки сигнала, который используется для смягчения негативных последствий отправки сигнала по каналу с ограниченным динамическим диапазоном. Он используется кодеками для противодействия ограничениям частотных диапазонов, обеспечиваемым узкополосными кодеками.

Описания кодеков

Ниже мы рассмотрим наиболее часто используемые кодеки для VoIP, их функции, атрибуты и приложения, для которых они чаще всего используются.

Это один из наиболее зрелых и широко используемых аудиокодеков для VoIP, поддерживаемый подавляющим большинством устройств VoIP. Его параметры основаны на качестве аналоговой телефонии, традиционно известном как голос "качество междугородной связи", и первоначально использовались при оцифровке голоса для каналов ISDN. Это хороший выбор для сетей, где качество традиционной телефонии является приемлемым, а пропускная способность внутренней сетевой инфраструктуры достаточна для поддержки ожидаемого количества голосовых разговоров со скоростью 64 Кбит/с. Для глобальных сетей, где пропускная способность дороже, предпочтительны кодеки с более низким битрейтом. Хотя для кодека G.711 доступны усовершенствования, они не часто поддерживаются устройствами VoIP.

Существуют две немного отличающиеся друг от друга версии, известные как μ-закон и а-закон, которые относятся к алгоритму, используемому для выполнения компандирования. Алгоритм μ-закона используется в США, Канаде и Японии, тогда как а-закон используется во всем мире. Это полезно знать о проблемах совместимости, которые могут возникнуть с системами из других стран.

Плюсы: поддерживается многими поставщиками оборудования VoIP, прост в использовании, использует очень мало ресурсов ЦП, зрелый и надежный

Минусы: большой битрейт для каналов с низкой пропускной способностью, ограниченное качество телефонной связи, улучшения, как правило, не поддерживаемые поставщиками

G.729

G.729 – это кодек со сверхнизкой скоростью передачи данных, который обеспечивает резкое снижение скорости передачи данных и размера полезной нагрузки при небольшом снижении качества голоса. По сравнению с G.711 он имеет большую разрядность и использует алгоритм сжатия с потерями. В результате кодек отлично подходит для использования в сетях с ограниченной пропускной способностью, таких как глобальные сети. Как и G.711, это один из наиболее широко используемых кодеков VoIP в отрасли. Как и в G.711, расширения обычно не поддерживаются.

Плюсы: поддерживают многие поставщики VoIP-оборудования, очень низкая скорость передачи данных, крошечный размер полезной нагрузки, относительно хорошая MOS.

Минусы: немного более низкое качество, чем у традиционной аналоговой телефонии, используется сжатие с потерями, качество голоса ниже платного, небольшая поддержка улучшений, не подходит для музыки при удержании (MoH)

Как широкополосный кодек, G.722 обеспечивает более естественное звучание голоса по сравнению с G.711 и G.729, а также с такой же или даже лучшей скоростью передачи данных, чем G.711. Поскольку пропускная способность сети продолжает увеличиваться, широкополосные кодеки, подобные этому, могут значительно улучшить качество телефонии и все чаще внедряются в системы VoIP. Несмотря на то, что он использует сжатие с потерями, это уравновешивается высокой частотой дискретизации и используемыми улучшенными алгоритмами сжатия. Как и G.711, он не рекомендуется для каналов с ограниченной пропускной способностью, таких как глобальные сети.

Плюсы: высококачественный звук, отличный MOS, широкий диапазон звуковых частот, высокая частота дискретизации и битовая глубина, отлично подходит для музыки на удержании

Минусы: не так широко поддерживается, как другие кодеки серии G, не подходит для глобальных сетей

G.726 по своему применению, качеству и атрибутам похож на G.711, обеспечивая несколько более низкое качество при вдвое меньшей скорости передачи данных. Он в основном используется для стандарта беспроводной телефонии Digital Enhanced Cordless Telecommunication (DECT) для беспроводных телефонов. Он гибок в том смысле, что поддерживает различные скорости передачи данных и качество голоса в зависимости от требований приложения.

Плюсы: качество передачи голоса, близкое к платному, при вдвое меньшей скорости передачи данных по сравнению с G.711, идеально подходит для беспроводных приложений DECT, гибкие настройки скорости передачи данных и качества

Минусы: поддерживается в основном устройствами DECT, как правило, не настраивается, поскольку заблокировано производителями DECT

Интернет-кодек с низкой скоростью передачи данных (iLBC)

iLBC предлагает отличное качество передачи голоса при очень низкой скорости передачи данных. Более того, он использует то, что называется «мягким снижением качества речи», для обработки потерянных кадров, которые могут возникать в связи с потерянными или задержанными IP-пакетами. Это делает его удивительно щадящим в неблагоприятных сетевых средах. Этот метод «заполняет пробелы» с помощью алгоритма прогнозирования. Требуемая загрузка ЦП аналогична нагрузке G.729. Несмотря на то, что он поддерживается многими поставщиками инновационных устройств VoIP, его первоначальная цель заключалась в использовании в Интернете в рамках WebRTC, позволяя VoIP функционировать с использованием приложения веб-страницы или браузера в качестве конечного устройства.

Плюсы: низкий битрейт, хорошее качество, относительно низкая загрузка ЦП, возможность взаимодействия с голосовыми веб-приложениями

Минусы: не так широко поддерживается более традиционными поставщиками VoIP-оборудования (хотя это меняется), нет доступных вариантов широкополосного доступа

Opus — один из самых универсальных аудиокодеков, доступных на сегодняшний день. Он может быть настроен на сверхнизкий битрейт для сетей с самой ограниченной пропускной способностью, а также включает полнополосный звук со звуком CD-качества. Хотя большинство устройств VoIP не поддерживают весь спектр возможностей кодека, они часто предлагают многие из его доступных функций.

Чтобы в полной мере оценить широкий спектр функций, поддерживаемых этим кодеком, взгляните на аудио примеры Opus на их веб-сайте . Вы можете настроить параметры и прослушать получившийся звук как для голоса, так и для музыки.

Плюсы: невероятная гибкость, широкий спектр опций, полезный практически для всех приложений VoIP

Минусы: не так широко поддерживается более традиционными поставщиками VoIP-оборудования, но это меняется

Заключение

Мы надеемся, что в этой статье и ее предшественнице, посвященной оцифровке голоса, нам удалось пролить свет на различные кодеки VoIP и приложения, для которых они лучше всего подходят. В будущем кодеки будут продолжать развиваться и предлагать еще больше функций и гибкости, что приведет к повышению производительности в неблагоприятных сетевых средах и в то же время к снижению требований к ресурсам конечных устройств.

Читайте также: