С каких это пор стало возможно обрабатывать звуковую информацию на компьютере

Обновлено: 25.11.2024

С помощью личного аккаунта вы можете бесплатно читать до 100 статей в месяц.

У вас уже есть аккаунт? Войти

Ежемесячный план

  • Доступ ко всему в коллекции JPASS
  • Читать полный текст каждой статьи
  • Скачайте до 10 статей в формате PDF, чтобы сохранить их.

Годовой план

  • Доступ ко всему в коллекции JPASS
  • Читать полный текст каждой статьи
  • Загрузите до 120 статей в формате PDF, чтобы сохранить их.

Купить PDF-файл

Как это работает?

  1. Выберите вариант покупки.
  2. Оплата с помощью кредитной карты или банковского счета в PayPal.
  3. Прочитайте свою статью в Интернете и загрузите PDF-файл из электронной почты или своей учетной записи.
  • Доступ к дополнительным материалам и мультимедиа.
  • Неограниченный доступ к купленным статьям.
  • Возможность сохранять и экспортировать цитаты.
  • Пользовательские оповещения при добавлении нового контента.

Журнал Computer Music Journal, издаваемый непрерывно с 1977 года, охватывает широкий круг тем, связанных с цифровой обработкой аудиосигналов и электроакустической музыкой. Computer Music Journal — это важный ресурс для музыкантов, композиторов, ученых, инженеров, компьютерных энтузиастов и всех, кто изучает чудеса компьютерного звука.

The MIT Press, одно из крупнейших университетских издательств в мире, ежегодно издает более 200 новых книг, а также 30 журналов по искусству и гуманитарным наукам, экономике, международным отношениям, истории, политологии, науке и технологиям, а также по другим дисциплинам. Мы были одними из первых университетских издательств, предложивших книги в электронном виде, и мы продолжаем внедрять технологии, которые позволяют нам лучше поддерживать научную миссию и широко распространять наш контент. Энтузиазм прессы по отношению к инновациям отражается в том, что мы продолжаем исследовать эту передовую. С конца 1960-х годов мы экспериментировали с электронными издательскими инструментами поколение за поколением. Благодаря нашей приверженности новым продуктам — будь то цифровые журналы или совершенно новые формы коммуникации — мы продолжаем искать наиболее эффективные и действенные средства для обслуживания наших читателей. Наши читатели привыкли ожидать превосходства от наших продуктов, и они могут рассчитывать на то, что мы сохраним приверженность созданию строгих и инновационных информационных продуктов в любых формах, которые может принести издательское будущее.

Этот элемент является частью коллекции JSTOR.
Положения и условия использования см. в наших Условиях.
Computer Music Journal © 1982 The MIT Press
Запросить разрешения

Изображения для загрузки на веб-сайте отдела новостей Массачусетского технологического института доступны некоммерческим организациям, прессе и широкой публике в соответствии с лицензией Creative Commons Attribution Non-Commercial No Derivatives. Вы не можете изменять предоставленные изображения, кроме как обрезать их до нужного размера. При воспроизведении изображений необходимо использовать кредитную линию; если он не указан ниже, укажите, что изображения принадлежат "MIT".

Предыдущее изображение Следующее изображение

Исследователи из Массачусетского технологического института, Microsoft и Adobe разработали алгоритм, который может реконструировать звуковой сигнал, анализируя мельчайшие вибрации объектов, изображенных на видео. В одной серии экспериментов им удалось восстановить разборчивую речь по вибрациям пакета с картофельными чипсами, сфотографированных с расстояния 15 футов через звуконепроницаемое стекло.

В других экспериментах они извлекали полезные аудиосигналы из видеороликов с алюминиевой фольгой, поверхностью стакана с водой и даже листьями растения в горшке. Исследователи представят свои результаты в статье на Siggraph, главной конференции по компьютерной графике в этом году.

"Когда звук попадает на объект, он заставляет объект вибрировать", – говорит Эйб Дэвис, аспирант факультета электротехники и информатики Массачусетского технологического института и первый автор новой статьи. «Движение этой вибрации создает очень тонкий визуальный сигнал, который обычно невидим невооруженным глазом. Люди не понимали, что эта информация была там».

К Дэвису в статье Siggraph присоединились Фредо Дюран и Билл Фриман, профессора информатики и инженерии Массачусетского технологического института; Нил Вадва, аспирант группы Фримена; Майкл Рубинштейн из Microsoft Research, защитивший докторскую диссертацию вместе с Фриманом; и Гаутэм Майсор из Adobe Research.

Для восстановления звука из видео требуется, чтобы частота выборки видео (количество кадров видео, снятых в секунду) была выше, чем частота аудиосигнала. В некоторых своих экспериментах исследователи использовали высокоскоростную камеру, которая снимала от 2000 до 6000 кадров в секунду. Это намного быстрее, чем 60 кадров в секунду на некоторых смартфонах, но намного ниже частоты кадров лучших коммерческих высокоскоростных камер, которые могут достигать 100 000 кадров в секунду.

Товарное оборудование

Однако в других экспериментах они использовали обычную цифровую камеру. Из-за особенностей конструкции датчиков большинства камер исследователи смогли получить информацию о высокочастотных вибрациях даже из видео, записанного со стандартной частотой 60 кадров в секунду. Хотя эта звуковая реконструкция не была такой точной, как с высокоскоростной камерой, ее все же может быть достаточно, чтобы определить пол говорящего в комнате; количество динамиков; и даже, учитывая достаточно точную информацию об акустических свойствах голосов говорящих, их личности.

Метод исследователей имеет очевидное применение в правоохранительных органах и криминалистике, но Дэвис с большим энтузиазмом относится к возможности того, что он описывает как "новый вид визуализации".

«Мы извлекаем звуки из объектов, — говорит он. «Это дает нам много информации о звуке, который происходит вокруг объекта, но также дает нам много информации о самом объекте, потому что разные объекты будут реагировать на звук по-разному». В текущей работе исследователи начали пытаться определить материальные и структурные свойства объектов по их видимой реакции на короткие всплески звука.

Воспроизвести видео

Посмотрите, как исследователи Массачусетского технологического института извлекают звук из вибраций растения, пакета с картофельными чипсами и других объектов.

В экспериментах, описанных в статье Siggraph, исследователи также измерили механические свойства объектов, которые они снимали, и определили, что движения, которые они измеряли, составляли около десятой доли микрометра. Это соответствует пятитысячным пикселя на изображении крупным планом, но по изменению значения цвета одного пикселя с течением времени можно сделать вывод о движении размером меньше пикселя.

Предположим, например, что изображение имеет четкую границу между двумя областями: все, что находится по одну сторону границы, синее; на другом всё красное. Но на самой границе датчик камеры получает и красный, и синий свет, поэтому он усредняет их, чтобы получить фиолетовый. Если в последовательных кадрах видео синяя область вторгается в красную область — даже меньше, чем ширина пикселя — фиолетовый станет немного синее. Этот цветовой сдвиг содержит информацию о степени вторжения.

Собираем вместе

Однако ширина некоторых границ на изображении размыта больше одного пикселя. Поэтому исследователи позаимствовали метод из более ранней работы над алгоритмами, которые усиливают незначительные изменения в видео, делая видимыми ранее незаметные движения: дыхание младенца в неонатальном отделении больницы или пульс на запястье субъекта.

Этот метод пропускает последовательные кадры видео через батарею фильтров изображений, которые используются для измерения колебаний, таких как изменение значений цвета на границах, в нескольких разных ориентациях, например, горизонтальной, вертикальной и диагональной, а также в нескольких разных направлениях. весы.

Исследователи разработали алгоритм, который объединяет выходные данные фильтров для определения движения объекта в целом, когда на него воздействуют звуковые волны. Разные края объекта могут двигаться в разных направлениях, поэтому алгоритм сначала выравнивает все измерения, чтобы они не компенсировали друг друга. И это придает больший вес измерениям, сделанным на очень четких границах — четких границах между различными цветовыми значениями.

Исследователи также разработали вариант алгоритма анализа обычного видео. Сенсор цифровой камеры состоит из множества фотодетекторов — их миллионы, даже в обычных устройствах. Как оказалось, менее затратно спроектировать оборудование датчика так, чтобы оно считывало измерения одного ряда фотодетекторов за раз. Обычно это не проблема, но с быстро движущимися объектами это может привести к странным визуальным артефактам. Объект — скажем, винт вертолета — может заметно перемещаться между чтением одной строки и чтением следующего.

Для Дэвиса и его коллег эта ошибка является особенностью. Небольшие искажения краев объектов на обычном видео хотя и незаметны невооруженным глазом, но содержат информацию о высокочастотной вибрации объектов.И этой информации достаточно, чтобы получить мутный, но потенциально полезный звуковой сигнал.

"Это новое и освежающее. Это то, чем сейчас не занимается ни одна другая группа», — говорит Алексей Эфрос, доцент кафедры электротехники и компьютерных наук Калифорнийского университета в Беркли. «Мы ученые, и иногда мы смотрим такие фильмы, как Джеймс Бонд, и думаем: «Это голливудская театральность». Это невозможно сделать. Это смешно». И вдруг, вот оно. Это совершенно не похоже на какой-то голливудский триллер. Вы знаете, что убийца признал свою вину, потому что есть кадры видеонаблюдения, на которых видно, как вибрирует его пакет с картофельными чипсами».

Эфрос согласен с тем, что характеристика свойств материалов может быть плодотворным применением технологии. Но, добавляет он, «я уверен, что найдутся приложения, которых никто не ожидает. Я думаю, что отличительной чертой хорошей науки является то, что вы делаете что-то только потому, что это круто, а потом кто-то отворачивается и использует это для чего-то, о чем вы даже не догадывались. Очень приятно иметь такие креативные материалы».

Создание электронных звуков с помощью цифровых технологий быстро заменяет использование генераторов, синтезаторов и других аудиокомпонентов (теперь их обычно называют аналоговыми аппаратными средствами), которые были стандартными средствами композиторов электронной музыки. Цифровая схема и цифровое программирование не только более универсальны и точны, но и намного дешевле. Преимущества цифровой обработки очевидны даже для индустрии коммерческой звукозаписи, где цифровая запись заменяет давно зарекомендовавшие себя аудиотехнологии.

Три основных метода создания звуков с помощью компьютера – это извлечение знаковых битов, цифро-аналоговое преобразование и использование гибридных цифро-аналоговых систем. Однако из них только второй процесс представляет более чем исторический интерес. Извлечение знаковых битов иногда использовалось для композиций с серьезными музыкальными намерениями, например, в Computer Cantata (1963) Хиллера и Роберта Бейкеров и в Sonoriferous Loops (1965). ), Герберт Брюн. Сохраняется некоторый интерес к созданию гибридных цифро-аналоговых устройств, возможно, потому, что некоторые типы обработки сигналов, такие как реверберация и фильтрация, требуют много времени даже на самых быстрых компьютерах.

Цифрово-аналоговое преобразование стало стандартным методом компьютерного синтеза звука. Этот процесс был первоначально разработан в Соединенных Штатах Максом Мэтьюзом и его коллегами из Bell Telephone Laboratories в начале 1960-х годов. Самая известная версия программы, которая активировала этот процесс, называлась Music 5.

Цифрово-аналоговое преобразование (и обратный процесс, аналого-цифровое преобразование, которое используется для ввода звуков в компьютер, а не для их вывода) зависит от теоремы выборки. В нем говорится, что форма волны должна дискретизироваться с частотой, вдвое превышающей полосу пропускания системы, если сэмплы не должны содержать шум квантования (высокий вой для ушей). Поскольку полоса слухового восприятия составляет 20–20 000 герц (Гц), это определяет частоту дискретизации 40 000 отсчетов в секунду, хотя на практике достаточно 30 000, поскольку магнитофоны редко записывают что-либо значимое выше 15 000 Гц. Кроме того, мгновенные амплитуды должны иметь размер не менее 12 бит, чтобы переходы от одной амплитуды к другой были достаточно малы, чтобы отношение сигнал/шум превышало коммерческие стандарты (от 55 до 70 дБ).

Music 5 – это больше, чем просто программная система, поскольку она представляет собой программу "оркестровки", которая имитирует многие процессы, используемые в студии классической электронной музыки. В нем указаны единичные генераторы для стандартных сигналов, сумматоры, модуляторы, фильтры, ревербераторы и так далее. Он был достаточно обобщен, чтобы пользователь мог свободно определять свои собственные генераторы. Music 5 стала прототипом программного обеспечения для инсталляций по всему миру.

Одна из лучших была разработана Барри Верко из Массачусетского технологического института в 1970-х годах. Эта программа под названием Music 11 работает на компьютере PDP-11 и представляет собой тщательно разработанную систему, которая включает в себя множество новых функций, включая ввод и вывод графической партитуры. Учебная программа Vercoe обучила практически целое поколение молодых композиторов компьютерной обработке звука. Еще одним важным достижением, обнаруженным Джоном Чаунингом из Стэнфордского университета в 1973 году, было использование цифровой ЧМ (частотной модуляции) в качестве источника музыкального тембра. Использование графического ввода и вывода, даже нотной записи, было значительно развито, в частности, Мэтьюзом из Bell Telephone Laboratories, Леландом Смитом из Стэнфордского университета и Уильямом Бакстоном из Университета Торонто.

Существуют и другие подходы к обработке цифрового звука. Например, растет интерес к аналого-цифровому преобразованию как инструменту композиции.Этот метод позволяет подвергать цифровой обработке конкретные и записанные звуки, в том числе и человеческий голос. Чарльз Додж, композитор из Бруклинского колледжа, написал несколько партитур, включающих вокальные звуки, в том числе Cascando (1978) на основе радиоспектакля Сэмюэля Беккета и Any Resemblance Is Purely Совпадение (1980), для измененного компьютером голоса и записи. Классическая студия musique concrète, основанная Пьером Шеффером, превратилась в цифровую инсталляцию под руководством Франсуа Бейля. Его основной акцент по-прежнему делается на манипулировании конкретными звуками. Следует также упомянуть совершенно другую модель синтеза звука, впервые исследованную в 1971 году Хиллером и Пьером Руисом; они запрограммировали дифференциальные уравнения, которые описывают вибрирующие объекты, такие как струны, пластины, мембраны и трубки. Этот метод, хотя и неприемлем с математической точки зрения и занимает много времени на компьютере, тем не менее, потенциально привлекателен, поскольку не зависит ни от концепций, напоминающих аналоговое оборудование, ни от данных акустических исследований.

Еще одним важным достижением является производство специализированных цифровых машин для использования в живых выступлениях. Все такие инструменты зависят от новых типов микропроцессоров и часто от некоторых специализированных схем. Однако, поскольку эти инструменты требуют вычислений и преобразования в реальном времени, их универсальность и разнообразие тембров ограничены. Однако, без сомнения, эти инструменты будут быстро улучшаться, потому что для них есть коммерческий рынок, включая популярную музыку и музыкальное образование, который намного превышает небольшой мир композиторов-авангардистов.

Некоторые из этих исполнительских инструментов созданы специально для удовлетворения потребностей конкретного композитора. Примером может служить Sal-Mar Construction Сальваторе Мартирано (1970). Однако большинство из них предназначены для замены аналоговых синтезаторов и поэтому оснащены обычными клавиатурами. Одним из первых таких инструментов был синтезатор «Egg», созданный Майклом Манти в Орхусском университете в Дании. Позже Synclavier был выпущен на рынок как коммерческий инструмент, использующий цифровое оборудование и логику. Для 1980-х годов он представляет собой цифровой эквивалент синтезатора Moog 1960-х годов.

Однако самый передовой цифровой синтез звука по-прежнему осуществляется в крупных институциональных установках. Большинство из них находятся в университетах США, но количество объектов в Европе строится все больше. Instituut voor Sonologie в Утрехте и LIMB (Laboratorio Permanente per l’Informatica Musicale) в Университете Падуи в Италии напоминают американские учреждения из-за их академической принадлежности. Однако совсем другим является IRCAM (Institut de Recherche et de Coordinate Acoustique/Musique), часть Центра Помпиду в Париже. IRCAM, возглавляемый Пьером Булезом, представляет собой сложное учреждение для исследования и исполнения музыки. Все больше внимания уделяется всем аспектам компьютерной обработки музыки, включая композицию, звуковой анализ и синтез, графику и разработку новых электронных инструментов для исполнения и педагогики. Это впечатляющая демонстрация того, что электронная и компьютерная музыка достигла совершеннолетия и вошла в основное русло музыкальной истории.

В заключение следует отметить, что наука добилась огромного расширения музыкальных ресурсов, предоставив композитору доступ к спектру звуков, начиная от чистых тонов на одном пределе и заканчивая случайным шумом на другом. Он сделал возможной ритмическую организацию музыки с недостижимой до сих пор степенью тонкости и сложности. Это привело к принятию определения музыки как «организованного звука». Это позволило композиторам, если они того пожелают, иметь полный контроль над своей работой. Это позволяет им, если они желают, устранить исполнителя как посредника между ними и их аудиторией. Это поставило критиков в затруднительное положение, потому что их анализ того, что они слышат, часто должен осуществляться исключительно их ушами, без какой-либо письменной партитуры.

Изображения для загрузки на веб-сайте отдела новостей Массачусетского технологического института доступны некоммерческим организациям, прессе и широкой публике в соответствии с лицензией Creative Commons Attribution Non-Commercial No Derivatives. Вы не можете изменять предоставленные изображения, кроме как обрезать их до нужного размера. При воспроизведении изображений необходимо использовать кредитную линию; если он не указан ниже, укажите, что изображения принадлежат "MIT".

Предыдущее изображение Следующее изображение

Исследователи из Массачусетского технологического института, Microsoft и Adobe разработали алгоритм, который может реконструировать звуковой сигнал, анализируя мельчайшие вибрации объектов, изображенных на видео. В одной серии экспериментов им удалось восстановить разборчивую речь по вибрациям пакета с картофельными чипсами, сфотографированных с расстояния 15 футов через звуконепроницаемое стекло.

В других экспериментах они извлекали полезные аудиосигналы из видеороликов с алюминиевой фольгой, поверхностью стакана с водой и даже листьями растения в горшке. Исследователи представят свои результаты в статье на Siggraph, главной конференции по компьютерной графике в этом году.

"Когда звук попадает на объект, он заставляет объект вибрировать", – говорит Эйб Дэвис, аспирант факультета электротехники и информатики Массачусетского технологического института и первый автор новой статьи. «Движение этой вибрации создает очень тонкий визуальный сигнал, который обычно невидим невооруженным глазом. Люди не понимали, что эта информация была там».

К Дэвису в статье Siggraph присоединились Фредо Дюран и Билл Фриман, профессора информатики и инженерии Массачусетского технологического института; Нил Вадва, аспирант группы Фримена; Майкл Рубинштейн из Microsoft Research, защитивший докторскую диссертацию вместе с Фриманом; и Гаутэм Майсор из Adobe Research.

Для восстановления звука из видео требуется, чтобы частота выборки видео (количество кадров видео, снятых в секунду) была выше, чем частота аудиосигнала. В некоторых своих экспериментах исследователи использовали высокоскоростную камеру, которая снимала от 2000 до 6000 кадров в секунду. Это намного быстрее, чем 60 кадров в секунду на некоторых смартфонах, но намного ниже частоты кадров лучших коммерческих высокоскоростных камер, которые могут достигать 100 000 кадров в секунду.

Товарное оборудование

Однако в других экспериментах они использовали обычную цифровую камеру. Из-за особенностей конструкции датчиков большинства камер исследователи смогли получить информацию о высокочастотных вибрациях даже из видео, записанного со стандартной частотой 60 кадров в секунду. Хотя эта звуковая реконструкция не была такой точной, как с высокоскоростной камерой, ее все же может быть достаточно, чтобы определить пол говорящего в комнате; количество динамиков; и даже, учитывая достаточно точную информацию об акустических свойствах голосов говорящих, их личности.

Метод исследователей имеет очевидное применение в правоохранительных органах и криминалистике, но Дэвис с большим энтузиазмом относится к возможности того, что он описывает как "новый вид визуализации".

«Мы извлекаем звуки из объектов, — говорит он. «Это дает нам много информации о звуке, который происходит вокруг объекта, но также дает нам много информации о самом объекте, потому что разные объекты будут реагировать на звук по-разному». В текущей работе исследователи начали пытаться определить материальные и структурные свойства объектов по их видимой реакции на короткие всплески звука.

Воспроизвести видео

Посмотрите, как исследователи Массачусетского технологического института извлекают звук из вибраций растения, пакета с картофельными чипсами и других объектов.

В экспериментах, описанных в статье Siggraph, исследователи также измерили механические свойства объектов, которые они снимали, и определили, что движения, которые они измеряли, составляли около десятой доли микрометра. Это соответствует пятитысячным пикселя на изображении крупным планом, но по изменению значения цвета одного пикселя с течением времени можно сделать вывод о движении размером меньше пикселя.

Предположим, например, что изображение имеет четкую границу между двумя областями: все, что находится по одну сторону границы, синее; на другом всё красное. Но на самой границе датчик камеры получает и красный, и синий свет, поэтому он усредняет их, чтобы получить фиолетовый. Если в последовательных кадрах видео синяя область вторгается в красную область — даже меньше, чем ширина пикселя — фиолетовый станет немного синее. Этот цветовой сдвиг содержит информацию о степени вторжения.

Собираем вместе

Однако ширина некоторых границ на изображении размыта больше одного пикселя. Поэтому исследователи позаимствовали метод из более ранней работы над алгоритмами, которые усиливают незначительные изменения в видео, делая видимыми ранее незаметные движения: дыхание младенца в неонатальном отделении больницы или пульс на запястье субъекта.

Этот метод пропускает последовательные кадры видео через батарею фильтров изображений, которые используются для измерения колебаний, таких как изменение значений цвета на границах, в нескольких разных ориентациях, например, горизонтальной, вертикальной и диагональной, а также в нескольких разных направлениях. весы.

Исследователи разработали алгоритм, который объединяет выходные данные фильтров для определения движения объекта в целом, когда на него воздействуют звуковые волны. Разные края объекта могут двигаться в разных направлениях, поэтому алгоритм сначала выравнивает все измерения, чтобы они не компенсировали друг друга. И это придает больший вес измерениям, сделанным на очень четких границах — четких границах между различными цветовыми значениями.

Исследователи также разработали вариант алгоритма анализа обычного видео. Сенсор цифровой камеры состоит из множества фотодетекторов — их миллионы, даже в обычных устройствах. Как оказалось, менее затратно спроектировать оборудование датчика так, чтобы оно считывало измерения одного ряда фотодетекторов за раз. Обычно это не проблема, но с быстро движущимися объектами это может привести к странным визуальным артефактам. Объект — скажем, винт вертолета — может заметно перемещаться между чтением одной строки и чтением следующего.

Для Дэвиса и его коллег эта ошибка является особенностью. Небольшие искажения краев объектов на обычном видео хотя и незаметны невооруженным глазом, но содержат информацию о высокочастотной вибрации объектов. И этой информации достаточно, чтобы получить мутный, но потенциально полезный звуковой сигнал.

"Это новое и освежающее. Это то, чем сейчас не занимается ни одна другая группа», — говорит Алексей Эфрос, доцент кафедры электротехники и компьютерных наук Калифорнийского университета в Беркли. «Мы ученые, и иногда мы смотрим такие фильмы, как Джеймс Бонд, и думаем: «Это голливудская театральность». Это невозможно сделать. Это смешно». И вдруг, вот оно. Это совершенно не похоже на какой-то голливудский триллер. Вы знаете, что убийца признал свою вину, потому что есть кадры видеонаблюдения, на которых видно, как вибрирует его пакет с картофельными чипсами».

Эфрос согласен с тем, что характеристика свойств материалов может быть плодотворным применением технологии. Но, добавляет он, «я уверен, что найдутся приложения, которых никто не ожидает. Я думаю, что отличительной чертой хорошей науки является то, что вы делаете что-то только потому, что это круто, а потом кто-то отворачивается и использует это для чего-то, о чем вы даже не догадывались. Очень приятно иметь такие креативные материалы».

Читайте также: