Оцифровка и реставрация аудиоматериала

Вид работы:

Курсовая работа (т)
Предмет:

Информатика, ВТ, телекоммуникации
Язык:

Русский
,
Формат файла:
MS Word

2,09 Мб
Опубликовано:

2015-12-04

Все курсовые работы по информатике

Скачать курсовую работу Читать текст online Заказать курсовую
*Помощь в написании! Посмотреть все курсовые работы

Вы можете узнать стоимость помощи в написании студенческой работы.

Оцифровка и реставрация аудиоматериала

ВВЕДЕНИЕ

Во все времена люди пытались записывать информацию различными способами. И всяческими способами пытались как можно дольше сохранить звук на различных видах носителей.

Виниловая пластинка

Она же Граммпластинка - (жарг. винил, или просто пластинка) - аналоговый <#"862851.files/image002.jpg">

Магнитная аудио лента

Носитель информации в виде гибкой ленты, покрытой тонким магнитным слоем. Информация на магнитной ленте фиксируется посредством магнитной записи. Устройства для записи звука на магнитную ленту называются соответственно магнитофон <#"862851.files/image005.jpg">

Цифровые аудио носители

Звуковой компакт-диск (CDDA, англ. <#"862851.files/image008.jpg">

Аналого-цифровой преобразователь

АЦП, англ. <#"862851.files/image009.jpg">

Есть циничное мнение, что источников аналогового звука в природе вообще не существует - просто его разрешающая способность куда серьезнее. А среда распространения звука - воздух, например - является естественным фильтром очень высокого порядка. С другой стороны, любую форму сигнала, какой бы сложной или ломаной она ни была, можно "собрать" из вот таких простых синусоид.

Ухо человека представляет собой очень сложную систему, в центре которой - коническая резонансная трубка-мембрана. Она имеет около 25 тысяч окончаний нервных клеток-"микрофонов", каждая из которых "настроена" на свой диапазон частот (это просто и гениально обусловлено ее расположением на конической, напомню, мембране). Человеческий мозг воссоздает картину звука, получив сигнал, сведенный из этого безумного 25-тысячеканального микшерного пульта.

Понятно, что технически создать такую модель, мягко говоря, сложно, да и, по счастью, не является необходимостью.

В электронном же мире звук превращается в аналоговый электросигнал вслед за колебаниями тоненькой круглой (плоской или слегка выпуклой) мембраны микрофона, порождаемыми мгновенной суммой амплитуд волн всех частот, ударяющих в нее. В том числе частот и гармоник, человеческим ухом не улавливаемых. Посмотрим, что происходит с этим электрическим, но все еще аналоговым сигналом при оцифровке с низкой и высокой частотой сэмплирования и разрядностью:

Как видим, "мелкоячеистая" сетка с высокими частотой (вертикальные линии) и разрядностью (горизонтальные линии) передает сигнал намного достоверней.

Но не надо путать частоту сэмплирования с реальной верхней границей полезного сигнала - она всегда в два раза меньше частоты сэмплирования, т.е., квантование в 44100 Гц дает нам возможность более-менее достоверно воспроизводить звук до 22000 герц (20000 устарело, считается верхней слышимой границей, а в оставшиеся 2 килогерца, при помощи специальных приемов, часто "уводят" побочные шумы, в. т.ч. и полученные при собственно квантизации). И, кстати, не пытайтесь "загнать" в оцифровщик частоты выше половины его частоты сэмплирования - если это Вам все же удастся, вместо ожидаемого расширенного диапазона частот Вы получите целый спектр паразитных гармоник в слышимой области, стартующий тем ниже, чем более высокая частота "проскочит" в оцифровку (подробно и глубоконаучно обо всем этом по словам "частота Найквиста", "теорема Котельникова-Шеннона", "oversampling", "noise shaping").

Разрядность 16 бит в формат бытового аудио тоже заложена буквально по минимуму, и для профессиональной работы со звуком используются разрядности в 18, 20, 24 и 32 бита (хотя на первый взгляд разница невелика, высоты таких линеек резко взлетают с 65535 в 1048576 (20бит) и 16777216 (24бит) "звуковых миллиметров". Размах же 32-битной шкалы даже произнести непросто: 4.294.967.296).

С точки же зрения файловой системы занимаемый треками объем при переходе от 16 к 24 битам возрастет всего в 1,5 раза, а к 32 битам - ровно в 2.

Количество каналов. Объяснять разницу между отжившими моно и квадро, вездесущим стерео и современными 5.1 и 7.1 сегодня не нужно.

Еще одна характеристика - громкость, более правильно - амплитуда, или размах сигнала. Хотя по определению амплитуда может быть только положительной, часто так называют и мгновенное значение напряжения сигнала (а оно вполне может быть отрицательным). Амплитуду часто измеряют в децибелах (дБ или dB), и эта единица так же непроста, как и разрядность. Дело в том, что децибелы измеряют не абсолютные, а относительные величины. Скажем, между амплитудами в 0.5 и 1 вольт разница всего в полвольта, в dB эта разница равна 6. А между амплитудами 110 и 220 вольт разница - уже 110 вольт. Тем не менее, в децибелах разница снова равна 6. Дело в том, что 6dB означает соотношение амплитуд как 1:2, независимо от того, какие именно значения принимают в данный момент амплитуды. Более того, шкала, по которой измеряются децибелы - логарифмическая. К чему все эти сложности? Наши уши воспринимают звук по логарифмической шкале, и от этого никуда не деться. Вот краткая справочная таблица для перевода отношений амплитуд в децибелы:

dB	Отношение
0	1.00
1	1.12
2	1.26
3	1.41
5	1.78
6	2.00
8	2.51
10	3.16
20	10.0
40	100.0
60	1 000.00
80	10 000.00
100	100 000.00

Кроме того, у дорожки в целом есть и такая характеристика, как динамический диапазон (разница между самым тихим и самым громким звуком). Чем шире диапазон - тем естественней звучат голоса, спецэффекты и живьём записанные музыкальные инструменты.

Сжатие динамического диапазона позволяет усилить тихие звуки, не давая при этом громким "вырваться" за очерченные пределы. Такой процесс называют компрессией звука. Звук становиться более плотным, иногда, более ярким, но при излишнем усердии живые инструменты станут звучать неестественно, а голоса станут похожими на пропущенные через (достаточно качественный, правда) радиотракт; спецэффекты же потеряют часть эффективности, основанную на резком изменении громкости. Например, накладываемый в фильмах любительский дубляж часто подвергается довольно жесткой компрессии, порой совершенно излишней. Понятно, что динамический диапазон косвенно ограничен разрядностью сигнала.

Особое внимание стоит уделить потерям, которые связанны с описанными характеристиками и их преобразованиями.

Частотные. "Стандартные" компьютерные частоты сэмплирования, по счастью, кратны друг другу: 44100, 22050, 11025 и т.д. Это помогает избежать ряда проблем с искажениями при преобразованиях и, в частности, появления низкочастотных огибающих, которые мы можем получить при преобразовании "некратных" частот - к примеру, 48000 кинопроизводственных и 44100 компьютерных могут дать нам, помимо прочего, искажения в районе 48000-44100=3900 герц - прямо в центре слышимого диапазона (все, кто хоть немного сталкивался со струнными инструментами, отлично знают на практике, что такое "биение частот" при подтягивании струн в унисон). Но это еще не все подарки мирового кинематографа: "благодаря" формату NTSC мы имеем т.н. "пониженные" частоты - 44056 и 47952 Гц.

Вкратце, это связано с "рваной" частотой NTSC в 29.97 кадров в секунду, в то время как синхрокод SMPTE, согласующий работу устройств в студии, "отрабатывает" ровно 30. Цифровая спутниковая телесвязь, и за ними DAT-магнитофоны тоже не остались в стороне, присовокупив от себя частоту сэмплирования 32000 Гц, что, впрочем, на фоне проделок NTSC выглядит детской шалостью.

Далее, при передаче цифрового сигнала от одного устройства к другому мы не застрахованы от искажений в низких частотах, связанных с несовершенством цифровых интерфейсов. Обо всем этом написано столько, что мы просто обозначим для себя: насколько возможно, следует избегать преобразования частот (особенно некратного) и передачи сигнала даже по, казалось бы, чисто цифровым интерфейсам. Всем этим условиям отвечает обработка звука полностью внутри компьютера - мы теряем только на входе. (С другой стороны, если у Вас вдруг окажется профессиональный внешний, специально предназначенный для преобразования частоты сэмплирования прибор, лучше воспользоваться им. Правда, это дорогостоящая техника, да и качества программной обработки вполне достаточно для дорожек к мультикам или самодельным концертным записям).

Есть искажения, на которые мы повлиять не можем - например, зависящие от собственной частоты звука. По совести, для полноценного восстановления синусоиды частотой 20КГц частота сэмплирования должна бы быть далеко не 44КГц (44100/20000=2.205 замера явно мало для восстановления двух полуокружностей! Вместо них мы получим две "ступеньки" - см. графики в начале статьи), в идеале - несколько сот (!) килогерц. К счастью, этот тип искажений худо-бедно компенсируют современные фильтры высоких порядков, "отбрасывающие" большинство образующихся гармоник-искажений. По этой же причине микросхемы современных усилителей для качественной передачи звука работают с частотами от десятых долей мегагерц и выше.

Еще одна очень неприятная потеря - т.н. детонация частоты ("wow", "flutter"). Возникает она на аналоговых носителях в случае, если лента по каким-то причинам ("бьющий" прижимной резиновый ролик или тонвал, и т.д.) движется "рывками" или с плавным ускорением-замедлением, либо сама лента уже деформирована лентопротяжным механизмом. Это приводит к изменению высоты тона и, при более явном проявлении, к нарушению ритмического рисунка. Я однажды с ужасом наткнулся на грампластинку с записью Тони Йомми, дорожки на второй стороне которой были... отпечатаны не по центру диска. “Качание” звука было то еще, да и визуальное гуляние тонарма и самих дорожек переплюнуло целый ряд "мультяшных" граммофонов. Почему я отдельно упоминаю о пластинках? Дело в том, что автоматического способа исправления таких искажений нет, и в ближайшее время он вряд ли появится. Если фонограмма имеет неоспоримую ценность, то имеет смысл помучаться с ней вручную, "подгадав" в несколько дублей период качания по паре десятков колебаний и наложив "противофазные" искажения, но и это справедливо только для ленточных детонаций, т.к. пластинка по мере продвижения ее спиральной дорожки к центру диска... вот-вот. Угловая-то скорость неизменна, а линейная - увы.

Амплитудные. Следующий тип искажений связан с любыми преобразованиями, даже в виртуальных устройствах - это погрешности при необходимости снова "привязывать" полученные нами громкости сигнала к "высоте" разрядной линейки. Компьютер как таковой от них, конечно, уже не спасает, и в нашей воле - только выбор компромиссной разрядности при обработке (и хранении) сигнала. С действительно качественным звуком имеет смысл работать не ниже 24-32 бит (хотя многие даже не заметят разницы в звучании). Используемые программы при таком принципиальном подходе желательно проверять на честность обработки - так как порой она не соответствует заявленной производителями (во время обработки звук может быть пересчитан в 16 бит). Для проверки можно воспользоваться, например, BitPolicy.

Отдельный и важный разговор - об оптимальной амплитуде обрабатываемого сигнала. Работа с тихим сигналом - в небольшой "нижней" части амплитудной линейки - понижает его разрядность, так как всякий раз после любой обработки мы округляем полученный размах к нескольким, пропорционально "укрупнившимся" ее ступенькам. Так можно Случайно понизить разрядность до 14 бит и даже ниже. Фактически, 16-битный сигнал в -24dB (около 6% макс. амплитуды) имеет разрядность в 12 бит - "высота" соответствующей ему части линейки - всего 4096 делений! Для достижения 12-битным звуком качества 44100/16 частоту сэмплирования пришлось бы поднять до 705.6КГц

Чем ниже амплитуда, тем большим искажениям при обработке она подвергается.

Слишком же большая амплитуда, в свою очередь, может приводить к тому, что сигнал окажется выше самого "высокого" деления амплитудной "линейки". Это так называемый "клип" (clip) - "отрезанная", навсегда потерянная часть сигнала. "Звучат" клипы по-разному: полученные при обработке - как резкие сухие щелчки, при оцифровке - как глуховатый треск, и малозаметный "теплый" перегруз на более дорогих, профессиональных приборах оцифровки, которые стараются по мере сил мягко лимитировать их до допустимого максимума. Подобные мягкие искажения близки к "живым" аналогам - скажем, к катушке динамика в акустической системе, которая дошла до максимума своего движения в магнитном поле, или магнитной пленке, попавшей в такое поле, при котором "дополнительное" намагничивание уже невозможно.

Разумным компромиссом при обработке будет выбор амплитуды, над которой останется небольшое пространство от -3dB или чуть больше (в редакторах - до 30% свободного пространства от полной высоты аудиотрека). При записи сигнала (или в самом звуковом тракте) нет уверенности, верхний порог следует отрегулировать уровнями записи ближе к -6dB - это наверняка защитит Вас как от перегрузок платы во время неожиданного "всплеска" в звуке, так и от "запирания" в микшерном пульте или промежуточном усилителе (NB: метку "0 VU" аналоговых выходов студийного оборудования подстраивают и под -12, и даже под -15dB уровня цифровых рекордеров). Альтернатива - использовать лимитер, если он, конечно, есть. Это позволит Вам не только сгладить ошибки с уровнем при оцифровке, но и снивелировать действительно ненужные пики; кроме того, при умелом подходе, можно немного "накачать" общую амплитуду, не испортив сигнал для дальнейшей обработки. Конечно, при вдумчивом и уважительном обращении.

По окончании работы со звуком можно нормализовать дорожку вплоть до -0.2dB - визуально примерно на 97% от максимального развёртывания синусоиды. По другим рекомендациям, самый мощный сигнал при финальной нормализации не должен превышать -0.5дБ. Выравнивать пики под 0dB в любом случае не стоит. Заметного изменения громкости не произойдет, а вот к проблемам такой уровень приведет запросто. Здесь неплохо поставить точку еще на одном часто возникающем вопросе - чувствительность человеческого уха: вблизи порога слышимости она составляет 2-3dB, а на средних уровнях - около 0,4dB.

Разрядность и шум. На первый взгляд связь между ними уловить трудно, на деле же - это еще один подвох квантизованного звука. И еще один довод не работать без нужды с тихим сигналом. Для идеального теоретического преобразователя всегда существует максимальное соотношение сигнал/шум, которое он может обеспечить, и оно в первую очередь зависит именно от амплитуды. Даже при нулевом шуме соотношение сигнал/шум не может быть больше, чем весь динамический диапазон, предоставляемый разрядностью. Существуют две формулы, более точная и упрощенная (1 и 2 соответственно):

(1) 1.76 + (число бит * 6.2) = отношение сигнал/шум

Таким образом, 12-битная глубина физически не сможет обеспечить сигнал/шум больше, чем 74dB (звучание магнитофонной деки или FM-радиостанции). Для сравнения: 8-битный звук дает 50dB (радиовещание "старых", средневолновых станций), а 16-битный - 98dB (полный динамический диапазон симфонического оркестра). С реальными же, а не теоретическими приборами оцифровки эти цифры, конечно, еще ниже - в эту копилку подкидывают свои монетки погрешности параметров электронных компонентов, недостатки экранировки аналоговой части, помехи соседних цифровых устройств, и т.д.

· увеличение частоты сэмплирования и разрядности сигнала хорошо отражается на его достоверности ;)

· лишние преобразования (и особенно передача сигнала между устройствами), пусть даже в цифровой форме, искажают сигнал; как следствие - частоту сэмплирования выходного трека следует выбирать сразу при оцифровке и, если целью является просмотр на компьютере, лучше сразу установить ее в 44100, чем в 48000 с последующим (да к тому же "некратным") преобразованием.

· максимальный пик сигнала желательно "подгадывать" при записи сигнала с непредсказуемой динамикой (либо на непредсказуемой аппаратуре) под -12dB - -6dB; в процессе обработки - в -6dB - -3dB, чтобы максимально уменьшить искажения при обработке и оставить при этом безопасное пространство для будущего изменения формы сигнала. (NB: при многоканальном сведении также неплохо удерживать уровни треков в диапазоне -12dB - -6dB). Финальную нормализацию микса или обработанного трека правильно делать ниже 0dB, в диапазоне -0.5dB - -0.2dB..S.: на самом деле еще многие "мелочи" и подвохи цифрового мира остались за кадром. К примеру, записывая тот же сигнал в 20КГц, вы всякий раз чудом попадаете в кнопку "Rec" именно при прохождении синусоидой нуля? Нет? Значит, каждый ваш дубль "даст" на осциллограмме (а значит, и в звуке) каждый раз совершенно различные результаты! И не только на этой частоте, но и, естественно, на всех остальных. Остался за кадром и такой момент, как инерционность человеческого уха (а ведь оно, как и глаз, принимает свои слишком быстро сменяющиеся "слуховые кадрики" за плавное непрерывное "движение" звука).файл. Файл с расширением avi (аббревиатура "Audio-Video Interleaved" - перемежающиеся видео и аудио потоки), представляет собой некий "контейнер", содержащий в себе один или более аудио и\или видео потоков. В формате заложена даже прозрачность видеослоев по маске, но эта возможность осталась невостребованной, как и вообще множественные видеопотоки в одном avi-файле. Зато аудиопотоков вполне может быть два и более (для формата MPEG-4 - до восьми!). Преимущество такой "контейнерной" структуры в том, что каждый поток может храниться в собственном формате, отличающемся от остальных. Конечно, каждый поток имеет свой заголовок, в котором и сообщает о себе все необходимое для правильного воспроизведения.-файл. Один из способов сжать звук с потерями. Такое сжатие позволяет лучше "упаковать" файл, но взамен безвозвратно портит запаковываемую дорожку. Чем сильнее степень сжатия - тем сильнее слышны искажения. Но в любом случае исходный сигнал восстановить не удастся уже никогда. Из-за расширения "mp3" популярно суеверие в существование формата MPEG-3 На самом деле, звук в этих файлах имеет формат еще MPEG-1 layerIII.

Работа с любыми сжатыми форматами крайне не рекомендуется, так как каждая операция сжатия вносит достаточно заметные, и невосстановимые потери.файл. Файл с расширением wav (от слова "wave" - волна), аналогичный avi-файлу контейнер, но: только для аудио, и только для одного потока. Поток может быть практически любого поддерживаемого операционной системой формата, но наиболее часто встречаются на сегодня PCM (Pulse-Code Modulation - несжатое аудио) и MPEG1 layerIII (если "вытащить" поток layer3 из оболочки WAV-файла, то получится обычный mp3. Эту функцию отлично выполняет mp3DirectCut, например).

Постоянная составляющая (DC offset). Как известно, напряжение может быть постоянным и переменным. Соответственно, любой сигнал может нести в себе обе составляющие, в том числе и звуковой. Но, если переменная составляющая - это, по сути, и есть звук, то постоянная составляющая приносит одни неприятности, и в правильном звуковом сигнале ее не должно быть.

Фейдинг - от слова "fade" (затухание). Под этим действием понимается плавное увеличение или уменьшение громкости, необязательно, но чаще всего - до нуля или полной амплитуды. По этой же причине фэйдерами принято называть знакомые каждому "движковые" регуляторы громкости на микшерных пультах.

Кроссфейдинг (cross-fading). Просто "встык" соединять отдельные фрагменты опасно, даже если Вы именно их перед этим и разрезали на этом самом месте. В числе возможных неприятностей - щелчки, по звуку и природе аналогичные началу и концу звучания трека с неотфильтрованной постоянной составляющей (DC offset). Для этого дорожки "накладываются" друг на друга, некоторое время звуча вместе. При этом громкость первой дорожки уменьшается до нуля (fade out), а второй - растет до полного размаха (fade in). Хорошая длина для наложения фрагментов - 10-30мс.. При кроссфейдинге избегайте попадания склейки на удары барабанов или другие четкие звуки. Хорошее место - совсем рядом с "ударным" звуком, который поможет дополнительно замаскировать склейку.

Компрессор, лимитер, гейт (гейтер), экспандер - четыре функционально разных прибора, имеющие одно общее свойство: все они представляют из себя некую функцию (читай, кривую), определяющую уровень выходного сигнала в зависимости от входного. Есть и физические устройства, и программы, так или иначе объединяющие в себе эти приборы. Рассмотрим их на примере Waves C1 gate-comp:

Кажется несколько сложным, но на самом деле все предельно просто - по горизонтальной шкале - входная амплитуда, по вертикальной - выходная. Прямая линия из левого нижнего (начало координат) в правый верхний угол будет означать, что звук проходит без изменений. Теперь смотрим на рисунок: бирюзовая полоска слева внизу (помечено цифрой "1") начинается несколько правее начала координат, примерно от отметки -80dB. Значит, что при амплитуде входного сигнала ниже -80dB выходная будет равна нулю, то есть все шумы (и полезный сигнал, конечно) ниже этой громкости будут отсечены шлюзом (gate) - эта часть графика работает как гейт. Поднимаемся до цифры "2". Угол наклона полоски явно круче, чем 45 градусов, выходной сигнал растет (от -100 до -60) в два раза быстрее входного (от -80 до -60), расширяя таким образом в два раза динамический диапазон на этом отрезке. Так работает экспандер. Следующий участок - прямая линия в 45 градусов, эта линия нам больше не интересна, а вот желтая линия возле цифры "3" плавно склоняется к горизонтали - начинается компрессия: динамический диапазон сжимается, в противовес экспандеру. Обратите внимание: возле цифры "4" линия стала практически горизонтальной, с этого момента сколько бы ни усиливался дальше входной сигнал, на выходе он будет лимитирован в -10dB. Этот участок работает как лимитер. Краем коснемся еще нескольких мелких, но важных моментов: чаще всего звук нарастает быстрее, чем спадает и, как следствие, эффективно отключение гейта на уровне более низком, чем его включение. Разлет между включением и выключением гейта, к примеру. на нашем рисунке, показывают две голубых стрелки-треугольничка сразу под графиком. Кроме того, на графике не отображаются, но достаточно важны еще два параметра: скорость открытия гейта после получения на входе нужного сигнала, и скорость его закрытия после пропадания сигнала. Второй параметр даже важнее, слишком быстрое закрытие гейта сделает "хвост" сигнала неестесственным. Эта ошибка характерна для начинающего "чистильщика шума" не только при настройке гейта, но и при "ручном" неумеренном вырезании пауз. Для удаления пограничных звуков (при записи в несколько микрофонов) лучше гейта справится экспандер, который можно считать "мягким аналогом" гейта - он ослабляет сигнал по заданной нами кривой, приглушая его тем сильнее, чем ниже его уровень. Таким образом, можно аккуратно и "естесственно" снять или в значительной мере ослабить звучание "лишних" инструментов при многодорожечной записи ударной установки, или в других подобных ситуациях.: многодорожечные "аппаратные" студии часто используют пару "запись с завышением амплитуды сжатого сигнала над будущим шумом ленты+обратное расширение динамического диапазона с вытеснением шума вниз на выходе" (напр., dbx). За красивым названием Dolby A тоже "спрятаны" такие механизмы ухода от шума, но поделенные по частотам на четыре самостоятельных гейта (80Гц - гул, грохот; 80Гц-3КГц - взаимопроникновение звука из соседних каналов; от этого диапазона и в оставшихся двух - 3КГц, 9КГц - шипение и модуляционный шум). Конечно, "выдавливание" шума при выходном разжатии работает только в случае, если сигнал соответствующим образом был сжат на входе, что существенно снижает эффективность метода в "универсальных" условиях. В отличие от профессиональной "сестры", бытовая система Dolby B просто... обрезает верхние частоты (от 5КГц и выше), когда амплитуда спадает до определенного уровня, и открывает их, когда уровень вырастет до порога открытия. Просто и достаточно эффективно, и вполне может применяться как мягкий гейт даже для "неподготовленных" (в отличие от Dolby A) записей. Конечно, Dolby-системы (как и любые гейты) несколько "омертвляют" звук - бесплатный сыр бывает только в мышеловках. Но любая система требует точной настройки, а во-вторых, существуют приемы, позволяющие скрасить эти побочные эффекты, а часто и вовсе сделать их незаметными.

Де-эссер (DeEsser) - как подсказывает название, уничтожает излишки шипящих и свистящих согласных (и подобных им звуков) в обрабатываемом сигнале. Упрощенно можно рассматривать его как компрессор-лимитер, настроенный на узкую (перестраиваемую Вами) область высоких частот. Это название целого класса устройств; по аналогии с ними Steinberg назвал свой программный модуль удаления щелчков Declicker ("де-кликер"). Кроме того, появление в русском языке "дэссеров", "энхансеров-эксайтеров" и т.д., привело к появлению жаргонного обобщения психоакустических и мастеринговых устройств задорным словом "улучшайзеры", а сам процесс обработки ими - "улучшайзингом".

Звук: глухой, гулкий, звенящий, назойливый, невыразительный, артикулированный, грязный, размытый, слащавый, рыхлый, агрессивный, задавленный, пластмассовый, фанерный, теплый, мягкий, тусклый, ленивый, режущий, закрытый, перегруженный, жирный, прозрачный, плотный, воздушный - востину велик и могуч русский язык; все эти термины относятся к описанию звучания инструментов, миксов и "немузыкальных" дорожек. При полной порой "иррациональности" смысла они дают четкую характеристику звучанию. Не стесняйте себя в выражениях - и Вы сможете гораздо легче объяснить (или понять), чего не хватает, а чего в избытке в звучании обрабатываемой дорожки.

Нормализация (Normalize) - способ максимально увеличить сигнал, не перегружая и не меняя его динамический диапазон (в отличие от компрессии). Для этого при первом проходе по дорожке программа нормализации находит самый громкий пик сигнала (как правило), или вычисляет средний уровень RMS (среднее значение напряжения для одного колебания) для дорожки (такой метод используется реже). Затем полученное значение сравнивается с заданным пользователем (попросту одно число делится на другое), и вторым проходом амплитуда всей дорожки последовательно перемножается на полученный коэффициент. Конечно, если полученное при первом проходе значение окажется больше указанного Вами, общий уровень дорожки будет уменьшен, и наоборот.

Передискретизация (oversampling, "оверсэмплинг") - способ обмануть при оцифровке суровые законы физики, и получить приличные результаты оцифровки на более дешевых и простых фильтрах. При этом за счет примешивания "своих" сэмплов, модуль передискретизации как бы "повышает" частоту сэмплирования. Еще одним полезным эффектом этого этапа оцифровки является заброс отразившихся от частоты Найквиста более высоких частот обратно в неслышимую часть звукового диапазона. Обратным процессом является прореживание (decimation, "децимация"), когда сигнал снова деградируется до "штатных" частоты и разрядности. Разница между фактической частотой АЦП и "внутренней", передискретизационной, может достигать сумасшедшей разницы - до 128 раз. (к примеру, для 44100 Гц это была бы частота 5.6МГц!)

Реверберация - процесс добавления "объема" звуку, заключающийся в примешивании к основному "сухому" сигналу более тихой копии его же, но слегка отстающей по времени и "размытой", как будто источник звука расположен, скажем, в длинном коридоре с каменными стенами. Надо отличать реверберацию (reverb, verb, разг. "ревер") и задержку (delay, "эхо"): первая добавляет нечеткий размытый хвост, наличие в котором "дробей" исходного сигнала недопустимо и говорит о невысоком качестве ревербератора; вторая создает четкие повторы, такие же "сухие", как исходный сигнал. Таким образом, известный анекдот про грузинский "ревер", отвечающий "Адын, адын, адын..." на сказанное в микрофон "Раз...", на самом деле не имеет к собственно ревербератору никакого отношения. Сегодня существует новый вид устройств, очень верно называемый симуляторами пространств. О них дальше, а здесь напоследок отметим, что формальное различие между реверберацией и задержкой заключается как раз в подобной зрению инерционности человеческого уха, воспринимающего отражение сигнала как самостоятельный звук, если между основным сигналом и отражением прошло 50мсек и больше.

Режекторный фильтр - фильтр, выборочно вырезающий определенную полосу (или очень узкую полосу частот). Чем шире такая полоса, тем хуже добротность фильтра (неважно, какого он типа), и наоборот. Прибор, состоящий из нескольких независимых режекторных фильтров, называется супрессором.

Резервные копии - хорошее средство избежать инфаркта. Чаще делайте резервные копии, не брезгуйте проверять, включено ли Undo, и по возможности, не совершайте необратимых действий.

Симуляторы пространства. Если раньше в ревербераторе крутили регуляторы обратной связи, громкости и частоты повтора, то сегодняшние симуляторы оперируют такими параметрами, как "объем помещения", "плотность, звонкость воздуха", "отражение-впитывание стен", "близкие и дальние отражения", а также позволяют создавать совершенно немыслимые в физическом мире пространства - например, в которых реверберация существует только для средних (или низких, или высоких) частот. Неудивительно, что вместо слова "reverberator" сегодня часто используют либо "verb", либо вообще "hall" или "room" ("холл", "рум" - зал, комната). Кроме того, есть специализированные симуляторы, которые предоставляют набор готовых, профессионально созданных, имитаций известных концертных площадок. Ну разве не заманчиво послушать, как твой микс звучал бы с балкона в La Scala?

Сэмпл (сэмпл, "sample") - буквально, "образец". Термин используется в самых разных смыслах: например, секунда звука с частотой сэмплирования 44100 Гц содержит соответственно 44100 сэмплов (разовых замеров амплитуды). Или: оцифрованный звук (отдельно сыгранная нота или аккорд клавишного инструмента или, напротив, шум дождя или тиканья часов) также принято называть сэмплом, а прибор, позволяющий цифровать и проигрывать сэмплы, в свою очередь, сэмплерами. Если сэмпл подготовлен так, что его можно играть "вкольцевую" без заметных на слух стыковок конца сэмпла с его же началом, такой сэмпл принято называть "луп" ("loop", петля); если петля содержит ритмический рисунок (обычно ударные или перкуссия), ее называют "паттерн" (pattern, тоже "образец", но с оттенком ближе к словам "рисунок, узор"). Из-за синонимичности этих двух терминов в английском иногда возникает путаница, например, в программах, удаляющих шум из аудиосигнала образцовый отпечаток шума может называться и "noise sample", и "noise pattern", и даже "noise print" (третье, с моей точки зрения, более верно - по аналогии с "fingerprint").

Шина - в "реальном" мире - звуковой тракт, в котором смешиваются сигналы от нескольких входов микшерного пульта. Может использоваться как суммирующая выходная (т.н. Master), либо промежуточная для введения в общий микс звуковых эффектов, быстрой коммутации сигналов или просто контрольного прослушивания (AUX, подгруппа, FX-bus, и т.д.). В виртуальном - ее точная имитация в многодорожечных звуковых редакторах. В микшерных пультах некоторых звуковых карт также встречается AUX (и даже AUX2), но в этом случае он обозначает просто дополнительный вход, распаянный на карте аналогично CD In.

Шумопонижение может производиться разными способами и алгоритмами. Обычно программа либо работает по примеру гейта, настроенного только на высокие частоты (подробнее см. выше пункт "Компрессор"), либо в паузе, не содержащей полезного сигнала, захватывает "образцовый" шумовой отпечаток, по которому "опознает" и удаляет его по всей длине дорожки.

Эквализация - происходит от слова "эквалайзер", в целом - коррекция частотной характеристики (АЧХ). Простейший пример эквалайзера - ручки "ВЧ"-"НЧ", или "Bass"-"Treble" на бытовой аппаратуре, только у эквалайзера таких ручек очень много. У "правильного" эквалайзера, кроме того, эти ручки не привязаны к какой-то конкретной частоте, позволяя с равной легкостью управлять любой из частот. Более навороченные эквалайзеры (в основном программные) позволяют выбирать еще и тип каждого из фильтров, и мгновенно выключать-включать любой из них в наборе, проверяя его на необходимость или просто степень его воздействия на звук. (NB: несмотря на кажущуюся простоту (или благодаря ей?), эквализация - один из самых сложных, и самых опасных этапов обработки звука. Именно эквализация очень критична к неудачным действиям). Подробно о типах фильтров рассказано в следующих частях, на примере очень хорошего программного эквалайзера Waves Q10. Пока же вкратце посмотрим, на какие условные диапазоны можно поделить частоты, и кто там "живет".

· 10Гц - 80Гц. Низкие басы - именно в этом диапазоне гудят высоковольтные провода, и именно низкие басы во многом придают звуку глубину, оставаясь малозаметными. Это барабаны и сабвуферы.

· 80Гц - 200Гц. Верхние басы. Верхние ноты басовых инструментов, и нижние - гитары. Здесь мощь и объем ударных инструментов. В этом диапазоне сконцентрирована основная энергия ритм-секции. В этом же диапазоне и чуточку выше - наиболее частые резонансные "заводки" акустических гитар и электрических бас-гитар. Отсюда надо начинать убирать "гулкость" акустики.

· 200Гц - 500Гц: низкие средние частоты. Диапазон гитары и аккомпанемента вообще. К середине диапазона обманчиво гаснут производные гармоники от "сетевого" фона в 50Гц, проявляясь вновь на его верхней границе - ровно в 500Гц. Прибрав пару децибел в нижней половине этого и предыдущем диапазонах, можно снять излишнюю "мутность" звучания - оборотную сторону плотности.

· 500Гц - 2.5КГц - "средние средние". Здесь - сольные партии инструментов, голос, фортепиано; при недостатке этих частот музыку часто называют "смурной" или "занудной". Усилением этого диапазона можно приблизить, "утеплить" звук. Убрать лишнюю резкость звука можно здесь же и чуть выше - найдя соответствующие частоты в области 1-3КГц.

· 2.5КГц - 5КГц - верхние средние. В этом диапазоне - только самые верхние ноты некоторых инструментов, здесь начинается область гармоник и обертонов, эту (и выше) область спектра усиливают эксайтеры (энхансеры), придавая звуку яркость, воздушность, читабельность. Злоупотребление этой частью спектра приводит к быстрой утомляемости слушателя.

· 5КГц - 10КГц. Низкие высокие, где наиболее заметны искажения и шумы, (как шум пленки или треск винила) - полезного сигнала здесь практически не встречается. Эти частоты считаются верхним пределом восприятия человеческого слуха, и порой студии, чтобы снять шум пленки, втупую обрезают все, что выше 10КГц (при этом, конечно, теряется некоторая "прозрачность" звучания). Здесь Вы можете по полной использовать преимущества компьютерной обработки, и аккуратно вырезать выраженные частотные пики, "запрятавшиеся" в общем шуме, и очень сильно "загрязняющие" звук (хотя слушатель порой не может даже объяснить, в чем тут дело), и также вызывающие "слушательскую утомляемость". После эксайтинга (см. ниже) низкокачественных записей я рекомендую обязательно проверить верхние частоты на предмет таких "засад" - они вполне вероятны. Методика поиска подробно описана в следующих частях. В целом же, подъем частот в районе 10КГц прибавляет звуку немного яркости.

· 10КГц - 20КГц - верхние высокие частоты. Если их убрать, многие люди не услышат явной разницы, однако Вы явно почувствуете, что чего-то стало не хватать. Что же касается запрятанных посреди шума тонких "писков", стартовавших с предыдущего диапазона, то мне случалось "ловить" их и на 16КГц, так что теория теорией, а... кстати, после точного вырезания даже одного такого пика (или всех, если их несколько) полезный звук практически ничего не теряет, а Вы явно почувствуете, лёгкость в прослушивании.

В каждом случае, конечно, подбирать нужную частоту (или группу частот) придется индивидуально, готовых решений здесь нет и быть не может. И слава Богу ;)

Эксайтинг - обработка звука эксайтером (или иначе - "энхансером"). Действие этого психоакустического прибора немного напоминает банальное "добавление верхов", но выгодно отличается от него - "железо" звучит явно ярче, повышается "читабельность" материала в целом, голоса становятся более "открытыми", клавишные и духовые приобретают характерный "воздух" в звучании. Происходит это благодаря "накачиванию" четных\нечетных гармоник от частот, имеющихся в обрабатываемом сигнале.

Яма, провал - в общем означает отсутствие звука. Может выражать: недостаток усиления той или иной частоты (график, кстати, при этом так обычно и выглядит), либо отсутствие инструментов в том или ином месте панорамы (при стереосведении); кроме того, "звуковой ямой" также называют место прямо перед сценой, куда очень плохо попадает звук от широко расставленных и повернутых в зал акустических систем.

ГЛАВА 3 СРЕДСТВА РЕСТАВРАЦИИ И ОБРАБОТКИ

· Adobe Audition - бесспорно, один из лидеров в классе звуковых редакторов. И самый удобный по части интерфейса. позволяет создавать, редактировать, записывать и микшировать музыку, очищать звук, редактировать звуки для презентаций. Поддержка виртуальных инструментов VSTi, современные средства микширования, стали доступны новые звуковые эффекты, функции восстановления звука, а так же можно отметить поддержку многопроцессорных систем и оптимизированная платформа микширования. Благодаря этому пользователи могут работать с большим числом треков и эффектов на одной рабочей станции. К улучшенным средствам микширования также можно отнести возможность редактирования сгруппированных клипов, автоматические эффекты затухания.

· В программе используются новые средства для адаптивного устранения шума и инструменты для поэтапной коррекции, которые помогают восстановить старые записи. В режимах Spectral Pan и Spectral Phase появился инструмент Marquee, помогающий визуально отделить любой участок аудиодорожки по критерию времени, частоты и пр.

· Cakewalk Sonar 3 PE - в общем, подойдет даже старый CakeWalk 9, или другой качественный многодорожечник, к примеру, Cubase SX2, но рассматривать процесс мы будем на примере Adobe Audition.

Плагины (дополнительные модули обработки звука; подключаются к "основным" программам "на лету"):

· DeClicker от Steinberg - "борет" все, что звучит как "клик" - щелчки, трески, шум грампластинок, и даже чинит не слишком "злобные" клипы. Имеет три альтернативных алгоритма удаления кликов, и каждый из них время от времени пригождается там, где два других пасуют. В принципе, им можно пользоваться и для удаления низкочастотных щелчков.

· Waves... большой набор плагинов в самой разнообразной комплектации (Gold, Platinum, и т.д), самый "упакованный" из них - Waves Diamond Bundle. Из всего многообразия "waves-бриллиантов", нас интересуют в первую очередь:

· - Waves Q10 Paragraphic EQ

· - Waves DeEsser

· - Waves L1-Ultramaximizer+

· - Waves TrueVerb (R-Verb)

· - Waves IDR (он встроен и в L1-Ultramaximizer+)

· DSP/FX Vitrual Pack 6.2 - пять плагинов из этого пакета были впоследствии интегрированы в Sonar, с круто раскрашенными интерфейсами; к сожалению, при этом "потерялся" один из ключевых в пакете и, пожалуй, лучший в классе энхансеров ("Enchance") - "Aural Activator". Так что хотя бы из-за него одного, а пакет нужен.

ГЛАВА 4 ПРАКТИЧЕСКАЯ ЧАСТЬ РАБОТЫ

Оцифровывание производилось на студии БТ по перезаписи аудиоматериала.

Использовалось оборудование:

Ленточный магнитофон Revox

Микшерный пульт Yamaha MX200

Встроенная звуковая карта RME

Исходный и конечный материал прилагается.

Разберём реставрацию на примере оформительской композиции эстрадного оркестра Павла Овсянникова - “Восхождение”. Дата записи на аудиоплёнку в 1987г с плёнки ТВ.

Так выглядит исходный оцифрованный аудио сигнал. Хочу напомнить, что запись на плёнку сделана была в моно, но я записал его как двойное моно или “псевдостерeо”.

Следующим шагом в реставрационном процессе занимает нормализация до 0 dBu. Базовая нормализация нужна, для того, чтобы при её конечной, после всей обработки, не остался собственный шум тракта магнитофона и звуковой карты.

Процесс нормализации выполнен, перейдем к следующему не маловажному процессу. Это процесс шумоподавления. На рисунке изображен в спектральной экспозиции сам плагин “Noise Reduction”, где можно выбрать его уровень, выборку и диапазон частот. Он работает по прицепу вычитания нежелательного образца шума. Захват - Вычитание.

После процессинга спектральный анализ визуально стал чище и лучше. На самом деле тут тоже есть свои каверзные ситуации. Например, при неверном захвате полезного сигнала можно получить “срезанный” АЧХ.

Следующий процесс будет удаление “наводки” в районе 19-20 кГц которая видна на следующем рисунке. В моей работе они довольно часто присутствуют в спектре сигнала.

Просто смело удаляем её без прочих настроек и обработок.

Перейдем к следующему этапу реставрации, такому как “Панорамирование” или “Graphic Panner”. Даже при оцифровывании магнитной ленты моно в стереодорожку есть погрешность считываемой головы в неточном балансе и, так называемое, “качание” пленки оставило свой след в цифровом сигнале. Это можно увидеть в ещё одном режиме отображения “Спектральная панорама сигнала” или “Spectral Pan Display”

В самом процессе есть удобная функция автоматического выбора центра панорамы или “Auto Center Pan”. После обработки убралось частое “качание” из одного канала в другой и само звучание композиции стало ровнее.

Следующим шагом моей обработки были восстановление “проваленной” области каналов посредством замены малой части спектра одного канала в другой и наоборот. На изображении визуально показана одна из проблемных областей.

После технически правильного аудиовизуального восприятия композиции можно переходить к следующим не маловажным этапам, это этапы “эквализации” и “компрессии”. Компрессор у меня настроен таким образом, чтобы сгладить пики синусоиды ударных инструментов, а точнее барабана. По моему мнению он немного выбивается из общего микса, а процесс эквализа ции придаёт композиции другое звучание.

Что касается данной записи, то она прошла немалый путь до моего оцифровывания и реставрации. Это запись с телевизионной пленки КАДР на аудиопленку, а уже с неё был сделан дубль, который, собственно, я и обрабатывал. Сохранение композиции в изначальном варианте исполнения и сведения звукорежиссёрами до меня было прерогативой в работе. Задачи улучшения являлись творческим и эстетическим процессом, а не простым системным оцифровыванием.

Следующая моя работа была плёнка 1960г. записи. Это “Концерт для арфы с оркестром” II часть “Andante” Р.Глиер

Поскольку запись была сделана в 60-х годах, время и условия хранения магнитной ленты дали необратимые результаты на качество и добротность аудиоматериала. Присутствуют обрывы пленки, которые восстановлению не подлежат и информация на ней безвозвратна утеряна. Моя задача заключается в сохранении и восстановлении ленты на сколько позволяют технические средства. И с этой задачей я справился. И теперь рассмотрим подробнее:

Представлен спектральный анализ.

Выполнялись в данной композиции: первоначальная нормализация, шумоподавление как и в первой работе, где 0 dBu - нормализация, а процесс вычитания спектра шума - шумоподавление. Но одним процессом для шума в данной обработке не обойтись, и я использовал X-Noise, процесс мягкого шумоподавления для разных видов шума.

Следующий процесс в моей работе это удаление щелчков и треска. Щелчки видны на изображении, как и плагин, которым я пользуюсь, а имя его “Automatic Click Remover”

Он подходит как и для композиции целиком, так и для выбранной проблемной области. Автоматически удаляет некоторые щелчки и трески, что мне очень помогает и экономит время. Вручную удаляются те щелчки, которые не захватил Click remover. И следующий “ручной” плагин это Click/Pop Eliminator.

Важное значение имеет настройка данного процесса, глубина среза АЧХ, выборка, и ранее упомянутый “Oversampling”, если оцифрованный материал имеет цифровые нежелательные артефакты.

На следующем изображении мы видим разрыв плёнки и сигнала. Он хорошо представлен в спектральном панорамном анализе.

Очень важно его правильно “склеить”. Синусоида одного конца и другого в месте склеивания должны быть равны нолю. В противном случае мы получаем нежелательный артефакт в виде щелчка, который может быть в любом месте частотного диапазона.

Стоит понимать, что пользоваться всеми процессами в обработке стоит осмысленно и без фанатизма, т.к речь идёт об улучшении, а не о ухудшении.

Эквализацию мы уже рассматривали и роль этого процесса тоже знаем.

ЗАКЛЮЧЕНИЕ

Любой человек, взявший на себя роль реставратора, несет непосредственную ответственность за проделанную им работу вне зависимости от результата. И стоит понимать, что субъективное понятие качества и добротности звука или аудиоматериала напрямую зависит от способностей человеческого слуха и психоакустических восприятий. Эта работа мне даёт богатый опыт и сноровку в записи и обработке звука, поскольку постоянный тренинг правильного звучания и эстетической красоты звука способствует однозначно верному подходу к любимому делу.

Звукорежиссёр - это не только штатный работник радио, студии, концертного зала и сцены, но и творческая личность, как креативное лицо с новаторской идеей. Способность быстро уловить потребности слушателя, создать атмосферу звуковосприятия теми средствами, которые есть под рукой, если нужно грамотно обработать звук или его характеристики - есть прямая задача любого уважающего себя звукорежиссёра.

Звук и природа звучания - неотъемлемая часть человека и его жизни, он окружает нас во всём. И если научиться анализировать и правильно пользоваться им, то можно всегда покорить сердца людей!

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ

1. М. В. Гитлиц - Радиовещание и электроакустика

2. Подгорная Е. А. - Магнитная аналоговая запись. Учебное пособие

. Роман Петелин, Юрий Петелин - Waves - Динамическая обработка звука

. Медведев Е. В., Трусова В. А. - Nuendo и Adobу Audition

. Никамин В.А - Цифровая звукозапись. Технология и стандарты

. wikipedia.org

7. google.com

8. http://zvukach.ucoz.ru/

Оцифровка и реставрация аудиоматериала

Оцифровка и реставрация аудиоматериала

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

Виниловая пластинка

Похожие работы на - Оцифровка и реставрация аудиоматериала