Исследование процессов формирования и передачи аудиоинформации с борта летательного аппарата

  • Вид работы:
    Дипломная (ВКР)
  • Предмет:
    Транспорт, грузоперевозки
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    1,63 Мб
  • Опубликовано:
    2014-09-02
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Исследование процессов формирования и передачи аудиоинформации с борта летательного аппарата















Тема: Исследование процессов формирования и передачи аудиоинформации с борта летательного аппарата


Студент Музыченко Роман Николаевич

Содержание

Список принятых сокращений

Введение

1. Средства передачи с борта и их характеристики

1.1 Радиосвязные системы

2. Методы и алгоритмы повышения разборчивости речи, критерии разборчивости

2.1 Определение понятия "качество передачи речи"

2.2 Методы измерения разборчивости речи

2.3 Свойства речевых сигналов, влияющих на разборчивость

2.4 Свойства слуха, влияющие на разборчивость

2.5 Разработка методики оценки разборчивости

2.5.1 Организация эксперимента по оценке

3. Методы распознавания речи и их связь с повышением разборчивости

3.1 Технология распознавания речи

3.2 Методы распознавания речи

4. Классификация и анализ акустических шумов в кабине летательного аппарата, разработка контрольного генератора

4.1 Формирование шумов

4.2 Формирование аддитивной смеси речевого сигнала с шумом

4.2.1 Белый шум

4.2.2 Розовый шум

4.2.3 Коричневый шум

4.3 Модель оценивания разборчивости на базе измерения отношений сигнал-шум в парциальных каналах

4.4 Вычисление формантной и словесной разборчивости речи

5. Модель формирования очищенной речи и ее исследование

5.1 Построение спектрограмм-specgram

5.2 Шумоподавление на основе алгоритма спектрального вычитания

5.3 Адаптивное шумоподавление на основе спектрального вычитания

5.4 Адаптивное подавление акустических шумов методом наименьших квадратов

5.5 Сходимость адаптивных фильтров

5.6 Медианная фильтрация

6. Исследование влияния канала передачи информации на конечное качество речевого сигнала

. Расчет сметы затрат на исследование процессов формирования и передачи аудиоинформации с борта летательного аппарата

. Безопасность труда при исследовании процессов формирования и передачи аудиоинформации с борта летательного аппарата

Заключение

Список использованной литературы

Список принятых сокращений

ЛА - летательный аппарат

СВЧ - сверхвысокие частоты

ВЧ - высокие частоты

СЧ - средние частоты

НЧ - низкие частоты

БПФ - быстрое преобразование Фурье

СНС - сигналы наземной станции

УВД - управление воздушным движением

ТПР - тракт передачи речи

МККР - Международный консультативный комитет по радиосвязи

ЭВМ - электронная вычислительная машина

МНК(LMS)- метод наименьших квадратов

Введение

Наряду с огромными успехами в развитии авиационной промышленности следует отметить и тот факт, что до сих пор еще слишком мало внимания уделяется выработке конкретных и действенных правил обеспечения безопасности движения самолетов в воздухе и на земле. Повышение безопасности полетов является жизненной необходимостью, поскольку оно служит делу укрепления доверия общественности к авиации.

Уровень безопасности полета определяется несколькими факторами: техническое состояние непосредственно самолета, уровень тех систем, которые находятся на борту, подготовка экипажа, и собственно организация движения, управление воздушным транспортом. Так называемый человеческий фактор является причиной 70% авиационных происшествий. Это происходит по многим факторам, в частности из-за не качественной радиопередачи. С учетом далеко идущих последствий инцидентов, связанных с актами незаконного вмешательства, и необходимости быстрого и эффективного сотрудничества со многими учреждениями с широким кругом ответственности совершенно необходимо, чтобы диспетчеры воздушного движения, несущие юридическую ответственность за подверженное такому акту воздушное пространство, узнавали обо всех аспектах ситуации как можно быстрее и вслед за этим своевременно передавали необходимую информацию старшему персоналу ОВД с целью предпринятая последними соответствующих действий. Именно это обстоятельство определило выбор темы дипломной работы, поскольку качественный эфир может позволить избежать летного происшествия.

Важная роль в обеспечении безопасности принадлежит системам оперативной связи БОРТ-ЗЕМЛЯ. Одна из важнейших систем безопасности это система регистрации переговоров экипажа, результаты анализа записей которой, являются одним из основных документов при расследовании летных происшествий и катастроф самолетов. Подробный анализ аудиозаписей позволяет восстановить картину происшествия, но, к сожалению, не позволяет предотвратить его. Системы аварийной и экстренной связи, предназначенные для оперативной передачи сообщений о нештатных ситуациях на борту, далеко не во всех случаях могут быть своевременно активированы и неспособны отразить предысторию развития текущей нештатной ситуации в кабине самолета. Осознание важности для безопасности полетов решения проблемы непрерывного (on-line) отображения информации (аудио и даже видео) с борта, привело к появлению ряда разработок в этом направлении. Помимо этого актуальна оперативная связь со службами управления полетами при проведении летных испытаний новой техники.

Данная дипломная работа направлена на исследование возможности улучшения характеристик канала связи с центром управления (диспетчером). Особенностью канала является формирование перед передачей с борта (из кабины) аудиоинформации максимальной разборчивости (определить критерий разборчивости речи через вероятность распознавания слов).

Использование формирователя позволяет:

а) максимально адекватно воспринимать диспетчером содержание переговоров в кабине;

б) повысить вероятность автоматического распознавания ключевых (тревожных) слов на земле;

в) обеспечить высокую степень сжатия передаваемого сигнала (для снижения нагрузки на канал).

Для решения поставленной задачи необходимо:

рассмотреть имеющиеся и перспективные каналы передачи с борта;

проанализировать алгоритмы и средства повышения разборчивости речи;

рассмотреть методы распознавания речи и выбрать метод оценки разборчивости речи;

исследовать и классифицировать виды аудио шумов в кабине, мешающих распознаванию речи;

разработать модель формирования «очищенной» речи;

выбор и построение канала связи;

исследовать эффективность предложенного формирователя.

1. Средства передачи с борта и их характеристики

.1 Радиосвязные системы

Радиосвязные системы предназначены для:

двустороннего обмена информацией между экипажем ЛА и наземными радиостанциями;

двустороннего обмена информацией между экипажем ЛА и другими ЛА;

для внутренней связи между членами экипажа;

для связи между экипажем и пассажирами.

В обязательный минимум радиосвязного оборудования пассажирских самолетов входят:

радиостанция СВЧ-связи;

радиостанция ВЧ-связи;

радиостанция для аварийной связи.

Радиостанция СВЧ-связи предназначена для оперативной связи в пределах прямой радиовидимости (до 350 км). Она работает в диапазоне 118-137,975 МГц, шаг частоты настройки 25 кГц. Так как это основная связная система, на ЛА устанавливают 2 комплекта аппаратуры - один основной, другой резервный. Соответственно имеется две антенны, одна - верхнего расположения (на нее работает основной комплект), другая - нижнего расположения (на нее работает второй комплект).

Радиостанция ВЧ-связи (рисунок 1.1) предназначена для дальней связи на расстояниях до 3000 км. Диапазон частот ВЧ-связи 2-30 МГц, шаг настройки 1000 Гц (28000 каналов). На ЛА устанавливают 1 или 2 комплекта аппаратуры.

Портативная радиостанция для аварийной связи и подачи сигналов бедствия работает на частотах 121,5 и 243 МГц.

В приполярных и полярных районах нужна еще радиостанция диапазона 325-530 кГц.

Выбор радиостанции для связи и настройка ее частоты на современных ЛА производится при помощи того же многофункционального пульта управления, который используется для настройки радионавигационных систем. Для этого в приемопередатчиках предусматривается прием стандартного цифрового последовательного кода, которым передается частота настройки от МФПУ.

Рисунок 1.1 Радиостанция ВЧ-связи

На многих современных ЛА устанавливается станция спутниковой связи.

Спутники связи логично дополняют орбитальные группировки глобальных навигационных систем, позволяя значительно улучшить характеристики последних за счет использования систем регионального увеличения RAS (Regional Augmentation System). По широкополосному каналу этой системы осуществляется ретрансляция сигналов наземных станций СНС. Однако основное назначение спутниковой связи заключается в организации служебной связи и связи пассажиров с абонентами, находящимися вне пределов прямой радиовидимости.

Системы спутниковой связи обеспечивают высококачественную цифровую связь с высокой степенью надежности в любой точке земного шара.

Летные экипажи с помощью спутниковой связи получают доступ к информации служб обеспечения полетов, в том числе к информации о метеоусловиях. Экипажи получают доступ к оперативной информации аэропортов о положении на воздушных трассах. При этом сообщения об изменениях графика движения поступают в реальном масштабе времени. С борта на землю через спутник передаются данные для управления полетом, например, о количестве топлива на борту, расчетное время прибытия, показания аппаратуры. Используя эту информацию, персонал наземных служб может лучше спланировать подготовку необходимого оборудования для минимизации времени обслуживания самолета.

Важное значение имеет передача экстренных сообщений об аварийных ситуациях, попытке угона самолета и т.п. Пассажирам спутниковая связь дает возможность в полете разговаривать по телефону и посылать факсимильные сообщения или цифровые компьютерные данные в любую точку земного шара. Бортовые телекоммуникационные службы спутниковой связи позволяют осуществлять продажу билетов и резервирование мест прямо на борту самолета, а также организовывать ряд дополнительных услуг.

Спутниковая система связи состоит из наземной станции связи, спутников и бортовой станции связи. Наземная станция выполняет функции управления системой и представляет собой «шлюз» для входа в наземные сети связи. Спутники, расположенные, как правило, на геостационарных орбитах, транслируют сигналы связи между бортовыми станциями связи и наземными станциями или между наземными станциями.

Бортовые станции связываются со спутниками на частотах L-диапазона (1530-1670 МГц) и через них - с наземными станциями связи. Бортовая станция включает систему связи салона, терминал спутниковой связи, одну или несколько антенн (для обеспечения многоканальности). Система связи салона содержит блок сопряжения с телефонами, факсимильными аппаратами и компьютерами пассажиров, с оборудованием связи кабины, с бортовым оборудованием связи, включая сопряжение с Североамериканской телефонной системой (NATS), Европейской телефонной системой связи земля - самолет (TFTS) и системой Gatelink. NATS представляет собой сотовую телефонную систему СВЧ-диапазона, TFTS является европейской сотовой телефонной системой L-диапазона, а система Gatelink- это система сопряжения со службами телекоммуникации, доступными через межсетевой интерфейс. Блок сопряжения выполняет те же функции, что и учрежденческая АТС с входящей и исходящей связью.

Стандартная система связи ЛА обеспечивает гибкость в выборе типов телефонных аппаратов, факсимильных аппаратов, компьютеров и оборудования кабины, поэтому требуется еще один блок - промежуточный блок спутниковой телекоммуникации, который транслирует сигналы из блока сопряжения в формат, используемый системой спутниковой связи и передает в терминал спутниковой связи. В терминале происходит формирование сигналов для передачи речевой информации, факсимильной информации и данных, выполняются функции модуляции/демодуляции, исправления ошибок, кодирования, уплотнения, преобразование в высокочастотные сигналы с полосой частот 1626,5-1660, 5 МГц. Входные сигналы принимаются антенной системой с полосой радиочастоты 1530-1559 МГц и поступают в терминал для демодуляции.

Доступный уровень обслуживания зависит от скоростей пропускания каналов системы, которые, в свою очередь, зависят от коэффициента усиления антенной системы. Антенная система с низким коэффициентом усиления имеет одну небольшую антенну со всенаправленной диаграммой направленности. Она позволяет вести передачу данных с малой скоростью передачи (600 бит/с). Применение антенны с высоким коэффициентом усиления позволяет осуществлять высокоскоростную передачу данных, речевых и факсимильных сообщений со скоростью 21000 бит/с. Коэффициент усиления такой антенны увеличивается путем фокусирования большого количества энергии в нужном направлении, а это означает наличие более узкого главного лепестка диаграммы направленности антенны.

Следовательно, главный лепесток диаграммы направленности антенны с высоким коэффициентом усиления должен управляться и ориентироваться на спутник. Для этого терминал спутниковой связи непрерывно определяет направление на спутник. Данные углов тангажа и крена, а также курса, широты и долготы самолета терминал принимает от инерциальной навигационной системы. Положение всех спутников в системе связи хранится в его памяти. Используя данные о местоположении спутников и данные о текущем положении ЛА, терминал вычисляет направление на ближайший спутник. Данные об этом угле наведения поступают в подсистему антенны с высоким коэффициентом усиления, которая нацеливает луч в нужном направлении.

Кроме перечисленных систем на борту ЛА может устанавливаться следующая радиосвязная аппаратура:

радиолокационный ответчик УВД;

система селективного вызова;

система адресной связи;

аппаратура внутренней связи экипажа;

усилитель связи с пассажирами.

Радиолокационный ответчик УВД предназначен для работы с наземными аэродромными и трассовыми вторичными радиолокаторами служб управления воздушным движением. В зоне действия такого радиолокатора ответчик обеспечивает автоматическую выдачу координатной отметки местоположения ЛА и информацию о высоте полета и номере (идентификаторе) ЛА. Для отечественных систем УВД ответчик передает также информацию об остатке топлива. Современные ответчики предусматривают также возможность приема информации от служб УВД для передачи ее пилотам. Частота работы в передающем режиме 1090±0,06 МГц, в приемном - 1030 МГц.

Ответчик содержит два приемопередатчика, каждый из которых работает на верхние, нижние и килевые антенны, а также пульт управления.

Система селективного вызова позволяет осуществлять вызов конкретного самолета или вертолета с наземной станции по радиоканалу.

Наземную часть системы составляют кодер (блок, осуществляющий селективную кодировку) и ВЧ- или СВЧ-передатчик. На борту устанавливается приемник, декодер и панель установки кода ЛА.

Система адресной связи использует существующее радиосвязное оборудование для передачи с самолета на землю и обратно цифробуквенной информации в формате ACARS. Существующие системы адресной связи работают в ВЧ-диапазоне. Новое поколение этих систем будет использовать СВЧ-диапазон.

Аппаратура внутренней связи обеспечивает:

двустороннюю телефонную связь между членами экипажа;

двустороннюю телефонную связь экипажа с бортпроводниками;

двустороннюю телефонную связь бортпроводников между собой;

двустороннюю радиосвязь экипажа через любую из бортовых радиостанций;

прослушивание экипажем сигналов опознавания радионавигационных систем и звуковых сигналов маркерных радиомаяков;

прослушивание экипажем специальных звуковых и речевых сообщений, формируемых бортовыми системами (СППЗ, КИСС и т.п.);

звуковую сигнализацию экипажу вызова бортпроводников.

Бортовой усилитель связи с пассажирами обеспечивает:

голосовую связь от пилота к экипажу и пассажирам;

голосовую связь от бортпроводника к пассажирам;

усиление записанных сообщений и музыки;

тональные звонки (вызов бортпроводника, "Не курить" и т.п.).

В настоящее время в авиации внедряются глобальные телекоммуникационные сети, предназначенные для передачи цифровых данных с земли на ЛА и с ЛА на землю. Эти сети будут связывать в единое целое все составляющие гражданской авиации - находящиеся в воздухе и на земле летательные аппараты, авиакомпании, службы управления воздушным движением, службы погоды и т.д. Они будут обеспечивать связь, навигацию, управление воздушным движением. Бортовая аппаратура пополниться 1-2 телекоммуникационными терминалами, сигнальным табло и маршрутизатором. Для передачи информации с борта и приема адресованной ЛА информации будут использоваться уже имеющиеся радиостанции.

Терминал устанавливается в кабине. Он представляет собой компактный индикатор с маленьким цифробуквенным экраном и несколькими кнопками вокруг него.

Маршрутизатор устанавливается в техническом отсеке. Он обеспечивает включение данного ЛА в глобальную сеть. Задачей маршрутизатора является выбор самого эффективного маршрута передачи данных и выбор между всеми возможными средствами связи (ВЧ-радиостанция, СВЧ- радиостанция, терминал спутниковой связи).

С появлением такой системы изменяется общение пилота с диспетчером: вместо голосовой связи они будут обмениваться стандартными сообщениями.

Предполагается, что это позволит уменьшить количество возникающих недоразумений, вызванных некачественной радиосвязью и плохим владением английским языком. Кроме того, это позволит разгрузить радиодиапазон, который в настоящее время уже переполнен. Пилот будет выбирать на своем терминале одно из 128 возможных сообщений, которое он будет посылать одним нажатием кнопки. О приходе сообщений с земли пилота предупредит сигнальное табло, а само сообщение (диспетчера или кого-то другого) пилот увидит на экране своего терминала.

Еще одна функция телекоммуникационных сетей - обеспечение автоматического зависимого наблюдения, то есть слежение за летательными аппаратами с земли и с других ЛА. Приемопередатчик ЛА будет на определенной частоте раз в секунду передавать всем другим информацию о своем ЛА - его идентификатор, координаты и высоту. В то же время он будет принимать подобные же данные от всех других ЛА. Наземные центры УВД будут передавать на борт данные по тем ЛА, которые не оборудованы подобными системами. Вся эта информация поступит в маршрутизатор, а оттуда - в систему индикации, на экранах которой пилот сможет увидеть ситуацию с воздушным движением вокруг своего ЛА.

2. Методы и алгоритмы повышения разборчивости речи, критерии разборчивости

.1 Определение понятия "качество передачи речи"

Тракт передачи речи (ТПР), обобщенная схема которого приведена на рисунке 2.1, состоит из микрофона М, передающей аппаратуры (ПА), канала связи (КС), приемной аппаратуры (ПрА), телефона (Т) [1].

Рисунок 2.1 Тракт передачи речи

Согласно [1], основными критериями качества тракта передачи речи служат:

разборчивость;

громкость;

натуральность.

При этом громкость не является самодостаточным параметром - она используется совместно с разборчивостью и определяет желаемый (комфортный) уровень принимаемых сигналов. Даже из личной практики каждого человека известно, что чересчур низкий уровень громкости приводит к снижению разборчивости. Исследования показывают, что разборчивость понижается и при чересчур высоком уровне громкости речи.

Натуральность речи - это способность системы воспроизводить не только смысл передаваемой речи, но и ее тембр, индивидуальные особенности речи диктора. Для трактов передачи речи (телефонная связь, радиосвязь) эта характеристика является второстепенной, за исключением тех случаев, когда стоит задача высококачественного воспроизведения речи диктора (или пения). В нашем случае натуральность речи также является второстепенной, если только не стоит задача определения личности диктора.

Таким образом, разборчивость речи является основным параметром, характеризующим тракт передачи речи.

2.2 Методы измерения разборчивости речи


Все методы измерения разборчивости речи условно делятся на субъективные и объективные [1]. «Условно» - поскольку существует по меньшей мере две трактовки «субъективности-объективности» метода.

Первая трактовка. Согласно первой трактовке, при субъективном методе разборчивость речи оценивают по результатам единственного опыта - отсюда неизбежное влияние на результаты измерений особенностей речи и слуха людей, участвующих в испытаниях. Чтобы объективизировать метод, нужно осуществить много экспериментов с различными дикторами и абонентами, а затем усреднить результаты измерений.

Разборчивость передаваемой речи оценивают по пятибалльной шкале Международного Консультативного Комитета по Радиосвязи (МККР) [1]:

неразборчиво;

разборчиво временами;

разборчиво с трудом;

разборчиво;

совсем разборчиво.

Примером объективизации измерений разборчивости речи служат современные методы оценки качества передачи речи по трактам связи, изложенные в Государственном стандарте Российской Федерации [3], согласно которым в испытаниях должно участвовать не менее 3-х дикторов и 4-5-ти аудиторов, удовлетворяющих ряду условий (отсутствие выраженных дефектов речи и слуха, нетренированность). Например, при оценивании фразовой разборчивости диктор читает одну таблицу фраз в нормальном темпе произнесения (одна фраза за 2,4 с) и вторую таблицу в ускоренном темпе (одна фраза за 1,5-1,6 с). Пауза между фразами должна быть 5-6с. Аудитор прослушивает сначала таблицу, прочитанную диктором в нормальном темпе, затем таблицу, прочитанную тем же диктором в ускоренном темпе. Правильность приема фраз определяют по квитанции, переданной по каналу телефонной связи. Цикл измерений состоит из передачи всеми дикторами по 10 таблиц каждым, и приема всеми аудиторами всех переданных таблиц. Фразу считают неправильно принятой, если хотя бы одно слово принято неправильно, пропущено или добавлено. Фразовую разборчивость определяют путем вычисления процента правильно принятых фраз для нормального и ускоренного темпов произнесения по формуле 2.1

 (2.1)

где ji - результат единичного измерения фразовой разборчивости, %; N - число единичных измерений; JН - фразовая разборчивость при нормальном темпе произнесения, %; JУ - фразовая разборчивость при ускоренном темпе произнесения, %.

Методы, описанные выше, называют артикуляционными. При их использовании необходимо располагать специальными артикуляционными таблицами, составление которых - самостоятельная сложная задача. Другой недостаток артикуляционных методов - большое время испытаний, составляющее несколько недель.

Очевидное достоинство артикуляционных методов - простота, позволяющая участвовать в испытаниях операторам с относительно низким уровнем технической квалификации.

Вторая трактовка. При второй трактовке «субъективности-объективности» метода субъективными называют все методы, в которых человек является составной частью измерительного тракта, а объективными - такие методы, в которых весь измерительный процесс осуществляется приборами без участия органов чувств человека. С этой целью передающий и принимающий операторы должны быть заменены искусственными эквивалентами («искусственный голос», «искусственное ухо»).

Тональный метод. В [1] описывается два метода измерения разборчивости речи, базирующихся на такой трактовке объективности. В так называемом «тональном методе» несколько дикторов заменены единственным искусственным голосом, который генерирует чистые тоны. Искусственный голос представляет собой обычный громкоговоритель без диффузора, возбуждаемый с помощью тонального генератора таким образом, чтобы уровень звуковых давлений, создаваемых на различных частотах, соответствовал бы кривой спектра формант. Помещение передачи и помещение приема речевых сигналов искусственно зашумляют - тем самым обеспечивают требуемое отношение сигнал-шум, при котором испытываемая система должна нормально функционировать. Прием информации по-прежнему производит бригада аудиторов. При этом задача аудиторов упрощается: вместо того, чтобы осмыслить и записать услышанное звукосочетание, от них требуется лишь определить, слышен ли сигнал на данной частоте или не слышен. Кроме того, операторы должны измерить уровень ощущения формант - делается это весьма просто, путем введения положительного или отрицательного затухания в тракт связи. Если сигнал слышен, затухание делают положительным, пока сигнал перестанет быть слышным. Наоборот, если сигнал не слышен, затухание делают отрицательным, пока сигнал не станет слышным. Дальнейшее определение величины разборчивости речи производят аналитически, с помощью графиков и несложных формул.

Таки образом, тональный метод, в отличие от артикуляционного, можно отнести к косвенным методам измерений разборчивости.

Достоинства тонального метода:

1)      не применяются артикуляционные таблицы;

2)      значительное сокращение времени измерений.

Недостатки тонального метода:

1)      повышенные требования к технической грамотности персонала, организующего испытания;

2)      человек еще не выведен из состава измерительной системы.

Как указано в [1], тональный метод регламентирован ГОСТ № 8031-78.

Объективный метод. В другом методе, именуемом «объективным», применяют как искусственный голос, так и искусственное ухо. В данном методе, как видим, человек полностью выведен из состава измерительной системы. Следует отметить, что искусственное ухо - обычный в технике акустических измерений прибор, применяемый при испытании телефонов и позволяющий воспроизвести акустическую нагрузку, создаваемую на телефон естественным ухом. Тем самым удается измерить звуковое давление, создаваемое звучащим телефоном в ухе.

Общий порядок измерений при этом такой:

1)      С помощью генератора шума и громкоговорителя создают уровень шума, соответствующий условиям работы приемного конца испытуемого тракта. Измеряют уровень шума на выходе искусственного уха в критической полосе частот слуха, причем средняя частота этой полосы равна частоте измерительного тона.

2)      Генератор шума выключают, а вместо него на вход тракта «искусственный голос - канал передачи - искусственное ухо» подают тональный сигнал. Уровень интенсивности звука на микрофоне берется таким, чтобы при условном нуле на регулировщике затуханий распределение звуковых давлений соответствовало кривой спектра формант.

)        С помощью регулирования затуханий добиваются, чтобы уровень сигнала на выходе искусственного уха был таким же, как уровень шума. Показания регулятора затуханий представляют собой результат измерений уровня ощущений.

4)      Далее, как и в тональном методе, определение величины разборчивости речи производят аналитически, с помощью графиков и несложных формул (тех же).

Объективный метод точнее и быстрее тонального, для его проведения не нужны операторы (дикторы и аудиторы). Наконец, объективный метод принципиально позволяет полностью автоматизировать процедуру измерений на базе современных ЭВМ.

Как и тональный метод, объективный метод является косвенным, т.е. разборчивость речи оценивается не путем подсчета правильно распознанных речевых единиц, а путем проведения специального измерительного эксперимента со звуковыми сигналами в виде тона и полосового шума, в ходе которого измеряются уровни ощущений в нескольких полосах частот. Разборчивость речи вычисляют, базируясь на результатах экспериментальных измерений.

Ввиду неоспоримых достоинств объективного метода, а также в силу отмеченного выше принципиального сходства ТПР и ТКУИ, в настоящее время объективный метод в той или иной модификации применяют как при оценке качества каналов связи [], так и при оценке эффективности защиты речевой информации [4,5,6]. Поэтому целесообразно подробно рассмотреть идею, лежащую в основе рассмотренных выше косвенных методов измерения разборчивости речи. При этом целесообразно также вспомнить некоторые положения психофизиологии речи и слуха, на использовании которых базируются косвенные методы.

2.3 Свойства речевых сигналов, влияющих на разборчивость


Спектральные свойства звуков речи. Спектры гласных звуков представляют собой (в первом приближении) периодическую последовательность спектральных пиков. Период следования этих пиков называют частотой основного тона. Выраженные всплески уровня «огибающей» спектральных пиков именуют «формантами» (рисунок 2.2).

Рисунок 2.2 Вид спектра гласного звука

Полезная информация о гласном звуке речи содержится в описании соответствующих формант. Принято каждую форманту описывать ее граничными частотами. В русском языке достаточно ограничиться одной-двумя формантами, чтобы достигнуть приемлемой разборчивости речи.

Спектры согласных звуков либо полностью сплошные, т.е. совсем не содержат дискретных компонентов, либо сплошные в отдельных полосах частот. Эти спектры также содержат локальные всплески. Некоторые из них являются формантами, некоторые - нет.

Чтобы решить, какие всплески уровня спектра являются формантами, следует помнить, что физическая природа формант - явление резонанса в полостях глотки и носоглотки (рисунок 2.3).

Рисунок 2.3 Полости глотки (1) и носоглотки (2-4)

В отдельных звуках можно заметить до 6 спектральных подъемов. К формантам относятся только те, которые обусловлены явлением резонанса в речевом аппарате человека. Часть формант (как указывалось - одна-две в русском языке) обеспечивают разборчивость речи, другая часть обеспечивает индивидуальность голоса диктора, что может быть использовано в задачах распознавания голоса (идентификации) диктора.

Форманты звуков речи расположены в области частот от 200 до 8600 Гц. Однако подавляющая часть формант звуков речи находится в пределах от 300 до 3000 Гц, поэтому такую полосу обычно считают достаточной для хорошей разборчивости речи. Спектральные различия между звуками речи являются главными, хотя и не единственными. Например, при распознавании согласных звуков важны и временные характеристики.

Интегральные спектральные характеристики речи. Как следует из названия, интегральные спектральные характеристики речи характеризуют свойства речевого процесса в целом [1]. Сюда относят:

- спектр речи ;

спектр формант ;

относительную встречаемость формант по спектру .

Спектром речи называют оценку спектральной плотности мощности речевого сигнала , вычисленную по отрезку речевого сигнала значительной протяженности (более минуты). Спектр речи характеризует распределение мощности речевого сигнала по частоте.

Спектром формант  называют зависимость наиболее вероятного уровня формант от частоты. Чтобы оценить спектр формант, необходимо также располагать отрезком речи большой протяженности. Спектр формант на всех частотах меньше спектра речи (рисунок 2.4):

.

Рисунок 2.4 Соотношение спектра речи  и спектра формант  [1]

Относительная встречаемость формант  по спектру может быть оценена так. Разобьем весь диапазон частот на полоски, например, по 100 Гц, и подсчитаем относительное число формант (в %) каждой полоске. Результат такого подсчета даст нам кривую  (рисунок 2.5).

Рисунок 2.5 Относительная встречаемость формант  [1]

2.4 Свойства слуха, влияющие на разборчивость


Для оценивания разборчивости речи наибольшее значение имеют следующие характеристики слуховой системы человека, именуемые «постоянными слуха» [1]:

- порог слышимости ;

логарифмическая ширина критической полосы слуха ;

маскировка слуха .

Порог слышимости  - это минимальное звуковое давление, ниже которого ухо не воспринимает звук (рисунок 2.6). Выражается в децибелах, по отношению к давлению , соответствующему пороговой величине давления звука на частоте 1000 Гц.

Рисунок 2.6 Порог слышимости  и болевой порог  [1]

Рисунок 2.7 Критическая полоса слуха  [1]

Ширина критической полосы слуха  - это разрешающая способность слухового аппарата человека, который можно уподобить гребенке фильтров. Например, на частоте 100 Гц критическая полоса слуха близка 100 Гц, а на частоте 8000 Гц - близка 600 Гц (рисунок 2.7). Для удобства расчетов вводят понятие логарифмической критической полосы слуха (рисунок 2.8):

.

Рисунок 2.8 Логарифмическая критическая полоса слуха [1]

Маскировка слуха - это явление ослабления слышимости или полного пропадания полезного звука на фоне мешающего звука. Количественно выражается как разница:

, (2.2)

где  - порог слышимости при наличии мешающего звука. На рисунке 2.9 приведено семейство индивидуальных кривых маскировки для различных уровней маскирующего сигнала . Здесь  - разность высот тона маскирующей  и маскируемой  компонент, причем высота тона  измеряется в Барках:

.

Рисунок 2.9 Семейство индивидуальных кривых маскировки [7]

 

.5 Разработка методики оценки разборчивости


Различают [1] следующие виды (меры) разборчивости речи:

-       разборчивость формант ;

-       разборчивость звуков ;

-       разборчивость слогов ;

-       разборчивость слов ;

-       разборчивость фраз .

При расчете разборчивости приходится иметь дело с частотно-зависимыми функциями. Поэтому результаты количественного расчета для различных участков спектра различны. Ввиду этого задача расчета решается разделением диапазона частот, используемого для передачи речи, на узкие полосы, внутри которых можно не считаться с указанной частотной зависимостью и относить полученные результаты к средней частоте полосы. Далее вычисляется разборчивость для каждой полосы частот, а общая разборчивость находится суммированием «полосовых» разборчивостей.

Поскольку свойством аддитивности обладает только формантная разборчивость:

, (2.3)

где  - формантная разборчивость в -той полосе частот, идея расчета сводится к предварительному вычислению величины , с последующим пересчетом ее в величины , , , , на основании имеющейся информации о зависимости между разными мерами разборчивости.

Разборчивость в каждой полосе можно представить в виде:

, (2.4)

где  - формантная разборчивость в отсутствие мешающих факторов (шум, влияние тракта передачи);  - коэффициент восприятия, учитывающий потери разборчивости из-за наличия мешающих факторов.

Разделение диапазона частот речевого сигнала на полосы можно производить по-разному. В [1] называется два способа:

-       деление на полосы одинаковой ширины;

-       деление на равноартикуляционные полосы,

причем предпочтение отдается второму способу, позволяющему упростить выкладки. Количество полос при этом предлагается выбрать равным . В работе [8] также выбран способ деления на равноартикуляционные полосы.

В [2-9] указывается иной способ - деление на октавные или третьоктавные полосы. Количество полос при этом предлагается выбрать равным .

По-видимому, выбор способа деления на полосы частот - вопрос не столько принципиальный, сколько зависящий от «вкуса» исследователя.

Рассмотрим далее идею расчета разборчивости речи, исходя из принципа деления на равноартикуляционные полосы [1]. При этом ,поскольку, в силу вероятностного характера формантной разборчивости, справедливо соотношение .Таким образом, . Величины  определяют, исходя из эмпирической функциональной зависимости  (функцию называют «постоянной артикуляционной характеристикой речи» [1]), где уровень ощущения формант  вычисляют по формуле 2.5:

, (2.5)

где  - значение спектра формант на входе тракта;  - порог слышимости;  - маскировка от шумов всех видов;  - затухание в тракте;  - логарифмическая ширина критической полосы слуха.

Для достаточно высоких уровней шума:


выражение для уровня ощущения формант  можно вычислять по упрощенной формуле 2.6:

 (2.6)

Вид зависимости  приведен на рисунке 2.10.

Рисунок 2.10 Вид зависимости

Отметим два важных обстоятельства. Во-первых, функция  не зависит от полосы частот. Во-вторых, в литературе можно встретить весьма различающиеся кривые . Например, даже в работе [1] встречаем две такие кривые: для «идеализированной артикуляционной бригады» и для «типовой артикуляционной бригады». А в работе [5] приводится аналогичная зависимость, существенно отличающаяся от соответствующих кривых в работе [6]. Более внимательный анализ работы [10] показывает, что здесь вместо спектра формант  используют спектр речи , и, как следствие, вместо уровня ощущения формант  используют уровень ощущения речи (формула 2.7):

 (2.7)

Таким образом, в [5] вместо зависимости  предлагают использовать сходную, но количественно отличающуюся зависимость .

Таким образом, хотя аналитическая методика расчета разборчивости речи на сегодняшний день проработана теоретически и экспериментально весьма глубоко, при практическом ее использовании следует помнить о существовании множества модификаций такой методики. Непродуманное «перекрестное» использование элементов этих методик может привести к неверным результатам расчета разборчивости речи.

2.5.1 Организация эксперимента по оценке


Рисунок 2.11 Зависимость слоговой словесной разборчивости от разборчивости

речь акустический шум разборчивость

Рисунок 2.12 Зависимость от разборчивости формант разборчивости слогов

 

Рисунок 2.13 Зависимость фразовой разборчивости от разборчивости слов

3. Методы распознавания речи и их связь с повышением разборчивости

Распознавание речи - это общее название широкой области речевых технологий, за которым кроется целый ряд достаточно обособленных направлений, каждое из которых ориентировано на решение конкретных прикладных задач и требует отдельной проработки.

.1 Технология распознавания речи

Система распознавания речи состоит, как правило, из трех основных компонентов: акустические модели, языковая модель и декодер.

Акустические модели Акустические модели позволяют оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Современные акустические модели для так называемого пофонемного распознавания основаны на использовании скрытых Марковских моделей (Hidden Markov Models - HMM) (рисунок 3.1).

Рисунок 3.1 Структура скрытой Марковской модели

Модели языка Использования чисто акустической информации недостаточно для осуществления качественного распознавания речи. Например, в реальных условиях (при наличии посторонних шумов и искажений речевого сигнала) ни одни даже самые точные акустические модели не смогут отличить слово крюк от слова трюк.

В такой ситуации важна информация о контексте: теме разговора и, что еще более важно, о тех словах, которые уже были распознаны ранее. Например, если ранее было распознано слово железный, то в этой ситуации гораздо вероятнее ожидать произнесения слова крюк, чем трюк. Подобная оценка и осуществляется языковой моделью.

При помощи грамматик можно вручную задать возможные последовательности слов, которые, как ожидается, произнесет говорящий. Такой подход эффективен для узких задач, когда пользователь поставлен жесткие в рамки определенной речевой ситуации. Например, грамматика может задавать произвольную последовательность цифр в том случае, если известно, что в данный момент пользователь отвечает на вопрос «Пожалуйста, продиктуйте номер вашего телефона».

Статистические модели языка используются при распознавании слитной речи, не ограниченной узкой ситуацией. В этом случае невозможно вручную создать грамматику, которая моделировала бы все возможные сочетания слов в языка. Вместо этого на основании текстовых данных большого объема (десятки миллионов слов) строится статистическая модель, которая оценивает вероятности следования слов друг за другом. Для примера, приведенного выше, такая модель могла бы сообщить, что вероятность словосочетания железный крюк в 30 раз больше, чем железный трюк.

Декодер Декодер - это программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.

На первый взгляд декодер - наименее нагруженный в научном плане компонент системы распознавания. Однако, быстрый и надежный декодер является главным фактором успеха любой прикладной системы распознавания. Создание такого декодера - сложнейшая техническая задача, требующая высочайшей квалификации разработчиков.

3.2 Методы распознавания речи


Методы распознавания речи бывают следующих видов:

.        Распознавание голосовых команд

Распознавание голосовых команд предусматривает, что пользователь произносит отдельные команды из заранее предопределенного списка.

Такие системы используются для организации управления голосом отдельными компьютерными программами или устройствами.

.        Языконезависимое распознавание

Не зависящее от языка распознавание команд предполагает обязательную тренировку системы голосом.

Для того чтобы создать эталон новой команды пользователь должен несколько раз произнести данную команду в микрофон. Подобные системы распознавания применимы для случаев, когда количество команд составляет не более одной сотни.

.        Распознавание команд на русском языке

Пофонемное распознавание команд может быть организовано на основании скрытых Марковских моделей. В этом случае распознавание возможно только для одного конкретного языка, для которого уже разработаны соответствующие акустические модели.

Главными преимуществами этого подхода является то, что словарь надежно распознаваемых команд может значительно превышать 100 единиц (вплоть до тысячи), а для добавления новой команды, которая будет распознаваться, достаточно лишь ввести ее в текстовом виде с клавиатуры.

.        Выделение ключевых слов в потоке речи

В современном мире наиболее актуальной задачей является не сохранение информации, а организация эффективного поиска в ней. Если для текстовой информации существует большое количество различных решений, то поиск в речевых архивах или потоках речи в режиме реального времени - гораздо менее разработанная область.

Технология выделения ключевых слов на основе пофонемного распознавания позволяет автоматически находить в речи слова и словосочетания, представляющие интерес для пользователя. При этом слова для поиска вводятся в текстовом виде с клавиатуры - никакой тренировки системы голосом не требуется.

.        Распознавание на основе грамматик

Распознавание речи на основе грамматик находит широкое применение в системах с диалоговой структурой общения пользователя с автоматической системой (например, системы голосового самообслуживания для колл-центров).

При помощи грамматик можно задать структуру диалога и смоделировать общение человека с компьютером. Грамматика в своем самом простом виде представляет собой просто набор слов - в этом случае реализуется схема распознавания голосовых команд.

.        Распознавание слитной русской речи

Распознавание слитной спонтанной речи - конечная цель всех усилии по распознаванию речи. Это сложная и многогранная задача. В настоящее время существуют системы, ориентированные на распознавание слитной речи для нескольких наиболее распространенных языков (в первую очередь английского).

Тем не менее, не существует систем, осуществляющих качественное распознавание слитной речи без каких-либо ограничений. Такими ограничениями являются уровень окружающего шума, канал передачи речевой информации, темы распознаваемого разговора. Распознавание слитной русской речи - особенно сложная задача в виду особенностей русского языка (высокая флективность, свободный порядок слов). Применение подходов, разработанных для английского языка, в большинстве случаев оказывается весьма малоэффективным. Тем не менее, в ЦРТ разработан прототип подобной системы, реализующий все необходимые программные компоненты: акустические и языковые модели русского языка, а также эффективный однопроходный декодер.

4. Классификация и анализ акустических шумов в кабине летательного аппарата, разработка контрольного генератора

Рисунок 4.1 Классификация шумов

В следующем разделе представлено построение в среде Matlab модели элементов известной методики измерения разборчивости речи по отношениям сигнал-шум в нескольких полосах частот, перекрывающих частотный диапазон речевого сигнала [1,2].

4.1 Формирование шумов


Для анализа эффективности шумоподавления необходимо в модельном эксперименте уметь воспроизводить не только речевые (полезные) сигналы, но и шумы (мешающие воздействия). Для моделирования шумов возможно два варианта:

.        Использование фрагментов реальных шумов, управляемых по уровню (рисунок 4.2);

. Формирование шумов на базе «белого шума» с различными вариантами формирования спектра.

Рисунок 4.2 Структурная схема использования фрагментов реальных шумов в смеси с полезным сигналом

Предположим, что речевой сигнал предварительно вводят в компьютер с помощью звуковой карты. Параметры речевого сигнала - пиковое напряжение не выше 1 В, длительность - от нескольких единиц до нескольких десятков секунд. Режим ввода речевого сигнала: моно, частота дискретизации 8000 Гц.

Контролируемые параметры:

1)      отношение сигнал-шум во всей полосе частот

,

где  и  - дисперсии сигнала и шума, соответственно;

2)      характер (окрашенность) шума: белый, розовый (спад спектра мощности со скоростью 3 дБ/октаву), коричневый (спад спектра мощности со скоростью 6 дБ/октаву).

Измеряемые параметры:

1)      парциальные отношения сигнал шум на выходе гребенки фильтров, перекрывающих частотный диапазон речевого сигнала;

2)      артикуляционная разборчивость речи;

)        словесная разборчивость речи.

Одна из возможных обобщенных схем экспериментальных исследований подобного рода приведена на рисунке 4.3.

Рисунок 4.3 Этапы экспериментальных исследований

4.2 Формирование аддитивной смеси речевого сигнала с шумом


Схема формирования аддитивной смеси речевого сигнала с шумом приведена на рисунке 4.4.

Рисунок 4.4 Схема формирования аддитивной смеси речевого сигнала с шумом

В схеме на рисунке 4.4 коэффициент  осуществляет корректировку уровня речевого сигнала так, чтобы обеспечить требуемое отношение сигнал-шум .

Моделирование шума удобно осуществлять средствами Simulink (рисунок 4.5), при этом длительность генерируемого отрезка шума должна в точности совпадать с длительностью речевого сигнала.

Приведенные выше схемы и алгоритмы универсальны в том смысле, что пригодны как для белого, так и для окрашенных шумов. Ниже приведены несколько примеров применения этих схем и алгоритмов для моделирования аддитивной смеси сигнала и шума с заданным отношением сигнал-шум и заданной окрашенностью шума.

Рисунок 4.5 Схема генерирования окрашенного (в частности - белого) шума

4.2.1 Белый шум

Как следует из схемы рисунок 4.5, окрашенный шум может быть создан путем пропускания белого шума через гребенку полосовых фильтров, с последующим взвешенным суммированием откликов каждого из фильтров:

, (4.1)

где  - отклик -того фильтра.

В частном случае генерирования белого шума все весовые коэффициенты одинаковы и могут быть приняты равными единице: . С целью экономии времени измерений, в работах [2] предложено ограничиться 5 октавными полосовыми фильтрами, средние (среднегеометрические) и граничные частоты которых приведены в табл. 4.1.

Таблица 4.1

12345






Средн.частота

250

500

1000

2000

4000

Диапазон частот, Гц

180...355

355...710

710...1400

1400...2800

2800...5600


На рисунках 4.6-4.10 приведены графики спектров синтезированного, в соответствии с выражением (4.1), шума, сигнала и смеси для отношений сигнал-шум -18.7 дБ, -14.7 дБ, -10.7 дБ и 0.7 дБ.

Рисунок 4.6 Спектр белого шума, полученный с помощью схемы рисунок 4.5

Рисунок 4.7 Спектры шума, речи и смеси для SNR = - 18,7 дБ

Рисунок 4.8 Спектры шума, речи и смеси для SNR = - 14,7 дБ

Рисунок 4.9 Спектры шума, речи и смеси для SNR = - 10,7 дБ

Рисунок 4.10 Спектры шума, речи и смеси для SNR = - 0,7 дБ

4.2.2 Розовый шум

Для получения розового шума заданной дисперсии Dn1 удобно применить следующий прием. Выставим коэффициенты усиления в каждом из каналов: , , , , , а общий коэффициент усиления оставим равным единице: . Далее измерим дисперсию полученного шума - предположим, она оказалась равной Dn2. Общий коэффициент усиления тогда определяется соотношением:

 (4.2)

и может быть вычислен с помощью команды:

= sqrt(Dn1/Dn2)

Графики спектров мощности розового шума, речевого сигнала и смеси показаны на рисунках 4.11-4.15.

Рисунок 4.11 Спектр розового шума, полученный с помощью схемы рисунок 4.5


Рисунок 4.13 Спектры розового шума, речи и смеси для SNR = - 14,7 дБ

Рисунок 4.14 Спектры розового шума, речи и смеси для SNR = - 10,7 дБ

Рисунок 4.15 Спектры розового шума, речи и смеси для SNR = - 0,7 дБ

4.2.3 Коричневый шум

Для получения коричневого шума заданной дисперсии Dn1 удобно применить ту же методику, что и в случае генерирования розового шума. Отличие лишь в том, что коэффициенты усиления в каждом из каналов должны быть равны 4, 2, 1, 0.5, 0.25. соответственно.

Графики спектра мощности коричневого шума, речевого сигнала и смеси показаны на рисунках 4.16-4.20.

Рисунок 4.16 Спектр мощности коричневого шума

Рисунок 4.17 Спектры коричневого шума, речи и смеси для SNR = - 18,7 дБ

Рисунок 4.18 Спектры коричневого шума, речи и смеси для SNR = - 14,7 дБ

Рисунок 4.19 Спектры коричневого шума, речи и смеси для SNR = - 10,7 дБ

Рисунок 4.20 Спектры коричневого шума, речи и смеси для SNR = - 0,7 дБ

4.3 Модель оценивания разборчивости на базе измерения отношений сигнал-шум в парциальных каналах


Блок схема системы для измерений парциальных отношений сигнал-шум в каждом из каналов приведена на рисунках 4.21- 4.23.

Рисунок 4.21 Система для измерений парциальных отношений сигнал-шум

Входными сигналами системы являются исследуемые речевой сигнал и шум. На выходе системы получаем пять (по числу каналов) оценок парциальных отношений сигнал-шум:

. (4.3)

Из соотношения (4.3) следует, что измерения весьма просты и сводятся к раздельной многоканальной фильтрации речевого сигнала и шума, с последующим измерением дисперсий откликов каждого из фильтров.

Рисунок 4.22 Подсистема вычисления парциальных отношений сигнал-шум

Рисунок 4.23 Подсистема измерения парциальных дисперсий

4.4 Вычисление формантной и словесной разборчивости речи


При достаточно больших уровнях шума эффективный уровень ощущения речевого сигнала в каждом из частотных каналов равен отношению сигнал-шум в этом канале [1,2]:

. (4.4)

Эффективный уровень ощущения формант  вычисляют, уменьшая (4.4) на разницу спектральных уровней речи и формант:

, (4.5)

где  - центральные частоты каналов;

. (4.6)

Артикуляционную разборчивость вычисляют как сумму разборчивостей формант в каждой из полос:

, (4.7)

где  - коэффициент восприятия речи:

 , (4.8)

- вероятность пребывания формант в -том частотном диапазоне, ограниченном частотами  и :

, (4.9)

. (4.10)

Словесная разборчивость  может быть вычислена по формантной разборчивости:

. (4.11)

речь акустический шум разборчивость

5. Модель формирования очищенной речи и ее исследование


5.1 Построение спектрограмм-specgram [10]


В данной работе в качестве основного средства отображения частотно-временных характеристик исследуемых сигналов использованы спектрограммы.

Спектрограмма - это изображение, показывающее зависимость спектральной плотности мощности сигнала от времени. Это очень мощное и современное средство визуализации спектра. Он представляет зависимость амплитуды спектральных составляющих БПФ, вычисляемого в перемещающемся окне, от момента времени, задающего положения окна. Фактически спектрограмма строится в плоскости частота-время, а амплитуда каждой спектральной составляющей определяет цвет построения каждой точки спектрограммы. При построении спектрограммы используется функциональная окраска - рисунок 5.1,например.

Рисунок 5.1 График зависимости плотности спектральных составляющих от частоты

Из рисунка видно, что спектрограмма в качестве средства отображения очень наглядна.

Особенности, которые видны на спектрограмме:

Горизонтальные линии на НЧ и СЧ - это гудящие наводки (часть шума);

Узорчатый фон на всех частотах - это широкополосный шум;

Волнистые линии - это гармоники голоса;

Вертикальные светлые области на СЧ и ВЧ - это шипящие и свистящие согласные;

Шумовое облако в районе 2 секунды - это вдох;

Вертикальные штрихи в районе 1.7 секунды - это слюни, сопровождающие открывание рта.

Алгоритм вычисления спектрограмм содержит три характерных шага:

.        Разбивка x на перекрывающиеся блоки, на каждый из которых накладывается окно.

.        Выполнение nttf - точечного БПФ для соответствующего отрезка времени, что создает соответствующий столбец матрицы B, после чего окно перемещается на число точек, равное (length(window)-numoverlap). Если число точек БПФ превышает количество отсчетов в окне, то перед выполнением БПФ блок дополняется нулями.

.        При вещественных компонентах x спектрограмма строится для положительных частот, и матрица B содержит при четном nfft( nfft/2)+1 строк, а при nfft нечетном - (nfft+1)/2 строк, и k=fix((n-numerlap)/(length(window) - numerlap)) столбцов.

Спектр зашумленного сигнала представляет собой сумму спектров речевого сигнала и шума. Следовательно, подавить шум в речевом сигнале можно путем вычитания из спектра зашумленного сигнала спектр шума. В результате мы получим спектр очищенного речевого сигнала. Сложность данной задачи заключается в том, что необходимо оценить спектр шума, используя смесь речь+шум, которая доступна для обработки. Рассмотрим один из классов шумов - аддитивные стационарные шумы.

Аддитивность означает, что шум суммируется с "чистым" сигналом y[t] и не зависит от него: x[t] = y[t] + noise[t].

Стационарность означает, что свойства шума (мощность, спектральный состав) не меняются во времени.

Примерами таких шумов могут являться постоянное шипение микрофона или усилительной аппаратуры, гул электросети. Работа различных приборов, не меняющих звучания по времени (вентиляторы, компьютеры) также может создавать шумы, близкие к стационарным. Не являются стационарными шумами различные щелчки, удары, шелест ветра, шум автомобилей.

Для подавления аддитивных стационарных шумов существует алгоритм спектрального вычитания.

5.2 Шумоподавление на основе алгоритма спектрального вычитания


Этапы алгоритма спектрального вычитания:

. Разложение сигнала с помощью кратковременного преобразования Фурье (STFT) или другого преобразования, компактно локализующего энергию сигнала (рисунок 5.3).

.Оценка спектра шума (рисунок 5.4).

."Вычитание" амплитудного спектра шума из амплитудного спектра сигнала.

.Обратное преобразование STFT - синтез результирующего сигнала (рисунок 5.5).

В качестве банка фильтров рекомендуется использовать STFT с окном Ханна,  длиной порядка 50 мс и степенью перекрытия 75%. Амплитуду весового окна надо отмасштабировать так, чтобы при выбранной степени перекрытия окон банк фильтров не менял общую амплитуду сигнала в отсутствие обработки.

Рисунок 5.2 Наложение весовых окон Ханна в процессе STFT

Оценка спектра шума может осуществляться как автоматически, путем поиска участков минимальной энергии в каждой частотной полосе, так и вручную, путем анализа спектра на временном сегменте, который пользователь идентифицировал как шум.

Вычитание амплитудных спектров может осуществляться по формуле

 (5.1)

что эквивалентно следующей функции подавления:

. (5.2)

Здесь X[f,t] и W[f,t] - амплитудные спектры сигнала и шума соответственно,  - амплитудный спектр результирующего очищенного сигнала, а k - коэффициент подавления. Фазовый спектр очищенного сигнала полагается равным фазовому спектру зашумленного сигнала.

Рисунок 5.3. Спектрограмма зашумленного сигнала

На спектрограмме рисунок 5.3 цифрами показаны участки с шумом, соответствующие им спектрограммы приведены ниже на рисунке 5.4.

а  б

в  г

Рисунок 5.4 Спектрограммы шумов: а) Спектрограмма шума на участке 1; б) Спектрограмма шума на участке 2; в) Спектрограмма шума на участке 3; г) Спектрограмма шума на участке 4

Рисунок 5.5. После спектрального вычитания

Исследования качества и разборчивости речи, получаемой в результате применения описанной методики, показали, что в тех случаях, когда шум или помеха имеют стационарный (или квазистационарный) характер и их спектр имеет гармоническую структуру, достигается значительное на слух повышение как качества так и разборчивости речи. Однако, в случае шумов с быстроизменяющимися спектральными характеристиками такая обработка малоэффективна. Для этих шумов необходимо применить адаптивную фильтрацию.

5.3 Адаптивное шумоподавление на основе спектрального вычитания


Процесс адаптивной фильтрации предполагает непрерывное определение пауз в речи и нахождение спектров шумов в этих паузах, с последующим вычитанием на интервале с речью.

Последовательность действий при адаптивной фильтрации включает в себя:

.        Для выделения шумового участка происходит оценка мощности сигнала (если мощность сигнала становится меньше порога речи, то происходит оценка шума и формируется фильтр).

. Разложение сигнала с помощью кратковременного преобразования Фурье (STFT) (рисунок 5.6).

.Оценка спектра шума (рисунок 5.7).

. После появления события превышение порога мощности происходит "Вычитание" амплитудного спектра шума из амплитудного спектра сигнала.

.Обратное преобразование STFT - синтез результирующего сигнала (рисунок 5.8).

На рисунке 5.6 приведена спектрограмма зашумленного речевого сигнала. Цифрами указаны участки с шумом. Соответствующие им спектрограммы приведены ниже на рисунке 5.7.

Рисунок 5.6. Спектрограмма зашумленного сигнала

а  б

в  г

д

Рисунок 5.7 Спектрограммы шумов: а) Спектрограмма шума на участке 1, б) Спектрограмма шума на участке 2, в) Спектрограмма шума на участке 3, г) Спектрограмма шума на участке 4, д) Спектрограмма шума на участке 5

Рисунок 5.8. Спектральное вычитание на первом временном отрезке

Рисунок 5.9 Спектральное вычитание на втором временном отрезке

Рисунок 5.10 Спектральное вычитание на третьем временном отрезке

Рисунок 5.11 Спектральное вычитание на четвертом временном отрезке

Рисунок 5.12 Спектральное вычитание на пятом временном отрезке

5.4 Адаптивное подавление акустических шумов методом наименьших квадратов


На рисунке 5.13 изображена схема использования алгоритма наименьших квадратов (МНК алгоритм) для вычитания помехи из входного сигнала. Адаптивный LMS фильтр использует опорный сигнал на входном порту и полезный сигнал на эталонном порту для автоматического уравновешивания ответа с фильтра. По мере приближения модели к правильной модели фильтра, помеха фильтрации вычитается, и ошибочный сигнал содержит только изначальный сигнал.

Рисунок 5.13 Схема моделирования адаптивного подавителя акустических шумов по методу наименьших квадратов

Рисунок 5.14 Спектр исходного сигнала

Рисунок 5.15 Спектр зашумленного сигнала

Рисунок 5.16 Спектр сигнала после шумоподавления адаптивным подавителем акустических шумов по методу наименьших квадратов

5.5 Сходимость Адаптивных фильтров


На рисунке 5.18 приведен пример, который показывает траектории сходимости, присущие различным адаптивным алгоритмам фильтрования. График - последовательность точек формы (w1, w2) где w1 и w2 - веса адаптивного фильтра. Синие точки в числе указывают контурные линии ошибочной поверхности. Каждый из адаптивных фильтров можно включать по отдельности.- алгоритм адаптивной фильтрации по критерию наименьшего среднеквадратичного отклонения;нормированный LMS алгоритм;алгоритм LMS, для адаптации используется только знак сигнала ошибки (sign_error);алгоритм LMS, для адаптации используются только знаки cигнала ошибки и данных, содержащихся в линии задержки фильтра (sign_sign);

Рисунок 5.17 Схема моделирования сходимости адаптивных фильтров

Описание блоков схемы моделирования сходимости адаптивных фильтров.

На рисунке ниже приведены графики сходимости адаптивных фильтров.

Рисунок 5.18 Графики сходимости адаптивных фильтров

Из графика сходимости адаптивных фильтров, изображенного на рисунке 5.18, видно что наиболее быстросходимым является LMS фильтр.

.6 Медианная фильтрация [11, 12, 13].

Для очистки сигналов от импульсных шумов эффективным является медианный фильтр. Структурная схема медианного фильтра приведена на рисунке 5.19.

Рисунок 5.19 Структурная схема медианного фильтра

Принцип фильтрации. Медианы давно использовались и изучались в статистике как альтернатива средним арифметическим значениям отсчетов в оценке выборочных средних значений. Медианой числовой последовательности х1, х2, … , хn при нечетном n является средний по значению член ряда, получающегося при упорядочивании этой последовательности по возрастанию (или убыванию). Для четных n медиану обычно определяют как среднее арифметическое двух средних отсчетов упорядоченной последовательности.

Медианный фильтр представляет собой оконный фильтр, последовательно скользящий по массиву сигнала, и возвращающий на каждом шаге один из элементов, попавших в окно (апертуру) фильтра. Выходной сигнал yk скользящего медианного фильтра шириной 2n+1 для текущего отсчета k формируется из входного временного ряда …, xk-1, xk, xk+1,… в соответствии с формулой:

k = med(xk-n, xk-n+1,…, xk-1, xk, xk+1 ,…, xk+n-1, xk+n), (5.3)

где med(x1, …, xm, …, x2n+1) = xn+1, xm - элементы вариационного ряда, т.е. ранжированные в порядке возрастания значений xm: x1 = min(x1, x2,…, x2n+1) ≤ x(2) ≤ x(3) ≤ … ≤ x2n+1 = max(x1, x2,…, x2n+1).

Таким образом, медианная фильтрация осуществляет замену значений отсчетов в центре апертуры медианным значением исходных отсчетов внутри апертуры фильтра. На практике апертура фильтра для упрощения алгоритмов обработки данных, как правило, устанавливается с нечетным числом отсчетов, что и будет приниматься при рассмотрении в дальнейшем без дополнительных пояснений.

Одномерные фильтры. Медианная фильтрация реализуется в виде процедуры локальной обработки отсчетов в скользящем окне, которое включает определенное число отсчетов сигнала. Для каждого положения окна выделенные в нем отсчеты ранжируются по возрастанию или убыванию значений. Средний по своему положению отчет в ранжированном списке называется медианой рассматриваемой группы отсчетов. Этим отсчетом заменяется центральный отсчет в окне для обрабатываемого сигнала. В силу этого медианный фильтр относится к числу нелинейных фильтров, заменяющим медианным значением аномальные точки и выбросы независимо от их амплитудных значений, и является устойчивым по определению, способным аннулировать даже бесконечно большие отсчеты.

Алгоритм медианной фильтрации обладает явно выраженной избирательностью к элементам массива с немонотонной составляющей последовательности чисел в пределах апертуры и наиболее эффективно исключает из сигналов одиночные выбросы, отрицательные и положительные, попадающие на края ранжированного списка. С учетом ранжирования в списке медианные фильтры хорошо подавляют шумы и помехи, протяженность которых составляет менее половины окна. Стабильной точкой является последовательность (в одномерном случае) или массив (в двумерном случае), которые не изменяются при медианной фильтрации. В одномерном случае стабильными точками медианных фильтров являются "локально-монотонные" последовательности, которые медианный фильтр оставляет без изменений. Исключение составляют некоторые периодические двоичные последовательности.

Благодаря этой особенности, медианные фильтры при оптимально выбранной апертуре могут сохранять без искажений резкие границы объектов, подавляя некоррелированные и слабо коррелированные помехи и малоразмерные детали. При аналогичных условиях алгоритмы линейной фильтрации неизбежно «смазывает» резкие границы и контуры объектов. На рисунке 5.20 приведен пример обработки сигнала с импульсными шумами медианным и треугольным фильтрами с одинаковыми размерами окна N=3. Преимущество медианного фильтра очевидно.

Рисунок 5.20 Обработка сигнала с импульсными шумами медианным и треугольным фильтрами

В качестве начальных и конечных условий фильтрации обычно принимаются концевые значения сигналов, либо медиана находится только для тех точек, которые вписываются в пределы апертуры.

На рисунке 5.21 приведен пример медианной фильтрации модельного сигнала ak, составленного из детерминированного сигнала sk в сумме со случайным сигналом qk, имеющим равномерное распределение с одиночными импульсными выбросами. Окно фильтра равно 5. Результат фильтрации - отсчеты bk.

Рисунок 5.21 Медианная фильтрации модельного сигнала ak

Пользуясь схемой 5.19 пропустим полезный сигнал, ссумированный с шумом через медианный фильтр.

На рисунке 5.22 изображена спектрограмма суммированного полезного сигнала с шумом. Вертикальная линия в районе 6 секунды - это щелчок.

Рисунок 5.22 Спектрограмма полезного сигнала с шумом

На рисунке 5.23 изображена спектрограмма после медианной фильтрации.

Рисунок 5.23 Спектрограмма после медианной фильтрации

6. Исследование влияния канала передачи информации на конечное качество речевого сигнала

В качестве канала передачи был выбран готовый вариант, реализованный средствами MatLab -спутниковый канал CDMA 2000.

Схема моделирования спутникового канала CDMA 2000 приведена на рисунке 6.1

Рисунок 6.1 Схема моделирования спутникового канала CDMA 2000

Для исследования сквозного канала передачи рассмотрено прохождение речевого сигнала от источника (кабины) до потребителя (диспетчера). При этом использованы разработанные выше модели, скомпонованные как представлено на схеме рисунок 6.2.

В ходе исследования варьировались типы голосовых сообщений, типы шумовых воздействий, алгоритмы шумоподавления и виды оценок.

При проведении исследований использовалась одна и та же исходная речевая последовательность длительностью 13 секунд. Оценка ее формантной разборчивости 41%, а словесной 97%.

Рисунок 6.2 Структурная схема прохождения речевого сигнала от источника (кабины) до потребителя (диспетчера)

Данные исследований округлены до целых значений.

В таблицах, приведенных ниже, Ф1- это Спектральное вычитание;

Ф2- Адаптивное шумоподавление на основе спектрального вычитания;

Ф3- Адаптивное подавление акустических шумов методом наименьших квадратов.

Таблица 6.1 Стационарный Белый шум

С/Ш, Дб

РАЗБОРЧИВОСТЬ


Тип

До очистки

После фильтра

После канала передачи




Ф1

Ф2

Ф3

Ф1

Ф2

Ф3

-18,7

Формантная, %

5

5

5

Испытания не проводились

5

5

Испытания не проводились


Словесная, %

4

14

16


12

15


-14,7

Формантная, %

5

5

5


5

5



Словесная, %

8

18

20


16

19


-10,7

Формантная, %

5

6

6


6

6



Словесная, %

19

29

31


27

30


-0,7

Формантная, %

11

19

20


27

19



Словесная, %

70

80

82


78

81


 

Таблица 6.2 Стационарный Розовый шум

С/Ш, Дб

РАЗБОРЧИВОСТЬ


Тип

До очистки

После фильтра

После канала передачи




Ф1

Ф2

Ф3

Ф1

Ф2

Ф3

-18,7

Формантная, %

2

5

5

Испытания не проводились

5

5

Испытания не проводились


Словесная, %

2

12

14


11

13


-14,7

Формантная, %

5

5

5


5

5



Словесная, %

5

15

17


13

16


-10,7

Формантная, %

5

6

6


6

6



Словесная, %

17

27

29


25

28


-0,7

Формантная, %

11

16

19


15

19



Словесная, %

68

78

80


76

79



Таблица 6.3 Стационарный Коричневый шум

С/Ш, Дб

РАЗБОРЧИВОСТЬ


Тип

До очистки

После фильтра

После канала передачи




Ф1

Ф2

Ф3

Ф1

Ф2

Ф3

-18,7

Формантная, %

5

5

5

Испытания не проводились

5

5

Испытания не проводились


Словесная, %

5

15

17


13

16


-14,7

Формантная, %

5

6

6


5

6



Словесная, %

14

24

26


22

25


-10,7

Формантная, %

8

8

8


7



Словесная, %

34

44

46


42

45


-0,7

Формантная, %

27

41

41


32

41



Словесная, %

88

95

96


93

95



Таблица 6.4 Стационарный шум- шум двигателя в крейсерском режиме полета

С/Ш, Дб

РАЗБОРЧИВОСТЬ


Тип

До очистки

После фильтра

После канала передачи




Ф1

Ф2

Ф3

Ф1

Ф2

Ф3

-18,7

Формантная, %

5

6

6

6

5

6

6


Словесная, %

20

25

30

28

23

28

26

-14,7

Формантная, %

6

7

7

7

7

7

7


Словесная, %

35

40

45

43

38

43

41

-10,7

Формантная, %

7

9

9

9

8

9

9


Словесная, %

45

50

55

53

48

53

51

-0,7

Формантная, %

20

29

41

30

28

35

29


Словесная, %

82

92

97

94

90

95

92


Таблица 6.5 Нестационарный шум- шум двигателя самолета на взлете

С/Ш, Дб

РАЗБОРЧИВОСТЬ


Тип

До очистки

После фильтра

После канала передачи




Ф1

Ф2

Ф3

Ф1

Ф2

Ф3

-18,7

Формантная, %

5

5

6

6

5

6

6


Словесная, %

20

21

30

28

19

28

26

-14,7

Формантная, %

7

7

9

9

7

9

8


Словесная, %

42

43

52

50

41

50

48

-10,7

Формантная, %

11

10

15

13

10

13

12


Словесная, %

64

65

74

72

63

72

70

-0,7

Формантная, %

12

21

35

29

20

29

28


Словесная, %

85

86

95

93

84

93

91


Таблица 6.6 Нестационарный шум- воздействие других голосов

С/Ш, Дб

РАЗБОРЧИВОСТЬ


Тип

До очистки

После фильтра

После канала передачи




Ф1

Ф2

Ф3

Ф1

Ф2

Ф3

-18,7

Формантная, %

5

6

6

6

6

6

6


Словесная, %

20

30

32

30

28

30

28

-14,7

Формантная, %

5

7

7

7

7

7

7


Словесная, %

30

40

42

41

38

40

39

-10,7

Формантная, %

9

10

10

10

9

10

9


Словесная, %

50

60

62

61

58

60

59

-0,7

Формантная, %

17

25

28

25

22

25

22


Словесная, %

79

89

91

89

87

89

87


По проведенным выше исследованиям можно сделать вывод, что при различных соотношениях сигнал-шум наибольшее повышение разборчивости дает адаптивный алгоритм шумоподавления на основе спектрального вычитания.

Оценивая разборчивость речи на выходе канала передачи, адаптивный алгоритм шумоподавления на основе спектрального вычитания также обеспечивает хорошую разборчивость. Выбранный канал передачи незначительно влияет на разборчивость речи.

Заключение

Данная дипломная работа была направлена на исследование возможности улучшения характеристик канала связи с центром управления (диспетчером).

В ходе исследования были решены следующие задачи:

Рассмотрены имеющиеся и перспективные каналы передачи с борта летательного аппарата;

Проанализированы алгоритмы и средства повышения разборчивости речи;

Рассмотрены методы распознавания речи и выбраны методы оценки разборчивости речи;

Исследованы и классифицированы виды аудио шумов в кабине, мешающих распознаванию речи;

Разработана модель формирования «очищенной» речи;

Выбран и построен канала связи;

Исследована эффективность предложенного формирователя.

Список использованной литературы

1.    Покровский Н.Б. Расчет и измерение разборчивости речи. - М., Связьиздат, 1962, 390с.

2.    Железняк В.К., Макаров Ю.К., Хорев А.А. Некоторые методические подходы к оценке эффективности защиты речевой информации//Специальная техника. - М.: 2000.- № 4.

3.      ГОСТ Р 50840-95. Государственный стандарт Российской Федерации. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. Издание официальное. - М.: Госстандарт России, 1997.

.        Вахитов Я.Ш. Слух и речь. - Л., изд.ЛИКИ, 1973.

.        Сапожков М.А., Михайлов В.Г. Вокодерная связь. - М., Радио и связь,1983,247с.

6.    Хорев А.А., Макаров Ю.К. К оценке эффективности защиты акустической (речевой) информации

7.    Ковалгин Ю.А., Володин Э.И. Цифровое кодирование звуковых сигналов. С-Пб, КОРОНА принт, 2004, 231с.

8.    Котович А.Е., Рябенький В.М. Спектрально-адаптированные нормы защиты речевой информации от утечки по акустическому каналу. - Безопасность информации, №1(9), 1998,сс.32-35.

9.    Хекл М., Мюллер Х.А. Справочник по технической акустике. - Л., Судостроение, 1980.

10.  Владимир Дьяконов, Ирина Абраменкова “Matlab. Обработка сигналов и изображений” Специальный справочник. - СПБ.: Питер, 2002.-600 с.: ил.

11.  Яровой Н.И. Адаптивная медианная фильтрация.

12.    Черненко С.А. Медианный фильтр.

13.  Радченко Ю.С. Эффективность приема сигналов на фоне комбинированной помехи с дополнительной обработкой в медианном фильтре. - "Журнал радиоэлектроники", №7, 2001.

Похожие работы на - Исследование процессов формирования и передачи аудиоинформации с борта летательного аппарата

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!