Модуль сжатия речевых сигналов цифровой АТС

  • Вид работы:
    Дипломная (ВКР)
  • Предмет:
    Информатика, ВТ, телекоммуникации
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    225,83 kb
  • Опубликовано:
    2011-10-26
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Модуль сжатия речевых сигналов цифровой АТС

Содержание

Введение

1. Обзор методов сжатия речи

1.1 Избыточность речи

1.2 Импульсно-кодовая модуляция

1.3 Дельта-модуляция

1.3.1 Линейная дельта-модуляция

1.3.2 Адаптивная дельта-модуляция

1.4 Дифференциальная ИКМ

1.5 Адаптивная дифференциальная ИКМ

2. Анализ технического задания

2.1 Выбор метода сжатия речи

2.2 Механизм речеобразования

2.3 Кодирование речевых сигналов на основе линейного предсказания

2.3.1 Методы анализа на основе линейного предсказания

2.3.2 Выбор метода вычисления коэффициентов предсказания

2.3.3 Автокорреляционный метод

2.3.4 Вычисление коэффициента усиления модели

3. Выбор и обоснование структурной схемы модуля сжатия речевых сигналов

4. Выбор и обоснование принципиальной схемы модуля сжатия речевых сигналов

5. Разработка алгоритма программы

6. Экспериментальные исследования

6.1 Методика проведения эксперимента

6.2 Результаты эксперимента

7. Разработка конструкции модуля сжатия речевых сигналов

Заключение

Список использованных источников

Введение

Методы цифровой обработки и передачи речевых сигналов в настоящее время интенсивно развиваются. Это, прежде всего, обусловлено прогрессом в области цифровой микросхемотехники, благодаря которому появилась реальная возможность изготовления сложной аппаратуры передачи сообщений, а также цифровых устройств распознавания речи, синтеза речи и др. Первые образцы таких устройств, уже освоенные промышленностью, вызвали повышенный интерес разработчиков к открывающимся возможностям и привлекли новых приверженцев этого направления исследований к изучению современных методов и алгоритмов цифровой обработки речи.

Обработка речевого сигнала предполагает в первую очередь формирование описания на основе некоторой модели с последующим преобразованием полученного представления в требуемую форму. Последним шагом в процессе обработки является выделение и использование информационного содержания сигнала.

Следует заметить, что конечная цель цифровой обработки сигналов такая же, как и при аналоговой обработке. Поэтому цифровые методы обработки требуют специального изучения в рамках общих методов обработки сигнала. Для этого имеется ряд серьезных причин. Первая, и возможно наиболее важная, заключается в том, что использование цифровых методов позволяет реализовать достаточно сложные алгоритмы обработки. Это также связано с успешным развитием технологии изготовления цифровых устройств. Цифровые системы надежны и компактны. Технология производства интегральных схем достигла в настоящее время такого уровня, когда сложнейшая система обработки может быть реализована в виде одной микросхемы. Скорость выполнения логических операций в микросхемотехнике столь высока, что в большинстве случаев системы обработки речевых сигналов могут функционировать в реальном масштабе времени.

Основная задача обработки и передачи речи - создание систем низкоскоростной передачи с высоким качеством восприятия сигнала, способных функционировать в реальных условиях.

Одной из ключевых проблем ресурсосберегающего развития телефонных сетей является сокращение избыточности речевого сигнала. Решение этой проблемы позволит в условиях заданного критерия качества связи увеличить пропускную способность линейных трактов и каналов передачи. Именно для сокращения избыточности и предназначено разрабатываемое устройство - модуль сжатия речевых сигналов цифровой АТС.

Уменьшение скорости передачи речевого сигнала (РС) с 64кбит/с до 7,8кбит/с, при сохранении достаточно хорошего качества восприятия речи, позволяет увеличить время, отводимое для записи сообщений в системе “голосовой почты" в цифровой АТС. Применение данного устройства позволит увеличить время записи сообщений примерно в восемь раз по сравнению с аналогом, в котором сигнал записывается без предварительного сжатия.

1. Обзор методов сжатия речи

1.1 Избыточность речи


Анализ речевых сигналов показывает, что при переходе от одного дискрета к другому проявляется значительная избыточность. В действительности коэффициент корреляции (мера предсказуемости) между соседними дискретами, следующими с частотой 8 кГц, составляет в общем случае 0.85 или больше. Все методы аналого - цифрового преобразования, описанные в последующей части этого раздела, с целью уменьшения скорости передачи приспособлены в той или иной степени к характеристикам речевых сигналов.

В дополнение к корреляции, существующей между соседними дискретами речевого сигнала, для уменьшения скорости передачи кодированного сигнала можно использовать и несколько других видов избыточности. Они перечислены в табл.1.1.

Таблица 1.1

Виды избыточности речевого сигнала

Во временной области

1. Неравномерное амплитудное распределение

2. Корреляция между дискретами

3. Корреляция, связанная с периодичностью в сигнале

4. Корреляция между периодами основного тона

5. Избыточность, связанная с неактивностью речи (паузы)

В частотной области

6. Неравномерный усредненный спектр

7. Кратковременный спектр звука

Неравномерное распределение амплитуд предполагает использование некоторых видов адаптивной регулировки усиления. Это обусловлено тем, что дискреты с меньшими значениями встречаются чаще, чем дискреты с большими значениями.

Корреляция между дискретами речи - кодируется только разность между соседними дискретами. Результаты измерений разностей накапливаются затем в декодере для восстановления сигнала.

Корреляция, связанная с периодичностью в сигнале объясняется тем, что в любой конкретный момент времени определенные звуки могут быть построены только из колебаний нескольких основных частот. Поэтому наблюдается сильная корреляция между большим числом дискретов, относящихся к нескольким периодам колебаний.

Корреляция между периодами основного тона - следствие долговременной периодичности, относящейся к основному тону. Кодируются звонкие отрезки речи на одном периоде основного тона и результаты этого кодирования используются как шаблон для последующих периодов основного тона в этом звуке.

Избыточность, связанная с неактивностью речи (паузы) определяется достаточно большой длительностью пауз в разговоре (около 60%). Кодирование заключается в определении речевой активности и освобождении канала по завершению каждого отрезка речи.

При рассмотрении вопросов применения цифровой обработки речевых сигналов к задачам связи следует выделить два основных способа кодирования речевых сигналов: формы и параметров (вокодерные методы). Кодирование формы речевого сигнала основано на сохранении формы колебания в процессе дискретизации и квантования. Параметрическое представление базируется на описании речевого сигнала, как выходного отклика модели речеобразования. На первом этапе построения параметрического представления речевое колебание подвергается дискретизации и квантованию, а затем обрабатывается для получения модели. Параметры модели обычно разделяются на параметры возбуждения и параметры голосового тракта.

Согласно рекомендациям МККТТ и требованиям ЕАСС (ВСС) полоса частот преобразуемого речевого сигнала ограничивается интервалом частот 0,3…3,4 кГц, а частота дискретизации при ИКМ в соответствии с теоремой отсчетов принимается равной fД =8 кГц.

Шкала уровней квантования рассчитывается таким образом, чтобы перекрыть весь диапазон изменения мгновенных значений выходного сигнала. Эта шкала может быть равномерной или неравномерной, фиксированной или адаптивно изменяемой в зависимости от параметров РС.

1.2 Импульсно-кодовая модуляция


Избыточность при обычном, ИКМ - кодировании указывает на возможность значительной экономии полосы передачи. Этот вид модуляции основан на дискретизации, квантовании отсчетов и кодировании номера уровня квантования (рис.1.1) /1/. Аналоговый сигнал после фильтрации преобразуется в последовательность узких импульсов, модулированных по амплитуде. Полученный АИМ - сигнал квантуется по величине с использованием равномерной, неравномерной или адаптивно изменяемой шкалы квантования. Конкретное квантованное значение речевого сигнала преобразуется в кодовое слово, которое характеризуется числом разрядов и алфавитом символов. В основном цифровом канале используется ИКМ с А или  - законом компандирования. Здесь восьмиразрядное двоичное кодовое слово отображает: знак (полярность) отсчета, трехразрядный номер сегмента характеристики компандирования и четырехразрядный номер уровня квантования в данном сегменте. Могут быть предусмотрены дополнительные меры для повышения помехоустойчивости кодовых слов по отношению к цифровым ошибкам в тракте передачи.

Структурная схема кодека ДИКМ

Рис.1.1

1.3 Дельта-модуляция


Примером простого применения разностного квантования является дельта - модуляция (ДМ) /1/. В системах такого типа частота дискретизации выбирается во много раз больше, чем частота Котельникова. В результате соседние отсчеты оказываются в большой степени коррелированными. В системе с дельта - модуляцией используется простой одноразрядный (двухуровневый) квантователь. Таким образом, скорость передачи при использовании ДМ численно равна частоте дискретизации.

1.3.1 Линейная дельта-модуляция

В этом случае квантователь имеет только два уровня и шаг квантования фиксирован. Положительный уровень квантования соответствует c (n) =0, а отрицательный c (n) =1. Таким образом, согласно /1/,


Если крутизна входного сигнала максимальна, то для того, чтобы последовательность отсчетов  (на выходе кодера) возрастала так же быстро, как и последовательность  (на входе кодера) в области максимальной крутизны, необходимо потребовать выполнения неравенства

.

Иначе восстановленный сигнал будет “отставать” от исходного. Поскольку максимальная крутизна  ограничивается шагом квантования, то возрастание или убывание последовательности  происходит по соответствующей ступенчатой линии.

Шаг квантования определяет также и максимальную ошибку, когда крутизна мала. Например, если сигнал на входе равен нулю (канал не занят), сигнал на выходе квантователя представляет собой переменную последовательность нулей и единиц, что приводит к флуктуации восстановленного сигнала вокруг нулевого или иного постоянного уровня с размахом . Это вызывает т. н. шум дробления.

1.3.2 Адаптивная дельта-модуляция

Известен ряд методов адаптивной дельта - модуляции (АДМ) /1/. Большинство этих методов основано на адаптации по выходу, когда шаг квантования перестраивается по выходной последовательности кодовых слов. Подобное построение кодеков АДМ обладает тем преимуществом, что не требует синхронизации по кодовым словам, поскольку при отсутствии ошибок шаг квантования, как передатчика, так и приемника перестраивается в одной и той же кодовой последовательности. Поскольку минимальный шаг квантования может быть сделан значительно меньше, чем тот, который необходим для оптимальной работы линейного дельта - модулятора, шум дробления может быть существенно уменьшен. Аналогично максимальный шаг квантования можно сделать большим, чем максимальная крутизна входного сигнала, что приведет к уменьшению шума перегрузки по крутизне.

Улучшение качества систем АДМ достигнуто путем ее незначительного усложнения. Поскольку адаптация осуществляется по выходному потоку двоичных символов, система АДМ сохраняет основное преимущество систем с дельта - модуляцией, т.е. не требует синхронизации по кодовым словам.

По сути, дельта - модулятор представляет собой систему с дифференциальной ИКМ (ДИКМ). Дельта - модулятор также можно назвать одноразрядной системой с ИКМ. В общем случае, однако, термин “разностная ИКМ" применяется по отношению к системам, в которых квантователь имеет более двух уровней квантования.

1.4 Дифференциальная ИКМ


Дифференциальная ИКМ основана на нелинейном отслеживании за передаваемым сигналом. В кодере можно выделить цепь обратной связи, где используется местный декодер. Из выходного цифрового сигнала формируется сигнал (оценка, копия), сравниваемый с исходным передаваемым сигналом (рис.1.2). Сигнал разности после дискретизации квантуется и по знаку, и по величине, после чего формируются двоичные символы или кодовые слова цифрового сигнала. В отличие от случая ИКМ при дифференциальной ИКМ квантованию подвергается не сам исходный сигнал, а разность между ним и результатом предсказания, формируемым на выходе предсказателя. Погрешность квантования этой разности, определяемая используемым в кодере квантователем, характеризует различие между исходным сигналом и его квантованной копией (аппроксимирующим сигналом) на выходе предсказателя.

речевой сигнал сжатие модуль

На приемной стороне из принятого цифрового сигнала аналогичным образом формируется квантованный аппроксимирующий сигнал, который после низкочастотной фильтрации и усиления поступает на выход телефонного канала.

Структурная схема кодека ДИКМ

Рис.1.2

1.5 Адаптивная дифференциальная ИКМ


Учесть нестационарный характер речевого сигнала, а в частности медленное изменение его мощности (дисперсии), позволяет адаптивный квантователь. Шаг квантования изменяется в соответствии с дисперсией квантуемого сигнала, при этом оценка дисперсии может осуществляться в результате анализа либо входного, либо выходного сигнала квантователя. Соответственно имеем прямое (ПУ) и обратное (ОУ) управление квантованием. Достоинством алгоритмов с ПУ, когда оптимальная нагрузка квантователя регулируется по оценке кратковременной дисперсии входного сигнала, является высокая помехоустойчивость передачи информации о шаге квантования. Однако требуется дополнительная пропускная способность тракта для передачи сигнала управления в декодер.

Структурная схема адаптивного квантователя с прямым управлением (рис.1.3) содержит блок адаптации и адаптивно управляемые аналого - цифровой (АЦП) и цифро - аналоговый (ЦАП) преобразователи.

При обратном управлении квантованием оценивается кратковременная дисперсия сжатого (скомпрессированного) квантованного сигнала. В этом случае сигнал управления шагом квантования выделяется из последовательности кодовых слов с выхода кодера на передающей стороне и с входа декодера на приемной стороне. Структурная схема адаптивного квантователя с ОУ (рис.1.4) содержит те же функциональные элементы, что и квантователь с ПУ, изменилось лишь место включения входа блока адаптации.

В дифференциальных кодеках формируется аппроксимирующее напряжение, сравниваемое с передаваемым сигналом. Эта процедура предсказания может быть фиксированной или адаптивной.

L - число отсчетов прямоугольного весового окна,

 - шаг квантования.

Структурная схема квантователя с прямым управлением

Рис.1.3

Структурная схема квантователя с обратным управлением

Рис.1.4. Кодер адикм

На рис.1.5 представлена структурная схема кодера АДИКМ /2,3/.

После преобразования входного сигнала ИКМ из A - или -закона в стандартную ИКМ, получается сигнал различия, вычитанием оценки входного сигнала от самого входного сигнала. Адаптивный квантователь уровня используется для того, чтобы назначить пять, четыре, три или две двоичных цифры для передачи в дешифратор величины сигнала различия. Обратный квантователь производит квантование сигнала различия. Сигнальная оценка добавляется к этой квантованной разнице сигналов, для того чтобы можно было произвести восстановление входного сигнала. Как восстановленный сигнал так и квантованный разностный сигнал обрабатываются адаптивным предсказателем, который производит оценку входного сигнала, этим самым завершает цикл обратной связи.

На рис.1.5 представлена структурная схема кодера (для каждой описанной переменной, k - индекс дискретизации и отсчеты взяты с интервалами 125 мкс).

·   Входной сигнал s (k) преобразовывается из A-закона или m-закона ИКМ в сигнал sl (k) - стандартной ИКМ.

·   Вычисляется разница d (k) между сигналом sl (k) стандартной ИКМ и сигнальной оценкой se (k):

d (k) =sl (k) se (k).

Используется неоднородный адаптивный квантователь для квантования разностного сигнала d (k), для того чтобы оперировать с 40, 32, 24 или 16 кбит/с. Перед квантованием d (k) преобразовывается в логарифмическое представление по основанию 2 и масштабируется при помощи y (k), которая вычисляется как коэффициент масштабирования блока адаптации. Для того чтобы закодировать уровень квантования, представляющий d (k) используется выбранное количество разрядов двоичных чисел. Один из которых предназначен для знака, а другие - для кодирования величины.

Обратный адаптивный квантователь получает квантованную версия dq (k) разностного сигнала масштабированием, с использованием y (k).

Квантователь коэффициента масштабирования адаптации вычисляет y (k) - коэффициент масштабирования для квантователя и обратного квантователя.

Основной принцип, использованный в масштабировании квантователя - это двухрежимная адаптация:

1) быстро для сигналов (например, речи), с большими колебаниями разницы между выходными сигналами;

2) медленно для сигналов (например, данные в полосе частот речи, тон), с небольшими колебаниями разницы между выходными сигналами.

Скорость адаптации управляется комбинацией коэффициентов масштабирования, характеризующих быстрые и медленные изменения сигнала.

Адаптивный предсказатель должен вычислить сигнальную оценку se (k) из квантованной сигнальной разницы dq (k).

Декодер АДИКМ

На рис.1.6 представлена структурная схема декодера АДИКМ /2,3/. Функции многих блоков декодера и кодера сходны. Т.о. функции обратного адаптивного квантователя, квантователя коэффициента масштабирования адаптации, адаптивного предсказателя и восстановителя сигнала описаны ранее при рассмотрении структуры кодера.

Сначала выполняется преобразование сигнала из A - или -закона sp (k) в стандартную ИКМ - сигнал stx (k) и затем обрабатывается разностный сигнал dx (k):

dx (k) =slx (k) se (k).

Разностный сигнал dx (k) - затем сравнивается с квантованным АДИКМ сигналом и, выносится решение на интервале сигнала. Сигнал sd (k) (sd (k) - выходное кодовое слово ИКМ декодера) - затем определяется следующим образом:

s+p (k) - ИКМ кодовое слово, которое представляет наибольший положительный выходной уровень ИКМ (когда sp (k) представляет наибольший положительный выходной уровень - s+p (k): - ограничивается, и принимается за sp (k)),

s - p (k) - кодовое слово ИКМ, которое представляет наибольший отрицательный выходной уровень ИКМ (когда sp (k) представляет наибольший отрицательный выходной уровень - s-p (k): - ограничивается, и принимается за sp (k)).

Т.о. можно видеть, что многие функции кодера и декодера сходны, поэтому их рассмотрение производится не будет.


2. Анализ технического задания


2.1 Выбор метода сжатия речи


Рассмотрев основные методы сжатия речевых сигналов сделаем следующие выводы:

1) ИКМ является стандартом цифровой телефонии. Она позволяет передавать речь со скоростью 64 кбит/с. Остальные разновидности методов сжатия речевого сигнала используют импульсно - кодовую модуляцию в качестве исходной (стандарт G703).

2) Адаптивная дельта модуляция позволяет передавать речь со скоростью 32 кбит/с.

3) Адаптивная дифференциальная ИКМ дает скорости передачи 40, 32, 24 и 16 кбит/с (стандарт G726).

Все приведенные методы кодирования формы речевого сигнала уже достаточно хорошо изучены и не дают скорости передачи менее 16 кбит/с, но обеспечивают достаточно хорошее качество принимаемого сигнала. Поэтому для получения значительно меньших скоростей передачи требуется разработка принципиально новых методов и подходов к передачи речи. Причем эти методы должны учитывать структуру и особенности речевого сигнала.

Существуют и другие подходы к обработке и передаче речи, такие как, например, сжатие в частотной области, примером которого может служить: полосное кодирование, канальный вокодер, формантный вокодер. Скорость передачи речевого сигнала в вокодерах значительно ниже чем у рассмотренных ранее, но натуральность звучания меньше.

Представителем кодирования параметров сигнала - является метод линейного предсказания. Он позволяет получить скорости передачи вплоть до 2.4 кбит/с. Он стандартизован МККТТ (G 728 - 16 кбит/с, G 729 - 8 кбит/с), существует федеральный стандарт США на скорость передачи 6.8 кбит/с.

Из приведенных выше рассуждений можно сделать вывод:

1) кодирование формы сигнала обеспечивает хорошее качество, но высокую избыточность сигнала (высокую скорость передачи);

2) кодирование в частотной области (полосное кодирование, канальный вокодер, формантный вокодер) обеспечивает плохое качество передаваемой речи, но низкую скорость передачи;

3) кодирование параметров сигнала позволяет добиться хорошего качества при низкой скорости передачи данных. Следовательно, данный метод является наиболее приемлемым.

Перспективно также использование подхода, применяемого в линейном предикативном кодировании, и в других приложениях, таких как:

1) компьютерный ответ голосом (т.к. требуются гораздо меньшие объемы памяти для хранения информации);

2) системы идентификации и верификации голоса диктора;

3) передача сообщений по сети Internet.

Таким образом, в качестве метода, используемого для модуля сжатия речи, выберем метод кодирования параметров речевого сигнала с использованием линейного предсказания.

2.2 Механизм речеобразования


Звуки речи могут быть разделены на три четко выраженные группы по типу возбуждения /4/:

1) Вокализованные звуки образуются проталкиванием воздуха через голосовую щель, при котором периодически напрягаются и расслабляются голосовые связки и возникает квазипериодическая последовательность импульсов потока воздуха, возбуждающая голосовой тракт. К вокализованным звукам относятся все гласные и часть согласных звуков.

2) Невокализованные или фрикативные звуки генерируются при сужении голосового тракта в каком - либо месте (обычно в конце рта) и проталкивании воздуха через суженное место со скоростью, достаточно высокой для образования турбулентного воздушного потока. Таким образом, формируется источник широкополосного шума, возбуждающего голосовой тракт. К невокализованным звукам относят большую часть согласных звуков.

3) Взрывные звуки характеризуются полностью закрытым голосовым трактом (обычно в начале голосового тракта). Затем воздух внезапно высвобождается. Такое явление имеет место при произнесении звука [т].

Различные звуки образуются путем изменения формы голосового тракта. Таким образом, спектральные свойства речевого сигнала изменяются во времени в соответствии с изменением формы голосового тракта.

2.3 Кодирование речевых сигналов на основе линейного предсказания


Линейное предсказание является одним из наиболее эффективных методов анализа речевого сигнала. Этот метод становится доминирующим при оценке основных параметров речевого сигнала, таких, как, например, период основного тона, форманты, спектр, функция площади речевого тракта, а также при сокращенном представлении речи с целью ее низкоскоростной передачи и экономного хранения. Важность метода обусловлена высокой точностью получаемых оценок и относительной простотой вычислений /4/.

Основной принцип метода линейного предсказания состоит в том, что текущий отсчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отсчетов. Коэффициенты предсказания при этом определяются однозначно минимизацией среднего квадрата разности между отсчетами речевого сигнала и их предсказанными значениями (на конечном интервале). Коэффициенты предсказания - это весовые коэффициенты, используемые в линейной комбинации.

Основные положения метода линейного предсказания хорошо согласуются с моделью речеобразования, т.к. речевой сигнал можно представить в виде сигнала на выходе линейной системы с переменными во времени параметрами, возбуждаемой квазипериодическими импульсами (в пределах вокализованного сегмента) или случайным шумом (на невокализованном сегменте). Метод линейного предсказания позволяет точно и надежно оценить параметры этой линейной системы с переменными коэффициентами /5/.

Методы вычисления коэффициентов предсказания:

1) ковариационный;

2) автокорреляционный;

3) лестничного фильтра;

4) обратной фильтрации;

5) оценки спектра;

6) максимального правдоподобия;

7) скалярного произведения.

Целесообразность использования линейного предсказания обусловлена высокой точностью описания речевого сигнала с помощью модели.

2.3.1 Методы анализа на основе линейного предсказания

Общий спектр, обусловленный излучением, речевым трактом и возбуждением, описывается с помощью линейной системы с переменными параметрами и передаточной функцией

. (2.1)

Эта система возбуждается импульсной последовательностью для вокализованных звуков речи и шумом для невокализованных. Таким образом, модель имеет следующие параметры:

1) классификатор вокализованных и невокализованных звуков;

2) период основного тона для вокализованных сегментов;

3) коэффициент усиления G;

4) коэффициенты {аk} цифрового фильтра.

Все эти параметры медленно изменяются во времени /3,4/.

Структурная схема модели анализа речи

Рис.2.1

Структурная схема модели речеобразования

Рис.2.2

Для вокализованных звуков хорошо подходит модель, содержащая только полюсы в своей передаточной функции (чисто полюсная), но для носовых и фрикативных звуков требуется учитывать и нули. Однако если порядок р модели достаточно велик, то полюсная модель позволяет получить достаточно точное описание почти для всех звуков речи. Главное достоинство этой модели заключается в том, что как параметр G, так и коэффициенты можно оценить непосредственно с использованием эффективных с вычислительной точки зрения алгоритмов.

Отсчет речевого сигнала s (n) связан с сигналом возбуждения u (n) простым разностным уравнением

. (2.2)

Линейный предсказатель с коэффициентами  определяется как система, на выходе которой имеем

. (2.3)

Системная функция предсказателя р - го порядка представляет собой полином вида

. (2.4)

Погрешность предсказания определяется как

. (2.5)

Из уравнения (2.5) видно, что погрешность предсказания представляет собой сигнал на выходе системы с передаточной функцией

. (2.6)

Сравнение уравнений (2.2) и (2.3) показывает, что если сигнал точно удовлетворяет модели (2.2) и , то e (n) =Gu (n). Таким образом, фильтр погрешности предсказания A (z) является обратным фильтром для системы H (z), соответствующей уравнению (2.1), т.е.

. (2.7)

Основная задача анализа на основе линейного предсказания заключается в непосредственном определении параметров {ak} по речевому сигналу с целью получения хороших оценок его спектральных свойств путем использования уравнения (2.7). Вследствие изменения свойств речевого сигнала во времени коэффициенты предсказания должны оцениваться на коротких сегментах речи. Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать дисперсию погрешности на коротком сегменте сигнала. При этом предполагается, что полученные параметры являются параметрами системной функции H (z) в модели речеобразования.

Такой подход приводит к следующим результатам:

Пусть , тогда e (n) =Gu (n). Для вокализованной речи это означает, что е (n) будет состоять из последовательности импульсов, т.е. е (n) будет весьма мало почти все время. Поэтому в данном случае минимизация погрешности предсказания позволит получить требуемые коэффициенты.

1) Даже если сигнал формируется системой (2.2) с постоянными во времени параметрами, которая возбуждается либо единичным импульсом либо белым шумом, то можно показать, что коэффициенты предсказания, найденные по критерию минимизации среднеквадратического значения погрешности (в каждый момент времени), совпадают с коэффициентами в уравнении (2.2).

2) Подобная минимизация приводит к линейной системе уравнений, решение которых приводит к получению параметров предсказания.

Кратковременная энергия погрешности предсказания:

, (2.8)

где sn (m) - сегмент речевого сигнала, выбранный в окрестности отсчета n, т.е.

, (2.9)

Пределы суммирования в (2.8) предполагаются конечными, поскольку

используется подход кратковременного анализа. Кроме того, для получения среднего значения необходимо разделить полученный результат на длину речевого сегмента.

2.3.2 Выбор метода вычисления коэффициентов предсказания

Сравнение методов вычисления коэффициентов предсказания показало, что наиболее приемлемым является автокорреляционный метод /4/.

·   Автокорреляционный метод требует меньше вычислений, чем остальные методы.

·   Корни уравнений автокорреляционного метода лежат внутри единичной окружности, т.е. устойчивость H (z) гарантирована.

С точки зрения выбора окна анализа для сегмента речи и порядка предсказателя р - все методы эквивалентны. Так как выбор р определяется частотой дискретизации и не зависит от используемого метода. А размер окна непосредственно влияет на количество вычислений и качество системы.

2.3.3 Автокорреляционный метод

Одним из способов определения пределов в (2.8) основан на предположении, что сигнал равен нулю вне интервала  /4/. Это удобно записать в виде

, (2.10)

где w (m) - окно конечной длительности, равное нулю вне интервала.

Если sn (m) отличен от нуля только на интервале , то соответствующая погрешность предсказания еn (m) для предсказателя порядка р

будет отлична от нуля на интервале . В этом случае Еn имеет вид

. (2.11)

Заметим, что погрешность предсказания будет большой в начале интервала (т.е. ), поскольку мы пытаемся предсказать сигнал по отсчетам, которые приравняли нулю. Погрешность будет большой и в конце интервала (т.е. ), поскольку здесь мы предсказываем нулевые значения по ненулевым. Поэтому в качестве окна w (m) в уравнении (2.10) используется окно, которое стремится к нулю на концах интервала.

Для вычисления коэффициентов предсказания необходимо решить систему линейных уравнений

, . (2.12)

Минимальный средний квадрат погрешности предсказания

. (2.13)

Систему уравнений (2.12) можно записать в матричной форме. Матрица размером рxр является теплицевой, т.е. симметричной и такой, что элементы на любой диагонали равны между собой.

2.3.4 Вычисление коэффициента усиления модели

Коэффициент усиления G можно определить путем согласования энергии сигнала и линейно - предсказанных отсчетов /4/.

Сигнал возбуждения можно представить в виде

,

при этом погрешность предсказания будет представлена в виде

.

В случае, когда , т.е. коэффициенты предсказания совпадают с коэффициентами модели,

,

т.е. входной сигнал модели пропорционален погрешности предсказания с коэффициентом пропорциональности G

,

причем это справедливо как для случая импульсного возбуждения, так и для возбуждения шумом.

Схема модели речеобразования на основе рекурсивного цифрового фильтра показана на рис.2.3, где обозначение Т символизирует задержку на один период дискретизации. В образовании отсчета в k - й момент участвует ряд предшествующих отсчетов x (k-1), …, x (k-p), которые к этому времени уже известны /6,7/.

Схема модели речеобразования на основе рекурсивного цифрового фильтра

Рис.2.3

3. Выбор и обоснование структурной схемы модуля сжатия речевых сигналов


Данный модуль сжатия речевых сигналов выполняет функции “голосовой почты" и должен обеспечивать возможность записи сообщения в память устройства, прослушивания сообщения из памяти устройства, удаления из памяти не интересующих сообщений, удаления из памяти всех сообщений.

В соответствии с алгоритмом обработки РС модулем сжатия необходимо привести параметры, являющиеся результатом работы модуля. За время анализа интервала одного речевого сегмента вырабатывается комбинация символов:

1) 10 шестнадцати битных слов (10 коэффициентов предсказания);

2) 1 шестнадцати битное слово (период основного тона и коэффициент усиления). Период основного тона Т равен восьми битам. Коэффициент усиления интервала анализа речи G составляет восемь бит.

Длительность одного бита параметров кодирования речевого сигнала составляет 125мкс (для всех символов). Т.о. общее число бит за один цикл составляет 176 (при fд=8кГц, Т=125мкс). Интервал времени, за который производится выборка речевого сигнала равен 22,5 мс (при fд=64кГц, Т=15,625мкс). На рис.3.1 приведена комбинация символов на выходе модуля сжатия РС.

Формат представления параметров речевого сигнала

Рис.3.1

Т.о. необходимо записать в ОЗУ данных вычисленные параметры речевого сигнала. Для прослушивания информации ее нужно будет извлечь из ОЗУ данных и, согласно принятому алгоритму кодирования, синтезировать речь.

Для обеспечения необходимого времени записи сообщения общая емкость ОЗУ данных должна составлять 3,5Мбайт.

,

где Nобщ - емкость ОЗУ данных, Nсегм - количество бит, приходящихся на один интервал анализа речевого сегмента, Тсегм - длительность интервала анализа речевого сегмента.

С учетом, что Nобщ = 3,5Мбайт, Nсегм =176 бит, Тсегм =22,5 мс., получим

.

Т.к. согласно алгоритму кодирования речевой сигнал длительностью 22,5мс можно закодировать 176 - ю битами, то это позволит записать в ОЗУ данных 3753с (62,5 мин) речевого сообщения.

Из расчета, что минимальное сообщение составляет 15с, можно вычислить максимальное количество сообщений, которое можно записать

,

где tmin - минимальное время длительности сообщения, равное 15с.

Т.о. kmax=250 сообщений.

Необходимо ввести ограничение на максимальную длительность сообщения. Примем tmах. = 2мин. (где tmах. - максимальная длительность сообщения).

Исходя из выполняемых данным устройством функций, определим основные элементы модуля сжатия речевых сигналов и составим его структурную схему (рис.3.2).

 

Структурная схема модуля сжатия речевых сигналов

Рис.3.2

Основными элементами модуля сжатия речевых сигналов являются:

1) микропроцессор, выполняющий функцию вычислителя и основного управляющего элемента в системе;

2) ОЗУ программ (используется для хранения программы управляющей работой модуля сжатия речевых сигналов);

3) ОЗУ данных (используется для хранения параметров речевого сигнала, используемых для синтеза речевого сигнала);

4) узел выработки управляющих сигналов переключения микросхем памяти;

5) буферные элементы (позволяют увеличить нагрузочную способность выходов микропроцессора);

6) устройство контроля напряжения питания.

Входными параметрами данной системы являются:

1) XCLK - сигнал внешней синхронизации устройства;

2) SP - строб - сигнал;

3) TX - ИКМ канал передачи данных;

4) RX - ИКМ канал приема данных;

5) Ucc - напряжение питания.

Шина исходных сигналов управления (ИСУ) задает входные параметры для узла выработки управляющих сигналов. ИСУ представляет собой:

1) SP - строб - сигнал;

2) CS - сигнал выборки нужной микросхемы памяти;

3) CLK - сигнал тактовой синхронизации;

4) WR - сигнал записи;

5) RD - сигнал чтения;

6) A19 - A21 - адреса микросхем памяти.

Шина управляющих сигналов (УС) позволяет коммутировать микросхемы памяти ОЗУ данных (LCS0 - LCS6).

К буферным элементам подводится шина адреса (ША) (А0 - А18) и шина данных (ШД) (D0 - D7). На выходе буферных элементов эти шины имеют обозначения БША и БШД, соответственно.

Шина программ (ШП) позволяет загрузить в память процессора программу управления его работой из ОЗУ программ, которое загружается через последовательный порт RS 232.

Устройство контроля Ucc контролирует работу микропроцессорной системы сигналом  и управляется извне сигналом ST.

Разработанная в данном разделе схема структурная электрическая приведена на плакате ЦТРК 2014.095649. Э1-00.

4. Выбор и обоснование принципиальной схемы модуля сжатия речевых сигналов


В качестве устройства обработки речевого сигнала используется микропроцессор ADSP 2181, т.к. его применение позволит решить все задачи по обработке речевого сигнала, т.е. его сжатие, синтез, выработка сигналов управления ОЗУ.

ADSP 2181 представляет собой однокристальный микрокомпьютер, оптимизированный для цифровой обработки сигналов, а также других высокоскоростных вычислительных операций. Подробное описание сигнального процессора в /8,9/. Процессор ADSP 2181 - один из самых мощных в этой серии, имеет 80Кбайт быстродействующего ОЗУ на кристалле, таймер, а также несколько последовательных и параллельных портов. Процессор состоит из двух частей: процессорного блока и блока периферийных устройств.

Процессорный блок - единый для всей серии ADSP 21XX - содержит 3 вычислительных устройства: АЛУ, умножитель-сумматор и устройство сдвига; устройство управления и 2 генератора адреса /10/. Каждое из вычислительных устройств имеет свой набор входных регистров и один или два аккумулятора для результатов. Взаимодействие всех процессорных устройств между собой осуществляется с помощью 5-ти шин. Названия шин, разрядность и обозначения приведены в табл.4.1.

Таблица 4.1

Название шины

Обозначение

Разрядность, бит

шина данных памяти программ

PMD

24

шина адреса памяти программ

PMA

14

шина данных памяти данных

DMD

16

шина адреса памяти данных

DMA

14

шина результатов

R

16

 

Периферийные устройства - два банка быстродействующей памяти по 16К слов каждый, 2 синхронных последовательных порта (SPORT0 и SPORT1), таймер, порты прямого доступа к памяти (IDMA и BDMA), контроллер прерываний, логика управления внешней шиной. Внутренние шины процессора коммутируются в одну 14-ти разрядную внешнюю шину адреса и одну 24-х разрядную шину данных. Тип памяти, к которой обращается процессор по внешней шине, определяется сигналами выбора памяти, типы памяти приведены в табл.4.2.

Таблица 4.2

PMS

память программ

DMS

память данных

BMS

байтовая память (обращения контроллера BDMA)

IOMS

область ввода/вывода


Внешн. шина адреса

Внешн. шина данных

Таймер

Контроллер прерываний

IDMA

Контроллер

PMA

DMA

PMD

DMD

Флаги

Power Down Контроллер

BDMA

Контроллер

Внешн. шина адреса

Внешн. шина данных

Таймер

Контроллер прерываний

IDMA

Контроллер

PMA

DMA

PMD

DMD

Флаги

Power Down Контроллер

BDMA

Контроллер

Архитектура процессора ADSP2181 имеет высокую степень параллелеризма, отвечающую требованиям цифровой обработки сигналов. За один командный цикл процессор может выполнить следующие действия:

1) cгенерировать адрес новой команды;

2) осуществить выборку и дешифрацию следующей команды;

3) выполнить одно или два обращения к памяти;

4) обновить один или два указателя адреса данных;

5) выполнить вычисления;

6) передавать данные через последовательные порты;

7) передавать данные по DMA портам.

Базовая архитектура процессора приведена на рис 4.1.


Вычислительные устройства непосредственно работают с 16 - битными данными и имеют аппаратную поддержку для работы с числами повышенной точности.

АЛУ выполняет стандартный набор арифметических и логических операций, а также примитивы деления. МАС выполняет умножение за один цикл, а также операции умножения/вычитания. Устройство циклического сдвига производит арифметические и логические операции. В нем реализованы операции над числами в разных форматах, в том числе и надо числами с плавающей точкой, занимающих более одного слова. Вычислительные устройства организованны "бок о бок", а не последовательно, что позволяет результату работы любого устройства быть операндами любого другого устройства в следующем цикле. Шина внутренних результатов (R) прямо соединяет вычислительные устройства с этой целью.

Все три вычислительных устройства содержат входные и выходные регистры, которые доступны через внутреннюю шину (DMD). Вычислительные устройства обычно берут операнды из входных регистров и помещают результат в выходной регистр. Эти регистры обеспечивают буферизацию между вычислительными устройствами и памятью. Шина внутренних результатов позволяет использовать результат предыдущего вычисления, используя непосредственно как операнд другой операции. Это исключает задержки в случае выполнения серий различных операций.

Два выделенных генератора адресов данных DAG и многофункциональный счетчик команд обеспечивают эффективное использование вычислительных устройств. Генераторы адресов данных обеспечивают адреса памяти данных, когда данные пересылаются из выходных или во входные регистры. Каждый из двух генераторов запоминает до 4 адресных указателей. Когда указатель используется для косвенной адресации, он может автоматически модифицироваться значением в заданном регистре после исполнения инструкции. Имея 2 генератора адресов, процессор может генерировать 2 адреса за один цикл, что обеспечивает исполнение двухадресных инструкций.

Программированный интервальный таймер, обеспечивающий периодическую генерацию прерываний.8-битный масштаб позволяет ему декрементировать содержимое 16-битного регистра-счетчика в диапазоне от каждого цикла до 256-го цикла процессора. Прерывание генерируется, когда регистр-счетчик обнуляется. Регистр-счетчик автоматически загружается из 16-битного регистра интервала и отсчет времени немедленно возобновляется.

Данный процессор имеет два двунаправленных последовательных порта (SPORT) с двойной буферизацией. Эти порты используют синхронную передачу данных и используют кадровые сигналы, чтобы контролировать поток данных. Каждый порт может тактироваться от внутреннего таймера или от внешней частоты. Сигналы кадровой синхронизации могут меняться от 3 бит до 16. ADSP подключается к внешними устройствам через SPORT, рассмотрим его подробно.

Последовательные порты. Для сопряжения с аппаратными средствами существует синхронные последовательные порты, или SPORT. SPORT поддерживает много последовательных протоколов обмена данными и могут обеспечить прямое соединение процессоров в многопроцессорной системе. В нашем случае для соединения ADSP с системной шиной и устройством управления. Каждый SPORT имеет пять интерфейсных линий:

1) SCLK Синхроимпульсы;

2) RFS Синхроимпульсы;

3) TFS Синхронизация приема кадра;

4) DT Передача данных;

5) DR Прием данных.

SPORT получает данные через вход DR и посылает данные через вход DT. Для полнодуплексной работы он может одновременно посылать и принимать данные. Биты данных синхронизируются с синхроимпульсами SCLK. Линия SCLK является выходом, если процессор генерирует синхроимпульсы, и входом, если синхроимпульсы приходят извне. Сигналы синхронизации кадров RFS и TFS используются для индикации начала передачи слова или потока слов.

Рис 4.2 показывает упрощенную блок-схему одного SPORT. Данные, подлежащие передаче, записываются из внутреннего регистра процессора в регистр RХ находящийся в SPORT, по шине DMD. Эти данные могут быть аппаратно упакованы, затем автоматически передаются в регистр сдвиговой передачи, биты из которого последовательно сдвигаются так, что они попадают на сигнал DT (синхронно с сигналом SCLK), начиная с младших бит. Приемная секция SPORT принимает данные с DR, синхронно с сигналом SCLK. Когда получено целое слово, данные могут быть автоматически распакованы, затем оно автоматически копируется в регистр RX, находящийся в SPORT, где эти данные доступны для процессора.

Блок схема последовательного порта

Рис.4.2

Каждый SPORT имеет независимые секции приема и передачи (является двунаправленным).

Каждая секция SPORT (и приемная, и передающая) имеет регистр данных для передачи слов данных в процессор, из процессора и регистр для сдвига посылаемых данных, получаемых данных (то есть имеет двойную буферизацию, что обеспечивает дополнительное время для обработки данных процессором).

Каждый SPORT может использовать внешние синхроимпульсы c частотой от 0 Гц до 12.5 МГц или генерировать свои в широком диапазоне частот (до 1/2 частоты процессора).

Каждый SPORT поддерживает длины последовательного слова от 3 до 16 бит.

Каждая секция SPORT (и приемная, и передающая) может работать:

1) как с, так и без сигналов синхронизации кадра для прима/передачи каждого слова;

2) с внутренними или внешними кадровыми сигналами;

3) с активным высоким или активным низким кадровыми сигналами;

4) с нормальным или альтернативным режимом кадровой синхронизации.

Каждый SPORT поддерживает аппаратное сжатие по А-закону или в соответствии с рекомендацией CCITT G.711.

Автобуферизация с одним циклом задержки. С использованием DAG, SPORT может автоматически принять и/или передать целый кольцевой буфер, с затратой лишь одного цикла на переданное/полненное слово данных. Передачи данных между SPORT и кольцевым буфером происходят автоматически в этом режиме и не требуют дополнительного программирования.

Прерывания: каждая секция SPORT (и приемная, и передающая) генерирует прерывание по завершению передачи/приема слова данных или целого буфера данных, если, используется режим автобуферизации.

Многоканальные возможности: SPORTO может получать и передавать данные выборочно по каналам последовательного потока бит, мультиплексированного на 24 или 32 канала. В данном случае мы получаем возможность одновременного обслуживания до 24 или 32 каналов.

Альтернативная конфигурация: SPORT1 может быть сконфигурирован как два внешних запроса на прерывание, IRQ0 и IRQ1, а также как два сигнала Flag In и Flag Out, вместо последовательного порта.

Запись в регистр TX переводит SPORT в состояние готовности к передаче; сигнал TFS инициализирует передачу данных. Как только передача началась, каждое значение, записанное в регистр TX, передается во внутренний регистр передачи сдвигом, и биты данных последовательно посылаются, начиная с самого младшего. Каждый бит посылается по фронту сигнала SCLK. Как только младший бит слова послан, SPORT генерирует прерывание передачи. Регистр ТХ снова доступен для записи данных, хотя передача предыдущего слова только началась. В приемной секции, биты собираются по мере их прихода. Как только полное слово данных принято, SPORT записывает его в регистр RX и генерирует прерывание приема данных.

Управление конфигурацией SPORT осуществляется установкой битов в конфигурационных регистрах. Конфигурационные регистры SPORT0 размещаются по адресам 0x3FF3-3FFA. Каждый SPORТ имеет регистры приема и передачи. Эти регистры недоступны по адресу памяти, зато они имеют ассемблерные мнемоники. Регистры для передачи данных называются TX0 и RX0 для SPORT0. SPORT0 должен быть сконфигурирован под ИКМ-32 с потоком 2048 Мбит/с.

Применение в качестве ОЗУ данных ИС HY584000 фирмы Samsung позволяет обеспечить многократное считывание информации без ее разрушения. Особенностью данной микросхемы является перезапись информации при подаче на вход элемента напряжения низкого уровня. Это более удобно, так как обрыв вывода не создает на входе ИС напряжение активного уровня, что повышает надежность его работы.

Данная ИС позволяет производить чтение - запись информации по одним и тем же выводам, что важно с точки зрения упрощения ИС.

Выход ИС имеет три выходных состояния, т.е. информация подключается к выходным выводам только при выборе ИС.

Приведем временные диаграммы управляющих сигналов, соответствующих процессу чтения из памяти (рис.4.3).

Диаграммы управляющих сигналов чтения из памяти

Рис.4.3

В табл.4.3 приведены некоторые параметры управляющих сигналов чтения из памяти

Таблица 4.3

Параметры сигналов чтения из памяти

t ACC

Задержка выходного сигнала относительно адреса

t

Задержка выходного сигнала относительно

t ОЕ

Задержка выходного сигнала относительно

t DF

Неопределенное состояние выходного сигнала относительно  или  

t OH

Поддержка выходного сигнала в активном состоянии относительно ,  или адреса (относительно первого из них)


Приведем временные диаграммы управляющих сигналов, соответствующих процессу записи в память (рис.4.4).

Диаграммы управляющих сигналов записи в память

Рис.4.4

В табл.4.4 приведены некоторые параметры управляющих сигналов при записи в память

Таблица 4.4

Параметры сигналов записи в памяти

t AS, t OES

Время установления адреса,

t АН

Время удержания адреса

t CS

Время установления Chip Select (выбор кристалла)

t CH

Время удержания Chip Select (выбор кристалла)

t WP

Длина записи ( или )

t DS

Время установления данных

t DH, t OEH

Время удержания данных,


Рассчитаем количество микросхем памяти, необходимых для реализации ОЗУ данных необходимого объема

,

где n - количество микросхем памяти, С - емкость одной микросхемы, Nобщ - общая емкость ОЗУ данных. Т.к. Nобщ =3,5Мбайт, С = 512 кбайт, то получим следующее значение .

Т.о., применив семь ИС 548000, получим требуемый размер памяти для обеспечения необходимого времени записи сообщений.

Роль ОЗУ программ выполняет FLASH память AM29F040, управляющие сигналы которой выставляются аналогично статической ОЗУ, описанной выше. Применение данной микросхемы обуславливается их быстродействием, которое выше чем у ADSP 2181, разрядностью шин адресов и данных и своими функционально - стоимостными характеристиками.

В качестве буферных элементов, позволяющих увеличить нагрузочную способность выходов микропроцессора целесообразно применить КР1533АП6 - восьмиканальный двунаправленный формирователь с тремя состояниями (Аналог - SN74ALS245A) /11/.

Таблица истинности микросхемы КР1533АП6 приведена в табл.4.5, таблица назначения выводов в табл.4.6.

Таблица 4.5

Таблица истинности

OE

T

Операция

H

X

3 - е состояние (Z)

L

H

D1  D2

L

L

D1  D2



Таблица 4.6

Таблица назначения выводов

01

Т

Вход управление информации

02

DA0

Вход/Выход

03

DA1

Вход/Выход

04

DA2

Вход/Выход

05

DA3

Вход/Выход

06

DA4

Вход/Выход

07

DA5

Вход/Выход

08

DA6

Вход/Выход

09

DA7

Вход/Выход

10

OV

Общий вывод

11

DB7

Вход/Выход

12

DB6

Вход/Выход

13

DB5

Вход/Выход

14

DB4

Вход/Выход

15

DB3

Вход/Выход

16

DB2

Вход/Выход

17

DB1

Вход/Выход

18

DB0

Вход/Выход

19

OE

Вход управления третьим состоянием

20

Ucc

Напряжение питания


Микросхема КР1533АП6 представляет собой восьми разрядный двунаправленный приемопередатчик с тремя состояниями на выходе и без инверсии входной информации, применяется в качестве интерфейсной схемы в системах с магистральной организацией обмена информации, в системах цифровой автоматики и микропроцессорных устройствах. Режим работы определяется комбинацией сигналов на двух входах управления - ОЕ и Т. При низком уровне напряжения на входе управления третьим состоянием ОЕ, направление передачи определяется логическим уровнем на входе Т, а при высоком уровне напряжения на входе ОЕ выходы микросхемы переводятся в высокоимпедансное состояние. Для обеспечения работы на относительно низкоомную или большую емкостную нагрузку выходы микросхемы умощнены по сравнению со стандартными. Для уменьшения времени переключения микросхемы в третье состояние и гарантированного запирания выходного транзистора во всем температурном диапазоне применена специальная цепь управления третьим состоянием. Применение во входных каскадах микросхемы КР1533АП6, как и во всей серии КР1533, транзисторов р-п-р типа обеспечивает высокую нагрузочную способность приемопередатчиков (табл.4.7, табл.4.8).

Таблица 4.7

Статические параметры КР1533АП6

Обозначение

Наименование параметра

Норма

Единица измерения



не менее

 не более


UOH

Входное напряжение высокого уровня

2,4 2,0


В

UOL

Входное напряжение низкого уровня


0,5 0,5

В

IOH

Входной ток высокого уровня


20

mкА

IOL

Входной ток низкого уровня


0,1

IO

Выходной ток

30

112


Таблица 4.8

Динамические параметры КР1533АП6

Обозначение

Наименование параметра

Норма

Единица измерения



не менее

 не более


tPLH

Время задержки распространения сигнала при выключении


10

нс

tPHL

Время задержки распространения сигнала при включении


10

нс


Примечания:

1) емкость входа - не более 5пФ;

2) емкость выхода - не более 7пФ;

3) допускается подключение к выходам емкости не более 200пФ, при этом нормы на динамические параметры не регламентируются;

4) допустимое значение статического потенциала - 200В;

5) допускается кратковременное воздействие (в течении не более 5мс) напряжения питания до 7В;

6) максимальное время фронта нарастания и фронта спада входного импульса - не более 1мкс.

В качестве основного элемента узла выработки управляющих сигналов переключения микросхем памяти используем программируемую логическую интегральную схему (ПЛИС, в зарубежной литературе PLD - programmable logic devices) EPM7064SLS44 - 10 /12, 13/. Применение ПЛИС позволяет уменьшить габариты устройства. Данная ПЛИС имеет оптимальное соотношение цена/качество и ее характеристики являются приемлемыми для применения в проектируемом устройстве. ПЛИС других фирм - производителей уступают данной микросхеме по своим характеристикам. Отечественные базовые матричные кристаллы имеют типовую задержку на вентиль 1нс, в то время как в ПЛИС EPM7064SLS44 - 10 задержка распространения от входа к выходу составляет 5мс.

Эта ПЛИС является представителем семейства MAX7000S. Семейство MAX7000S состоит из семи микросхем со степенью интеграции от 1200 до 10000 эквивалентных вентилей, содержащих от 32 до 256 триггеров (табл.4.9).

Таблица 4.9

Характеристики ПЛИС EPM7064SLS44 - 10

Характеристика ПЛИС

Тип микросхемы

EPM7064S

Количество вентилей

1250

Количество триггеров (макроячеек)

64

Максимальное число входов/выходов

68

Максимальная частота, МГц

178

Тип корпуса

PLCC, PQFP

Задержка распространения, нс

5

Температурный диапазон,0С

 - 40  +85


ПЛИС семейства MAX7000S изготавливаются по технологии КМОП с электрическим стиранием (EEPROM), обеспечивающей не менее 100 циклов программирования/стирания микросхем. Они имеют гибкую архитектуру. Их макроячейки содержат по две независимых линии обратной связи - с триггера и контакта. Это позволяет одновременно использовать триггер в качестве внутреннего регистра, а контакт - как входной порт. Дополнительными ресурсами ПЛИС являются термы расширения (expander terms) - конъюнкторы, инверсные выходы которых образуют обратные связи в матрицу элементов “И”. Эти термы позволяют формировать управляющие сигналы (например, CLK, SET, RESET) без затрат макроячеек. В результате возможности перераспределения термов между макроячейками число входов элементов “ИЛИ” может быть увеличено до 32.

Каждая макроячейка имеет индивидуальный турбо - бит, программирование которого позволяет уменьшить потребляемую мощность при некотором снижении быстродействия.

Ток потребления Icc ПЛИС семейства MAX7000S зависит главным образом от рабочей частоты и может быть рассчитан по формуле:

Icc=A*Mcon+B*Mcoff+C*MC*Fmax,

где Mcon - число макроячеек, работающих в режиме повышенного потребления;

Mcoff - число макроячеек, работающих в режиме пониженного потребления;

MC - общее число задействованных в микросхеме макроячеек;

Fmax - максимальная тактовая частота в схеме;

А, В, С, - условные коэффициенты, зависящие от типа ПЛИС.

Микросхемы семейства MAX7000S имеют возможность программирования непосредственно на плате (ISP - In System Programmable) через специальное устройство ByteBlaster, подключаемое к параллельному порту компьютера. Такая технология позволяет выполнять программирование и стирание схемы непосредственно на рабочей плате через 4 - разрядный интерфейс в стандарте JTAG, подключенный к порту компьютера. Они могут быть запрограммированы и на программаторе. Наличие программатора становится необязательным, что значительно упрощает и удешевляет применение этих ПЛИС.

В разрабатываемом устройстве модуля сжатия речевых сигналов необходимо предусмотреть устройство, позволяющее контролировать напряжение питания, а при его отключении (или включении) вырабатывать сигналы, управляющие работой микропроцессора.

DS1232 - следит за изменением напряжения питания и при выходе его за допустимые пределы сигнализирует об этом процессорную систему. Когда VCC опустится до уровня, определяемого TOL (Pin3), VCC - компаратор изменяет сигналы RST (Pin5) и  (Pin6). Когда TOL соединен с корпусом, то сигналы RST и активируются когда VCC упадет ниже 4,75В. Когда TOL соединен с VCC, то сигналы RST и активируются когда VCC упадет ниже 4,5В. RST и  - являются сигналами управления микропроцессором, которые могут остановить его работу в зависимости от уровня VCC. При включении питания RST и  поддерживаются активными, как минимум 250 mс, что является сигналом разрешения работы микропроцессора.

Есть возможность изменения времени поддержания RST и  в активном состоянии. Это время устанавливается входом TD. Если TD соединен с корпусом, то это время составляет 150 мс. Если TD неподсоединен, то время - 600 мс. При соединении TD с VCC - 1,2 с. Если на входе ST произойдет переход от высокого уровня к низкому, то это приведет к перезапуску таймера и он начнет считать заново. Вход ST управляется сигналом микропроцессора (адресным сигналом, сигналом данных и/или сигналом управления). Когда микропроцессор функционирует нормально, то эти сигналы могут быть причиной перезапуска таймера.

Разработанная в данном разделе схема принципиальная электрическая приведена в приложении 1 и на плакате ЦТРК 2014.095649. Э3-00.

5. Разработка алгоритма программы


Согласно выбранным структурным схемам кодера и декодера модуля сжатия речи, а также основным этапам вычисления коэффициентов предсказания для синтезирующего фильтра, определении параметров речи (вокализованный / невокализованный), вычислении периода основного тона, коэффициента усиления разработаем алгоритм построения программы для модуля сжатия речи.

Данный алгоритм должен включать в себя следующие блоки:

1) блок предобработки;

2) блок вычисления коэффициента усиления на анализируемом сегменте;

3) подпрограмма вычисления корреляционной функции;

4) подпрограмма определения коэффициентов синтезирующего фильтра с использованием алгоритма Левинсона - Дарбина;

5) блок вычисления периода основного тона на анализируемом сегменте;

6) блок имитации линии передачи и записи полученных параметров модели в массив;

7) блок синтеза речи.

На рис.5.1 представлен алгоритм программы осуществляющей сжатие речи, запись результатов вычисления в массив и последующее восстановление речи по сохраненным результатам.

Контроль работы программы можно производить, подав на вход EZ-KIT речевой сигнал и снимая его с выхода платы, предварительно запрограммированной /14, 15, 16/. При этом, сравнивая входной сигнал с выходным можно сделать вывод о работоспособности программы и всего устройства в целом. Подробнее это описано в разделе об экспериментальном исследовании.

Алгоритм программы сжатия речевых сигналов

Рис.5.1

Примем условные обозначения переменных, используемых в дальнейшем:

k - номер записи;

N - общее количество сообщений;

А - размер записанного сообщения;

амах - максимальное количество разрядов в ИС памяти;

а1 - адрес начала сообщения;

а2 - адрес конца сообщения.

Пример размещения записи адресов данных сообщения в таблице приведен на рис.5.2 Запись состоит из номера сообщения, адреса начала сообщения, адреса конца сообщения и разряда заполнения ИС памяти.

Запись адресов сообщений в таблице

Рис.5.2

Данное устройство должно обеспечивать сервисные функции: запись сообщения, воспроизведение сообщения, стирание всех (или одного) сообщения. При стирании одного сообщения должна производится дефрагментация памяти (рис.5.3), т.е. переписывание информации на освободившееся место в ОЗУ данных. Эта операция производится после каждой команды стирания. Необходимо перебрать все последующие сообщения и переписать их поочередно “вниз" одно за другим.

Алгоритм программы дефрагментации ОЗУ данных

Рис.5.3

6. Экспериментальные исследования


6.1 Методика проведения эксперимента


Для проведения эксперимента использовалась плата EZKIT Lite с процессором серии ADSP 2181 фирма Analog Devices /12/. Эта плата позволяет использовать процессор ADSP 2181 для цифровой обработки аудио-сигналов без дополнительных аппаратных средств.

Для загрузки программ в сигнальный процессор, служит HOST-компьютер, совместимый с IBM PC, соединенный с EZ-KIT по последовательному порту. Начальная загрузка процессора производится из ПЗУ, в которое зашита программа монитор, через BDMA порт. После загрузки монитора во внутреннее ОЗУ процессора, он запускается, инициализируя кодек и осуществляя обмен с компьютером.

Эксперимент производился на отладочной плате EZ-KIT. Загрузка программы производилась по SPORT1, через интерфейс RS232 с компьютера IBM - Pentium. В эксперименте использовалась звуковая карта Creative AWE64. Тестовый сигнал, смоделированный в Cool Edit Pro, подавался с линейного выхода AWE64 на линейный вход EZ-KIT. Сигнал снимался с линейного выхода EZ-KIT и подавался на линейный вход AWE64 (AWE64 позволяет одновременно воспроизводить сигналы и записывать) и записывался в Cool Edit Pro (Windows 95 позволяет одновременно работать с несколькими приложениями в мультизадачном режиме).

В рамках данного проекта были сняты экспериментальные характеристики методов сжатия речи. Схема эксперимента приведена на рис.6.1 Результаты эксперимента приведены на рис.6.2.

Схема эксперимента

Рис.6.1

6.2 Результаты эксперимента

Рис.6.2

На рис.6.2 и 6.3 представлены временные диаграммы исследуемых процессов.

Рис.6.3

Спектральные диаграммы входного воздействия (синусоидальный сигнал) (рис.6.4) и сигнала на выходе модуля сжатия речи (рис.6.5).

Рис.6.4

Рис.6.5

Рис.6.6

Спектральные диаграммы входного воздействия (треугольные импульсы) (рис.6.6) и сигнала на выходе модуля сжатия речи (рис.6.7).

Рис.6.7

Рис.6.8

Спектральные диаграммы входного воздействия (пилообразный сигнал) (рис.6.8) и сигнала на выходе модуля сжатия речи (рис.6.9).

Рис.6.9

Рис.6.10

Спектральные диаграммы входного воздействия (прямоугольные импульсы) (рис.6.10) и сигнала на выходе модуля сжатия речи (рис.6.11).

Рис.6.11

Рис.6.12

Спектральные диаграммы входного воздействия (шум) (рис.6.12) и сигнала на выходе модуля сжатия речи (рис.6.13).

Рис.6.13

Для приведенных на рис.6.2 и 6.3 графиков рассчитаем среднеквадратическое отклонение выходной кривой от входной и модуль отклонения по формулам

, .

Для рис.6.2 (синусоидальное воздействие) получим , . Для рис.6.3 (треугольные импульсы) получим , . В расчете N=44, т.к. период составляют 44 отсчета сигнала (частота дискретизации Fд=44100 Гц, частота всех тестовых сигналов, приведенных в экспериментальном исследовании составляет f=1000 Гц).

В данной работе также представлены спектральные диаграммы следующих сигналов: пилообразные, прямоугольные импульсы, шум. По ним можно судить об изменении спектрального состава сигнала при прохождении через модуль сжатия речи. На всех спектральных диаграммах выходных сигналов можно видеть значительное обогащение спектра выходного сигнала по сравнению со спектром входного. Особенно это заметно на сигналах с короткими фронтами и спадами (пилообразные и прямоугольные импульсы), их длительность равна одному отсчету сигнала, а при частоте дискретизации Fд=44100 Гц, она составляет 22,68мкс. Такие значения фронтов и спадов не свойственны речевому сигналу, поэтому выходные временные диаграммы таких сигналов сильно искажены.

В ходе эксперимента были проведены субъективные оценки качества РС /17/. Оценка качества РС включает в себя разборчивость и узнаваемость речи. Под разборчивостью РС понимается адекватное произнесенному восприятие слов. Узнаваемость РС означает способность слушателя определить по голосу принадлежность слов тому или иному диктору. При проведении эксперимента была собрана группа экспертов из неподготовленных слушателей. Диктором поочередно зачитывались несвязанные между собой слова, а эксперты их записывали. Для полноты эксперимента в роли дикторов выступали мужчины и женщины (т.к. известно, что значение периода основного тона в мужском и женском голосе отличаются, то необходимо исследовать качество РС при данных условиях), голос которых знаком экспертам. При обработке эксперимента подсчитывались совпадения в процентном соотношении от общего числа произносимых диктором слов. Было отмечено, что при ухудшении качества передачи РС узнаваемость РС уменьшается быстрее чем его разборчивость.

Результаты эксперимента приведены в пятибалльной системе в табл.6.1.

Таблица 6.1

Субъективные оценки качества РС

Метод кодирования

Субъективные оценки качества РС, баллы


Мужской голос

Женский голос

Среднее значение

АДИКМ (16 кбит/с)

4,7

4,5

4,6

ЛПК (7,8 кбит/с)

4,3

4,2

4,25


Проанализировав результаты эксперимента, сделаны следующие выводы:

Для получения хорошего качества РС, прошедшего через модуль сжатия речи, важно сохранение амплитудного спектра, т.е. соотношения между спектральными составляющими. Т.к. к фазовым искажениям слух не чувствителен, то вследствие наличия фазовых искажений в восстановленном РС временные характеристики могут сильно отличаться от исходных, хотя на слух это отличие не заметно. Т.о. образом, исследование временных характеристик не имеет существенного смысла.

При рассмотрении методов объективных оценок выяснилась их непригодность для определения качества передачи РС, т.к. они позволяют оценить степень сходства РС на выходе модуля сжатия с оригиналом, а для качественного восприятия РС это не обязательно. Также нет достаточно качественных методов для объективного определения качества сигналов, подвергшихся сжатию разными методами /1, 13/.

Для определения качества РС целесообразнее использовать субъективное восприятие по методу экспертных оценок.

Спектральные и временные диаграммы при проведении эксперимента были получены с помощью программы Cool Edit Pro. Расчеты были произведены в Mathcad 5+.

7. Разработка конструкции модуля сжатия речевых сигналов


Так как данное устройство планируется использовать в качестве модуля в общей структуре цифровой АТС, то необходимо придерживаться единого стандарта коммутации устройства с другими элементами в единой системе.

Для размещения модуля сжатия речевых сигналов в системе АТС необходимо задаться размерами печатной платы, которые составляют 100х120мм. Причем со стороны 100мм должны быть предусмотрены по одному 50-и контактному разъему IDC - 50xx.

Для подключения данного устройства к остальным элементам цифровой АТС используются 50-и контактный разъем IDC - 50хх. Хотя для подключения используются не все выводы этого разъема применение его обуславливается следующими причинами:

1) данный разъем широко распространен и является стандартным;

2) т.к. размеры разъема сопоставимы с размерами печатной платы модуля, его применение позволит отказаться от применения дополнительных устройств крепежа;

3) устройство получается модульным и легко разборным, что является важной характеристикой системы.

Так как в данном случае размеры печатной платы являются строго оговоренными, а требуется разместить достаточно большое число многовыводных элементов, то, очевидно, что придется применить многослойную разводку печатных проводников /18, 19/.

Малая потребляемая мощность и низкое напряжение питания модуля сжатия речи позволяет не производить дополнительного утолщения дорожек питания. В данной схеме отсутствуют элементы, рассеивающие большую мощность, следовательно, нет необходимости применять дополнительные средства охлаждения элементов, поэтому конструкция получится не загроможденной и миниатюрной.

При выборе элементной базы следует придерживаться стремления к миниатюризации конструкции. Поэтому в модуле сжатия речи применены бескорпусные резисторы и конденсаторы (кроме электролитических), элементы на плате размещены с двух сторон.

Трассировку печатной платы целесообразно производить в среде профессиональных пакетов PCAD и PROTEL.

Монтаж элементов печатной платы посредством пайки. Припой ПОС 61 ГОСТ 1429.6-77.

Маркировка элементов, соответствующая позиционным обозначениям схемы электрической принципиальной ЦТРК 2014.095649. Э3-00.

Плата с установленными радиоэлементами нуждается в обязательной влагозащите специальными лаками. Рекомендуются лаки УР - 231 и ЭП - 730, которые наносятся в три слоя с обязательной просушкой.

Таким образом, на основании схемы электрической принципиальной, заданных типоразмеров элементов и ограничений, была разработана печатная плата и сборочный чертеж платы печатной устройства.

Разработанный в данном разделе сборочный чертеж приведен в приложении 2 и на плакате ЦТРК 2014.095649. СБ-00.

Заключение


В данной дипломной работе были рассмотрены вопросы избыточности речи, описаны различные методы сжатия речи с их достоинствами и недостатками, представлен общий подход к кодированию речевого сигнала.

В результате анализа технического задания был выбран метод сжатия речи и определены основные функциональные блоки алгоритма программы, загружаемой по последовательному порту (COM2) в цифровой сигнальный процессор ADSP 2181. Представлена также архитектура и основные характеристики сигнального процессора. Были разработаны структурная и принципиальная схемы модуля сжатия речевых сигналов.

В разделе экспериментальных исследований приведены методики проведения эксперимента и результаты эксперимента. Экспериментальные исследования модуля сжатия речи на основе линейного предикативного кодирования показали непригодность методов объективных оценок для оценки качества передачи РС, т.к. они позволяют оценить степень сходства РС на выходе модуля сжатия с оригиналом, а для качественного восприятия РС это не обязательно. Для определения качества РС целесообразно использовать субъективное восприятие по методу экспертных оценок.

Возможность дополнительного сокращения скорости передачи речевого сигнала за счет дополнительного кодирования параметров речевого сигнала (коэффициентов предсказания, коэффициента усиления, периода основного тона) дает предпосылки для создания баз данных с различными параметрами предсказания речевого сигнала, записанных в таблицы, известные на приемной и передающей стороне. Т.о., проанализировав сегмент речи и найдя параметры речевого сигнала, необходимо перебрать таблицу данных и найти в ней коэффициенты, соответствующие вычисленным. Тогда результатом работы МСР будут являться адреса, найденных в таблице коэффициентов. Такой способ передачи параметров позволит сократить скорость передачи еще в несколько раз. Поставленные предложения не были внедрены в данном проектировании как выходящие за его рамки (в большей степени, временные), поэтому решение этих задач позволит расширить области применения данного устройства.

Уменьшение скорости передачи речевого сигнала (РС) с 64кбит/с до 7,8кбит/с, при сохранении достаточно хорошего качества восприятия речи, позволяет увеличить время, отводимое для записи сообщений в системе “голосовой почты" в цифровой АТС. Применение данного устройства позволит без значительных технических затрат увеличить время записи сообщений примерно в восемь раз по сравнению с аналогом, в котором сигнал записывается без предварительного сжатия.

Список использованных источников


1.       Ситняковский И.В., Мейкшан В.И., Маглицкий Б.Н. Цифровая сельская связь/ Под ред. М.Д. Венедиктова. - М.: Радио и связь, 1994. - 248с.; ил.

2.       Рекомендации МККТТ G726.

.        Рекомендации МККТТ G728.

.        Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. /Под ред. М.В. Назарова и Ю.Н. Прохорова. - М.: Радио и связь, 1981. - 496с.; ил.

.        Маркел Дж., Грей А.Х. Линейное предсказание речи: Пер. с англ. /Под ред. Ю.Н. Прохорова и В.С. Звездина. - М.: Связь, 1980. - 308 с.; ил.

.        Гольденберг Л.М., Матюшкин Б.Д., Поляк М.Н. Цифровая обработка сигналов: - М: Радио и связь, 1990 г.256 с.

.        Рабинер Л.Р., Голд Б. Теория и применение цифровой обработки сигналов. - М: Радио и Связь, 1978 г. - 462с.

.        Марков С. Цифровые сигнальные процессоры. Книга 1. - М: МИКРОАРТ, 1996 г. - 144с.

.        Digital Signal Processing Applications Using The ADSP-2100 Family. Volume 1,2. Analog Devices, Inc., New Paperback (06/1992) - 591 page.

.        Горбачев А., Кадырматов А. Цифровые процессоры обработки сигналов ф. ANALOG DEVICES // Радиолюбитель. 1996, №12, с38 - 39.

.        Шипулин С., Храпов В. Фирма ALTERA расширяет возможности ПЛИС // Радиолюбитель 1996, №6, с 37 - 39.

.        Шипулин С., Храпов В. Новые семейства микросхем программируемой логики фирмы ALTERA // Радиолюбитель 1996, №9, с 43 - 44.

.        ADSP2100 Family User’s Manual. Analog Devices, Inc. 1995.

.        ADSP2100 Family Assembler Tools & Simulator Manual. Analog Devices, Inc. 1995.

.        ADSP2100 Family EZKIT Lite Reference Manual. Analog Devices, Inc. 1995.

.        Сапожков М.А. Речевой сигнал в кибернетике и связи. - М.: Связьиздат. 1963. - 451с.

.        Усатенко С.Т. и др. Графическое изображение электрорадиосхем: Справочник/С.Т. Усатенко, Т.К. Каченюк, М.В. Терехова. - К.: Техника, 1986. - 120с., ил.

.        Чертежи изделий с электромонтажом: Методические указания по выполнению чертежей изделий с электромонтажом, печатных плат, печатных узлов и топологий / Таганрог. ТРТУ: Сост.е.Е. Бублей, В.П. Вареца, В.М. Основин, А.А. Сущенко. Таганрог, 1994.16с. +7вклеек.

.        Бакаева Т.Н. Безопасность жизнедеятельности. Методическая разработка. - Таганрог: ТРТУ, 1995, 18 с.

.        Брусницын Ю.В. Экономическое обоснование инженерных разработок. Методические указания по выполнению дипломных проектов - Таганрог: ТРТУ, 1993, 43 с.

.        Функционально-стоимостный анализ в дипломном проектировании: Метод. Указания по курсу “Организация производственной деятельности”/ Таганрог. Радиотех. Ин-т; Сост. М.В. Новиков. Таганрог, 1993.16 с+1 вкл.

.        Справочно-методическое пособие по дипломному проектированию. Сост.В.А. Алехин, А.П. Дятлов, В.В. Шеболков. Таганрог: Изд - во ТРТУ, 1997.56с.

Похожие работы на - Модуль сжатия речевых сигналов цифровой АТС

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!