Оцінювання якості алгоритмів корекції мовленнєвих сигналів
Національний
технічний університет України «Київський політехнічний інститут»
Оцінювання
якості алгоритмів корекції мовленнєвих сигналів
Продеус А.М.
, Київ, вул. Політехнічна 16,
тел. (044) 454 90 72mail: aprodeus@gmail.com
В наш час, із поширенням мобільних
комунікаційних пристроїв, актуальною є проблема підвищення стійкості систем
автоматичного розпізнавання мовлення (САРМ) до дії завад шляхом використання
препроцесорів корекції мовленнєвого сигналу (рис. 1).
Рис. 1 - Препроцесор корекції
мовленнєвого сигналу у складі САРМ
Метою даної роботи є, по-перше,
порівняння якості п’яти алгоритмів компенсації шумової завади, а по-друге,
оцінювання потенційних можливостей дев’яти показників якості, що застосовуються
при такому порівнянні.
Розглянуто алгоритми
спектрального віднімання, MMSE, logMMSE
[1], Wiener-TSNR, Wiener-HRNR
[2]. Всі ці алгоритми належать до групи так званих алгоритмів «частотної
корекції», згідно яких корекція спотвореного сигналу здійснюється
за співвідношенням
де та - спектри
потужності сигналу та
відновленого сигналу , - частотна
характеристика фільтра, що коригує. В якості фази відновленого сигналу приймається
фаза сигналу .
Оскільки коректор входить до складу
САРМ, для оцінювання його якості доцільно використовувати показник «точність
розпізнавання слів» [3]:
,
де - загальна
кількість слів, що їх розпізнають; - кількість помилкових видалень
слів; - кількість
замінених слів; - кількість
помилково вставлених слів. Недоліком показника Асс% є
необхідність моделювання САРМ, що є досить складним завданням.
Для усунення цього недоліку,
доцільно дослідити можливості «проміжних» показників (рис. 1). Серед таких в
даній роботі розглянуто: сегментне відношення сигнал-шум SSNR,
логарифмічно-спектральне спотворення LSD,
логарифмічне відношення правдоподібності LLR,
дистанція зважених спектральних схилів WSS,
дистанція Ітакури-Саіто, кепстральна дистанція, композитний показник ,
перцептуальні оцінки якості мовлення BSD та PESQ
[4].
Як і очікувалося, наскрізний
показник Acc% вичерпно характеризує якість алгоритмів корекції мовленнєвих
сигналів у складі САРМ (рис. 2).
Рис. 2 - Залежність Асс% від
вхідного відношення сигнал-шум
Серед «проміжних» показників,
що досліджувалися, лише два - LRR та SCI -
непогано узгоджуються із показником Асс% (рис. 3), констатуючи низьку якість
алгоритмів Wiener-TSNR та Wiener-HRNR.
А
Рис. 3 - Залежність LLR (а)
та SCI (б)
від вхідного відношення сигнал-шум
Але, як бачимо, суттєвим
недоліком показників LRR та SCI є
те, що одержані за їх допомогою оцінки носять якісний характер. Крім того,
показники LRR та SCI, на
відміну від Acc%,
не спроможні відобразити досить суттєву різницю в ефективності алгоритмів
спектрального віднімання, MMSE та logMMSE.
В подальшому є доцільним
дослідити причину несподівано низької ефективності алгоритмів Wiener-TSNR та Wiener-HRNR.
алгоритм якість
мовленнєвий сигнал
Література
1. Springer
Handbook
of Speech
Processing / Ed.
J. Benesty,
M. Sondhi,
Y. Huang
- Berlin Heidelberg:
Springer-Verlag,
2008. - 1176
p.
2. Plapous
C., Improved
Signal-to-Noise
Ratio Estimation
for Speech
Enhancement
/ C. Plapous,
C. Marro,
P. Scalart
// IEEE Transactions
on Audio,
Speech, and
Language
Processing, Vol.
14, Issue
6, Nov. 2006. -
P.2098-2108.
. The HTK Book / Ed.
S.
Young, G. Evermann, M. Gales. - Cambridge: University Engineering Department,
2009. - 375 p.
. Hu, Y. and Loizou, P.
Evaluation of objective quality measures for speech enhancement / Y. Hu, P.
Loizou // IEEE Transactions on Speech and Audio Processing, 16(1), 2008. -
P. 229-238.