Программное средство идентификации личности по голосу

Вид работы:

Дипломная (ВКР)
Предмет:

Информационное обеспечение, программирование
Язык:

Русский
,
Формат файла:
MS Word

7,92 Мб
Опубликовано:

2016-06-17

Все дипломные работы по информационному обеспечению

Скачать дипломную работу Читать текст online Заказать дипломную
*Помощь в написании! Посмотреть все дипломные работы

Вы можете узнать стоимость помощи в написании студенческой работы.

Программное средство идентификации личности по голосу

Введение

В современном мире огромное внимание уделяется информационным технологиям. Тысячи программистов работают над тем, чтобы предотвратить запрещенный доступ в здания, к компьютерам, мобильным телефонам и многому другому, что является неотъемлемой частью нашей жизни. С каждым годом сделать это все сложнее и сложнее. Все чаще обычные пароли, PIN-коды, смарт-карты и другие подобные идентификаторы не в силах остановить злоумышленника. Но все большее значение начинает приобретать идентификация личности по биометрическим параметрам. Это такие физиологические и поведенческие характеристики человека, которые делают его уникальным. Биометрические свойства человека:

отпечатки пальцев;

- геометрия лица;

радужная оболочка глаза;

голос;

почерк и др.

К плюсам биометрической идентификации можно отнести то, что в отличии от обычных методов защиты, данный метод исключает потерю идентификатора и , соответственно, кражу информации.

Актуальность. На сегодняшний день все больше учащаются случаи запрещенного доступа в сфере информационной безопасности. Злоумышленники легко взламывают пароли, проникают в здания с ограниченным доступом, преодолевая различные системы защиты. На смену обычным паролям приходят биометрические методы идентификации. Большинство из них являются более надежными, но далеко не все находят себе место в наши дни. Один из самых популярных методов - идентификация по опечаткам пальцев. Другие методы требуют большего развития, чтобы их стали чаще внедрять в повседневную жизнь. Так же стоит отметить, что даже большие структуры хотят внедрять систему идентификации по голосу. Сбербанк в ближайшие годы планирует "вписать" систему идентификации по голосу и внешности. Как уверяют специалисты, их система будет работать правильно на 99,9%. Считается, что такая система будет более удобная, чем карточная. На основе вышесказанного нет сомнений, что разработка нового программного средства идентификации личности по голосу является весьма актуальной.

Целью выпускной квалифицированной работы является написание программного средства идентификации личности по голосу.

идентификация личность голос программный

1. Постановка задачи

На компьютере каждого человека, как правило, находится большое количество информации. Часть этой информации не должна быть известна определенному кругу лиц. Для доступа к ней должны использоваться определенные методы идентификации, которые практически невозможно преодолеть.

Основные решаемы задачи:

Изучение теоретических основ биометрической идентификации по голосу;

Анализ существующих методов реализации программного средства идентификации личности по голосу;

Разработка программного средства идентификации личности по голосу;

Расчет экономической себестоимости программного средства;

Анализ вредных факторов при разработке программного средства и расчет напряженности труда.

2. Аналитическая часть

Для того, чтобы приступить к описанию разработанного программного средства, необходимо вначале изучить теоретические основы биометрической идентификации и конкретно идентификации личности по голосу.

Биометрия - это, простым языком, физиологические или анатомические "характеристики" человека. Если, к примеру, обычную паролевую систему можно взломать методом подбора пароля или просто украсть его, то взломать биометрическую систему крайне сложно, практически не возможно. В настоящее время существуют такие биометрические параметры человека, как отпечатки пальцев, голос, радужная оболочка глаз, почерк, определенная манера работы на клавиатуре и другие. Все эти данные о человеке записываются в базу данных при регистрации, а затем, при идентификации, вновь полученные данные сравниваются с этими регистрационными характеристиками.

Задачей биометрической идентификации является создание системы, которая работала бы с минимальным количеством отказов в доступу пользователям, а так же на 100 % исключала несанкционированный вход злоумышленника в компьютер или какое-либо помещение ограниченного доступа. У каждого человека есть свои уникальные биометрические данные, которые являются его отличительными характеристиками. Эти характеристики нужны для того, чтобы "извлечь " их из человека, записать в базу данных, и затем при идентификации сравнить особенности характеристик идентифицируемого человека, с данными из базы системы.

Но все ли так хорошо в таких системах? Большое количество людей видят тока плюсы в биометрической идентификации, но есть и противники данных систем. Эти люди считают, что при распространении и развитии биометрических устройств каждый гражданин будет под определенным контролем, что является нарушением гражданских свобод. Обычному человеку будет недоступна информация о том, куда может уйти информация о его уникальных параметрах. А ведь эти "характеристики" могут быть использованы и против самого человека, что может привести к нарушению прав на конфиденциальность .

.1 Факторы, влияющие на уникальность речи

Человеческую речь можно квалифицировать на несколько видов [1]:

нормативная;

патологическая;

преднамеренно измененная;

эмоционально насыщенная и др..

Первый фактор, который влияет на уникальность речи - тип дыхания. Его можно разделить на:

ключичный;

грудной (диафрагменный);

Так сюда можно отнести неодинаковый объем легких у различных людей. Диапазон объема может варьироваться от 6000 см3 у взрослых людей с натренированным дыханием до 1000 см3 у маленьких детей. При достаточно глубоком диафрагменном дыхании может получиться так, что время выдоха во время разговора будет значительно продолжительнее времени вдоха. При спокойном дыхании эта разница значительно менее выражена. В таком случае продолжительность выдоха может достигнуть 6-8 секунд, вместо 1,5-2 секунд при спокойном дыхании. Сама же речь не прерывается частыми вдохами и является непринужденной .

Противоположная ситуация - это когда речь человека является тяжелой и принужденной. Это случаи, когда физические показатели человека ограниченны; когда он сильно устал или находится в нервном состоянии. Так же у говорящего могут быть хронические болезни: астма, эмфизема легких и другие. Эти факторы значительно влияют на ритм и темп речи и являются уникальными признаками.

На речь так же влияет наличие высокого подсвязочного давления. Именно от этого уровня зависит качество генерируемого голоса. Уже на выходе из гортани голос несет в себе определенную высоту, силу и тембр.

Ниже будет представлена таблица, в которой наглядно видны отличия между мужским и женскими голосами (табл. 2.1) [2].

Таблица 2.1. Различие мужского и женского голосов

Голоса	Основные тембральные окраски голосов / градации частоты основного тона	Пределы изменения частоты основного тона в процессе пения, Гц	Общий предел изменения частоты основного тона в процессе разговорной речи, Гц	Длинна голосовых связок, мм
Мужские	Бас/Низкий Баритон/Средний Тенор/Высокий	80-350 100-400 130 510	90-120	24-25 22-24 18-24
Женские	Контральто/Низкий Меццо-сопрано/Средний Сопрано/Высокий	170-680 220-880 260-1020	160-340	18-21 18-19 14-17

Так же существуют и другие факторы, которые влияют на уникальность речи отдельных людей:

манера интонирования (например, иноязычное влияние);

спектр голосовых импульсов ( зависит от их формы, периода ТО, скважности);

интенсивность звука (меняется в довольно широких пределах);

фильтрация голосовых импульсов ротовой и носовой полостями.

.2 Система распознавания личности

Работа систем распознавания состоит из двух этапов:

регистрация нового пользователя;

идентификация зарегистрированного пользователя (процесс распознавания).

Каждый пользователь проходит регистрацию в системе, записав образец своего голос. Далее из образца извлекаются признаки, благодаря которым и происходит распознавание. На основе этих признаков строятся "шаблоны" пользователей. Такой "шаблон" является структурой, которая при данных признаках устанавливает степень подобия. Признаки только что записанного голоса сравниваются с признаками голоса из базы данных, после чего происходит идентификация или отказ в доступе.

Подытожив, можно выделить три основных этапа в системе распознавания личности :

Этап обработки сигналов. Здесь происходит обработка самого сигнала с целью выделить признаки, необходимые для распознавания. Речевой сигнал представлен в виде определенной последовательности векторов признаков;

Этап моделей. На данном этапе идет построение модели, так называемого шаблона, с помощью которого и высчитывается степень подобия между имеющейся моделью и признаками;

Этап принятия решений. С помощью вычисленной степени подобия и заданных порогов принимается решение.

.3 Образец и его предобработка

.3.1 Обрабатываемый образец

Обрабатываемым образцом, при идентификации личности по голосу, является записанный речевой сигнал. При кодировании аналоговый сигнал представляется последовательностью мгновенных измерений значений амплитуд. Для того, чтобы записать и обработать речевой сигнал, берут частоту дискретизации, которая равняется 8 или 16 кГц.

Чтобы избежать некачественное распознавание, следует избегать ряд определенных факторов, таких как:

плохая акустика в помещении;

разное расстояние от произносящего до микрофона;

несовпадение канала и др.

Например, если распознавать голос, который передается по телефону, то нельзя быть уверенным в том, что при регистрации и идентификации использовался один и тот же микрофон, а так же канал передачи. Так же следует учитывать влияние каких-либо посторонних помех.

Для того, чтобы запись была более качественной, необходимо, чтобы канал представлял собой микрофон, кабель и аналого-цифровой преобразователь.

.3.2 Предварительная обработка

Суть предварительной обработки - обработка фильтром определенных частот, а так же удаление участков, которые не содержат речевой сигнал [3].

Чтобы на практике определить крайние точки первого слова, необходимо проделать определенные этапы предобработки.

. Допустим, что в интервале 300мс от начала записи микрофона имеются только посторонние шумы и помехи. Разделим весь входной сигнал на 256 сегментов. Речь можно представить как:

где S - последовательность отчетов входного сигнала, t = 0,1...255.

Для первых 10 первых сегментов используем быстрое преобразование Фурье (БПФ):

где i = 0,1,...,255, а p = 0,1,...,9.

Далее идет подсчет арифметического среднего значения:

где i = 0,1,...,127 (так как наблюдается симметрия).

Среднее квадратичное отклонение считается по формуле:

Расчет порога шумов:

где , =2,33.

В итоге получим 128 значений порогов шума. Далее идет проверка каждого сегмента. Если в отдельном сегменте превышено 15 порогов, то можно с уверенностью говорить, что здесь находится начало слова. Но точность нахождения сегмента с началом слова равняется порядка 23 секунд. Чтобы определить более точное расположение начала слова, нужно разбить его на 8 отрезков, в каждом из которых будет находиться 32 отсчета. Получается, что каждый отрезок будет равен 3 мс. Все количество начальных расчетов шума следует разделить на 80 блоков, с целью вычисления модуля средней амплитуды шума:

где , =2,33.

Финальным этапом является сравнение среднего значения модуля каждого блока в сегменте, где находится слово с порогом . Если двух подряд идущих блоков выше порога , то делаем вывод, что в этом блоке находится начало слова, которое произнес пользователь при регистрации.

Ниже будут представлены блок-схемы алгоритма определения начала слова (рисунок 2.1) и алгоритма уточнения данного интервала (рисунок 2.2).

Рисунок 2.1 Блок-схема алгоритма определения начала слова

Рисунок 2.2 Блок-схема алгоритма уточнения определения начала слова

.4 Извлечение признаков

Целью обработки сигнала в подобных приложениях является выделение в речевом сигнале информации, которая релевантная для распознавания по голосу. Такая информация представляет индивидуальные особенности голоса каждого человека, или признаки. Эти признаки выделяются с целью формирования шаблона или для того, чтобы сравнить их с уже зарегистрированными шаблонами. Изначально более подходящие признаки для распознавания определить невозможно. Для этого нужна экспериментальная оценка с предварительным перебором всех возможных признаков.

Можно разбить признаки на два вида:

низкоуровневые (анатомическое строение речевого аппарата);

высокоуровневые (манера произношения).

Чтобы обработать речевой сигнал, нужно использовать кратковременный анализ. Сам сигнал следует разбить на временные окна определенного размера. Предполагается, что в этих окнах не меняются параметры сигнала. Работая с речевым сигналом, размер такого окна должен составлять 10-30 мс. Для наибольшей точности между окнами следует делать перекрытия, которые равны половине длины окна. Чтобы извлечь признаки из каждого окна, к ним применяются специальные алгоритмы. Ниже будут рассмотрены два основных метода извлечения признаков из речевого сигнала.

.4.1 Мел-частотные кепстральные коэффициенты

Мел

В переводе с др.греческого "мэлос" - это звук. На практике мел - это психофизическая единица высоты звука, в основании которой лежит восприятие этого звука человечискими слуховыми анализаторами.

Амплитудно-частотные характеристики человеческого органа слуха даже близко не похожи на прямую, а амплитуда не является точной мерой измерения громкости (рисунок 2.3). В связи с этим и были введены эмпирические единицы громкости звука.

Рисунок 2.3 АЧХ человеческого органа слуха

Точно так же и высота звука, которая воспринимается органами слуха человека, не является линейно зависимой от его частоты (рисунок 2.4)

Рисунок 2.4 Зависимость высоты звука от его частоты

Единицы измерения мел часто используются в системах, задачей которых является распознавание. С их помощью можно близко изучить устройство человеческого восприятия.

Кепстр

Слово "cepstrum" появилось с помощью перестановки букв в слове "spectrum" [5]. То есть он был создан после перестановки букв в слове "спектр". Оно было введено в 1963 году Богертом. Кепстр является эмпирически измеряемой величиной - результатом взятия преобразования Фурье логарифма спектра сигнала. Кепстр разделяют на три вида:

энергетический кепстр;

комплексный кепстр;

реальный кепстр;

фазовый кепстр.

Дата определения энергетического кепстра - 1963 год. Это была работа целой группы людей: Bogert, Healy, Tukey. Их работа называлась "The Quefrency Alanysis of Time Series for Echoes: Cepstrum, Pseudo Autocovariance, Cross-Cepstrum and Saphe Cracking". Энергетический кепстр может быть определен двумя способами:

устно: энергетический кепстр сигнала - это величина Фурье-спектра логарифма квадратичной величины Фурье-спектра сигнала;

с помощью алгоритма:

Комплексный кепстр предложил Оппенгейм. Это была его работа по теории гомоморфных систем. Алгоритмическое представление комплексного кепстра:

Реальный кепстр (РК) использует логарифм функции, которая определена для реальных значений. Данный кепстр имеет взаимосвязь с энергетическим кепстром (ЭК):

А так же с комплексным спектром (КК):

где - обращенный по времени комплексный кепстр.

В основе комплексного кепстра лежит комплексный логарифм функции, которая определена для комплексных значений.

Взаимосвязь комплексного кепстра и фазового:

Различием между комплексным и реальным кепстрами является то, что кроме информации об амплитуде спектра, комплексный кепстр содержит еще и данные о фазе исходного спектра. Это добавляет возможность реконструкции сигнала.

В целом кепстр можно рассматривать как информацию о скорости изменения в различных диапазонах спектра. В первое время его использовали для измерения сейсмических отголосков после землетрясений и сильных взрывов. В настоящее время его применение нашли в системах распознавания речи.

Алгоритм метода

В системах распознавания по голосу данный метод считается одним из самых популярных. Суть метода заключается в следующем [4]:

. Подача последовательности отсчетов определенной части сигнала, которая исследуется на итерации x0,....,xN-1.

. Применение весовой функции для уменьшения искажений. Чаще всего в качестве весовой функции используют окно Хэмминга:

где - размер окна в отсчетах.

. Дискретное преобразование Фурье:

где соответствует частотам

где является частотой дискретизация.

Так же можно использовать быстрое преобразование Фурье:

Основная идея быстрого преобразования Фурье заключается в том, что каждую вторую выборку можно использовать для получения половинного спектра. Формально это означает, что формула дискретного преобразования Фурье может быть представлена в виде двух сумм.

. Далее с помощью треугольных фильтров идет разбиение на диапазоны. Границы этих фильтров рассчитываются в шкале мел. Мел - единица высоты звука, основанная на восприятии этого звука нашими ушами. Формула для перевода в мел-частотную область:

Формула обратного преобразования:

Чаще всего используют 24 фильтра. Количество фильтров обозначим как . Фильтры применяются к квадратам модулей коэффициентов преобразования Фурье, а затем высчитывается логарифм:

где - весовые коэффициенты фильтров, которые были получены.

. Дискретное косинусное преобразование является последним этапом данного метода. На этой стадии происходит вычисление мел-частотных кепстральных коэффициентов (MFCC):

Коэффициент - энергия сигнала, поэтому он не используется. Количество мел-частотных кепстральных коэффициентов на практике равняется порядка 12.

.4.2 Кепстральные коэффициенты, основанные на линейного предсказания

В данном методе так же участвуют кепстральные коэффициенты. Смысл линейного предсказания основывается на возможности аппроксимировать текущий отчет с помощью линейной комбинации некоторого количества отчетов, сделанных до настоящего времени.

У линейной комбинации а1,...,аp есть весовые коэффициенты. Их называют коэффициентами линейного предсказания. Чтобы найти эти коэффициенты, нужно использовать рекурсивный алгоритм Дарбина.

Далее, с помощью уже известных коэффициентов линейного предсказания находятся кепстральные коэффициенты. Следует отметить, что их количество может превышать количество коэффициентов линейного предсказания.

Например, если взять сигнал, частота дискретизации которого равняется 8000Гц и при этом использовать 12 коэффициентов линейного предсказания, то в итоге получим около 18 кепстральных коэффициентов.

2.5 Обработка извлеченных признаков

Оба выше перечисленных метода используют для выделения характеристик на маленьком участке. На этапе обработке признаков существует прием, суть которого объединить векторы признаков с их первыми производными (дельта-коэффициентами), целью которого является сохранение информации о динамике речи. Существуют и так называемые методы нормализации. Они используют все векторы признаком исследуемой записи. Чаще всего в повседневной жизни встречается метод вычитания кепстрального целого(CMS - Cepstral Mean Subtraction). Его используют для того, чтобы снизить влияние канала.

.6 Способы классификации моделей

Все модели, связанные с распознаванием личности по голосу, можно разделить на генеративные (моделирование данных для обучения) и дискриминативные (построение разграничений между классами) . К генеративным можно отнести Gauss Mixture Models (GMM - модель гауссовых смесей), а к дикримитативным - Support Vector Machines (SVM -метод опорных векторов).

Самыми распространенными решающими правилами являются: GMM, SVM, вычисление расстояний, метод ближайшего соседа

.6.1 Вычисление расстояний

Суть метода заключается в том, что среди всех записанных шаблонов есть один такой, который максимально схож с распознаваемым голосом, т.е. разница расстояний между векторами минимальная.

Методы вычисления:

Евклидово расстояние:

Расстояние Махалонобиса:

Расстояние городских кварталов:

где и

.6.2 Метод опорных векторов

Данный метод классификации моделей является не самым сложным, но достаточно надежным. Суть метода:

Пусть нам дано обучение D, который состоит из определенного количества объектов n:

где возможные значения y - это -1 или 1.В зависимости от значения y мы можем определить класс каждой точки (является вектором размерности p).

Чтобы получить определенную гиперплоскость, нужно записать ее как простое множество точек x, которые удовлетворяют данному выражению:

где оператор является скалярным произведением, а - нормаль к гиперплоскости (рис. 2.5).

Рисунок 2.5. Гиперплоскость и нормаль

Пусть даны две гиперплоскости:

Область, которая находится между этими двумя гиперплоскостями, называют "разностью".

С помощью геометрии высчитываем расстояние между этими гиперплоскостями - .

Целевой же функцией будет являться :

2.6.3 Модель гауссовых смесей

Модель гауссовых смесей представляет собой взвешенную сумму М компонент и может быть записана выражением:

Каждый компонент является D - мерной гауссовой функцией распределения вида:

Полностью модель гауссовой смеси определяется векторами математического ожидания, ковариационными матрицами и весами смесей для каждого компонента модели:

где i = 1,...,M.

Стоит отметить, что модель гауссовых смесей достаточно часто используется в системах распознавания человека по голосу. Чтобы данный метод работал, нам нужно найти векторы средних, веса компонентов и матрицы ковариации. Для этого используем EM - алгоритм (Expectation-maximization). На начальном этапе используются начальные значения параметров модели, но на каждом последующем шаге алгоритма осуществляется переоценка этих параметров. Чтобы найти начальные параметры используют алгоритм K-средних. Переоценка параметров осуществляется по формулам, представленным ниже:step (вычисление апостериорных вероятностей)

;

step (вычисление новых параметров модели)

Все это продолжается до того момента, пока наши параметры не сойдутся.

.6.4 Метод ближайшего соседа

Суть данного метода заключается в том, что сравниваются все векторы записанной последовательности. Это происходит с целью расчета расстояния, которое является минимальным между каждым вектором текущей последовательности и каждым вектором уже зарегистрированного "шаблона". Чтобы получить финальную оценку, эти расстояния усредняются:

.7 Аналогичные программы

В настоящие время выбор систем идентификации личности по голосу не так и огромен. Данные биометрические системы появились в России в 90-х годах. Стоит отметить, что особого распространения они не получили, так как это было больше похоже на роскошь, и стоили они порядка 12000$. Сегодня же идентификация по голосу становится более актуальной, и стоимость систем с того времени упала практически в 10 раз.

Разберем две аналогичные системы идентификации личности по голосу:- это мультифункциональная биометрическая платформа, которая работает дистанционно [6]. VoiceKey используют для идентификации пользователей по характеристикам его голоса, а так же лица, выявления злоумышленников, защиты корпоративной информации, обеспечения безопасности передачи данных через интернет в мобильном приложении или личном кабинете на сайте.

Преимущества:

кроме поддержки голосовой биометрии, так же используется лицевая биометрия;

масштабность;

независимость от языка произношения;

настройка прав доступа.

Идентификация или верификация в технологиях VoiceNet осуществляется по заданным парольным фразам [7]. Как правило, их продолжительность составляется 5 секунд и дольше. В качестве уникальных параметров используется голос человека. Изначально VoiceNet создан для работы с телефонными каналами.

Преимущества:

возможность удаленной идентификации;

близкая к невозможному имитация голоса пользователя с помощью записывающего устройства;

исключена идентификация пользователя, который находится под давлением злоумышленников, так как это влияет на его эмоциональное состояние (программа неустойчива к данным ситуациям);

возможность одновременной идентификации по голосу и распознаванию речи (произнесенный пароль).

.8 Недостатки большинства системы идентификации по голосу

У систем идентификации личности по голосу имеются не только достоинства, которые их возвышают над паролевыми защитами, но и ряд недостатков, которые могут сказаться в определенный момент идентификации.

Первым недостатком является то, что у каждого пользователя с возрастом меняется голос. В повседневной жизни это заметить почти невозможно, но данные системы достаточно к этому чувствительны. Данная ситуация сводится к тому, что администраторам системы нужно регулярно обновлять базу данных пользователей, записывая туда новые эталоны записанных речей.

Вторым недостатком следует назвать влияние физического и эмоционального состояния человека в момент записи речи при идентификации или регистрации. Если человека при идентификации имеет отдышку после определенной физической нагрузки, то велика вероятность, что он не пройдет идентификацию. Влияние может оказать стрессовая ситуация или алкогольное опьянение пользователя. Так же если у пользователя болит горло или сорван голос - идентификация невозможна.

Влияние на идентификацию может оказать канал передачи речевого сигнала к системе идентификации. Вероятность ошибки при идентификации, в случаи если эталон и записанная речь поступают по одному и тому же каналу минимальна, если по разным - значительно возрастает.

2.9 Действующие национальные стандарты

В таблице 2.1 представлен перечень действующих национальных стандартов, связанные с разрабатываемым программным средством идентификации личности по голосу [8].

Таблица 2.1. Национальные стандарты

Обозначение ГОСТа	Наименование ГОСТа
ГОСТ Р ИСО/МЭК 19794-1-2008	Автоматическая идентификация. Идентификация биометрическая. Форматы обмена биометрическими данными. Часть 1. Структура
ГОСТ Р ИСО/МЭК 19795-1-2007	Автоматическая идентификация. Идентификация биометрическая. Эксплуатационные испытания и протоколы испытаний в биометрии. Часть 1. Принципы и структура
ГОСТ Р ИСО/МЭК 19795-2-2008	Автоматическая идентификация. Идентификация биометрическая. Эксплуатационные испытания и протоколы испытаний в биометрии. Часть 2. Методы проведения технологического и сценарного испытаний
ГОСТ Р ИСО/МЭК ТО 19795-3-2009	Автоматическая идентификация. Идентификация биометрическая. Эксплуатационные испытания и протоколы испытаний в биометрии. Часть 3. Особенности проведения испытаний при различных биометрических модальностях
ГОСТ Р ИСО/МЭК 19795-4-2011	Информационные технологии. Биометрия. Эксплуатационные испытания и протоколы испытаний в биометрии. Часть 4. Испытания на совместимость
ГОСТ Р ИСО/МЭК 19784-1-2007	Автоматическая идентификация. Идентификация биометрическая. Биометрический программный интерфейс. Часть 1. Спецификация биометрического программного интерфейса
ГОСТ Р ИСО/МЭК 19785-1-2008	Автоматическая идентификация. Идентификация биометрическая. Единая структура форматов обмена биометрическими данными. Часть 1. Спецификация элементов данных
ГОСТ Р ИСО/МЭК 24709-1-2009	Автоматическая идентификация. Идентификация биометрическая. Испытания на соответствие биометрическому программному интерфейсу (БиоАПИ). Часть 1. Методы и процедуры
ГОСТ Р ИСО/МЭК 29794-1-2012	Информационные технологии. Биометрия. Качество биометрических образцов. Часть 1. Структура

3. Конструкторская часть

.1 Функциональная схема аппаратных средств

Данное программное средство не является требовательным по отношению характеристик компьютера, на котором оно будет запущенно. Однако следует описать рекомендуемые параметры:

тактовая частота процессора не менее 800 МГц;

ОС Windows 7 и старше;

не менее 512 Мб оперативной памяти;

не менее 512 Мб графической памяти;

.Net Framework версии 4.0 и старше;

Super Video Graphics Array (SVGA) монитор;

клавиатура любого производителя;

компьютерная мышь любого производителя.

Увеличение производительности аппаратных средств не влечет за собой зрительного увеличения скорости работы алгоритма.

.2 Функциональная схема программного средства

Программное средство состоит из двух частей: сама программа и база данных пользователей.

Основная программа является приложением с интерфейсом, которая предназначена для работы с людьми. В ее функции входит:

регистрация новых пользователей;

идентификация пользователей;

получение информации о программном средстве.

Чтобы зарегистрироваться, следует войти в специальную вкладку интерфейса, ввести логин и записать свой голос, который сохранится в базе данных

Для идентификации пользователя нужно ввести логин, зарегистрированный ранее, и вновь произнести фразу или несколько фраз, которые были произнесены при регистрации.

Так же программа несет информацию о своем предназначении и о разработчике.

База данных является неотъемлемой частью всего программного средства. Она состоит из:

файла, где хранятся все логины пользователей, которые были зарегистрированы;

файлов, где отдельно хранится необходимая для идентификации или не идентификации информация о записанном голосе каждого пользователя.

Функциональная схема представлена на рисунке 3.1.

Рисунок 3.1 Функциональная схема программного средства

3.3 Информационная схема программного средства

Во время работы программы между ее составляющими протекают определенные потоки информации. Начиная с микрофона, на который записывается голос и заканчивая данными, которые мы видим на экране. Вся информационная схема представлена на рисунке 3.3.

Рисунок 3.2 Информационная схема программного средства

3.4 Алгоритм программного средства

В данном разделе будут описаны все операции, с помощью которых идет преобразование записанной речи в кепстральные коэффициенты. Эти коэффициенты нужны для того, чтобы сравнить голос идентифицируемого человека, с голосом, который хранится в базе данных. Если разница в кепстральных коэффициентах не преодолевает пороговое значение, то происходит идентификация.

Входной сигнал.

Входным сигналом является записанная речь с параметрами:

частота дискретизации - 44100 Гц;

число каналов - 1;

кодирование 16 бит.

Пример входного сигнала продемонстрирован на рисунке 3.3.

Рисунок 3.3 Входной сигнал

Разбитие входного сигнала на перекрывающие области длительностью 20 - 30 мс.

Весь сигнал, который был записан, разбивается на перекрывающиеся окна определенной длительности, в конкретном случае длина каждого окна выбрана 23 мс, с целью упрощения расчетов. Отдельная область на рисунке 3.4.

Рисунок 3.4. Область сигнала длительностью 0.23 мс

Фильтрация сегмента.

Каждый сегмент сигнала нуждается в фильтрации для того, чтобы очистить человеческую речь от посторонних помех. Для этого используется формула:

В итоге получаем сегмент, очищенный от различных шумов (рис.3.5)

Рисунок 3.5 Фильтрация сегмента

Профильтровав каждый сегмент, получим целиком наш сигнал, в котором нет ни шумов, ни помех, не прочих искажений, которые могут препятствовать удачной идентификации.

Вычисление спектра каждого сегмента .

Чтобы получить спектр сигнала, нужно использовать функцию преобразования Фурье:

где k = 0,...,N-1.

Пример полученного спектра сегмента представлен на рисунке 3.6.

Рисунок 3.6 Спектр сегмента сигнала

Треугольные перекрывающие фильтры на мел-частотной области.

После того, как мы получили спектр, нам нужно перевести его в мел-частотную область.

Первым делом следует расположить полученный спектр на мел-шкале. Для этого используем формулу:

В итоге мы получаем окна, которые равномерно расположены на мел-оси (рисунок 3.7).

Рисунок 3.7 Окна на мел-оси

Далее следует перевести этот график в шкалу с частотами. В итоге получим то, что показано на рисунке 3.8.

Рисунок 3.8 Частотная шкала

Вычисление мел-частотных кепстральных коэффициентов для каждого сегмента.

На каждый сегмент сигнала приходится по 12 мел-частотных кепстральных коэффициентов. Чтобы их найти используем формулу:

где .

Часть таблицы с полученными коэффициентами сигнала представлена на рисунке 3.9. В каждом сегменте сигнала находится 12 мел-частотных кепстральныъ коэффициентов.

Рисунок 3.9 Таблица мел-частотных кепстральных коэффициентов

В качестве примера был построен график, на котором отображаются мел-частотные кепстральные коэффициенты двух первых сегментов записей речи двух разных людей. При этом они произносили одну и ту же фразу (рисунок 3.10 ).

Рисунок 3.10 График MFCC двух разных личностей

На графике видна разница между коэффициентами записи речи разных личностей. Что касается двух различных записей речи, которые произнесены одним и тем же пользователем, то результат увидим на рисунке 3.11.

Рисунок 3.11. График MFCC одного человека

Невооруженным глазом видно, что разница между мел-частотными кепстральными коэффициентами не существенна.

. Вычисление расстояний.

После того, как получены все коэффициенты, записанный сигнал сравнивается со своим эталоном из базы данных. Для того, чтобы определить совпали или нет эти сигналы, нужно вычислить Евклидово расстояние между эталоном и созданным шаблоном:

где С1 и C2 являются массивами с мел-частотными кепстральными коэффициентами. На рисунке 3.12 показаны вычисленные расстояния между 14 различными записанными речами, некоторые из которых совпадают.

Рисунок 3.12. Таблица вычисленных расстояний

Подытожив, получим полную блок-схему основного алгоритма разрабатываемого программного средства (рисунок 3.13).

Рисунок 3.13 Блок-схема основного алгоритма программного средства

.5 Язык программирования и среда разработки

Для разработки программного средства был выбран язык программирования C++. Основные факторы выбора: поддержка OpenAL, возможность подключения программной библиотеки обработки мультимедиа данных Integrated Perfomance Primitives (IPP). В целом С++ является более подходящим языком программирования для реализации программного средства, основой которого является аудио-файлы. Данный язык предназначается для разработки программ любого назначения.

Недостатки:

низкая потокобезопасность;

плохая поддержка модульности;

сложность обучения.

Средой разработки была выбрана Microsoft Visual Studio 2013. Данная интегрированная среда содержит в себе огромный набор инструментов и служб. В Visual Studio можно разрабатывать приложения на любой вкус и на большом количестве языков, в том числе и С++, на котором написано программное средство для дипломного проекта. К плюсам так же можно отнести простой и удобный интерфейс, возможность разработки не только консольных приложений, но и приложения с графическим интерфейсом.

4. Документация программного средства

.1 Техническое задание

Тема: Разработка программного средства идентификации личности по голосу.

Цель проекта: Целью проекта является разработка программного средства идентификации личности по голосу, вероятность ошибки которого сведена к минимуму.

Научный руководитель: Парсаев Николай Владимирович .

Область применения: Данное программное средство может использоваться на практике для доступа к компьютеру или определенных программных продуктов.

идентификация личность программный

4.1.1 Основания для разработки

Разработка программного средства ведется на основании задания, полученного при выборе темы дипломного проекта.

Разработчиком программного средства является Стариков Константин Андреевич, студент Поволжского государственного технологического университета, факультета информатики и вычислительной техники, группа БИс-51.

.1.2 Назначение разработки

Функциональным назначением программного средства является преобразование обычной записи речи человека в кестральные коэффициенты, необходимые для последующей идентификации.

Эксплуатационное назначение программного средства - это идентификация личности по голосу. Если быть точнее, то данная программа нужна для того, чтобы ограничивать доступ лицам, которые не зарегистрированы в базе данных.

.1.3 Требования к программному средству

Разрабатываемое программное средство должно выполнять несколько функций:

идентификация / не идентификация личности по голосу;

доступ / запрет в доступе на основании результатов , полученных в пункте выше;

выявлять незарегистрированных пользователей.

Программное средство должно иметь минимальную возможность ошибочной идентификации, при условии, что создать программу, которая бы на 100% давала правильный вывод невозможно.

Чтобы данная программа успешно работала на компьютере, необходимо выполнение рекомендуемых требований:

тактовая частота процессора не менее 800 МГц;

ОС Windows 7 и старше;

не менее 512 Мб оперативной памяти;

не менее 512 Мб графической памяти;

.Net Framework версии 4.0 и старше;

Super Video Graphics Array (SVGA) монитор;

клавиатура любого производителя;

компьютерная мышь любого производителя.

.1.4 Требования к программной документации

Требования к программной документации - это перечень документов, которые прилагаются к программному средству:

техническое задание (основания для разработки, назначение разработки, области применения, требования к программному средству);

руководство системного программиста (информация о устройстве программы, основных функциях, возможных ошибках и путей их исправления);

руководство администратора (информация об установке программного средства, его эксплуатации и обслуживании);

руководство пользователя (информации, необходимая для упрощения эксплуатации программы пользователями).

.2 Руководство системного программиста

.2.1 Общие сведения о программном средстве

Программное средство предназначено для идентификации личности по голосу, запрета в доступе лиц не прошедших идентификацию, и допуск для тех, кто удачно прошел данный этап.

.2.2 Структура программного средства

Программное средство состоит из 2 частей - основная программа и база данных.

Основная программа имеет графический интерфейс и предназначена для регистрации новых пользователей, а так же идентификации пользователя по голосу. На входе основной программы человеческая речь, а на выходе кепстральные коэффициенты, которые при сравнении дают результат: идентифицировать или не идентифицировать человека.

База данных состоит из главного файла, где хранятся все логины зарегистрированных пользователей, а так же файлы, в которых находятся все кепстральные коэффициенты каждого пользователя отдельно .

Во время работы программы идет прямое взаимодействие основной программы и базы данных. При регистрации в основной программе данные пользователя сохраняются в базе данных, а так же при идентификации идет прямое обращение к базе данных, чтобы сравнить кепстральные коэффициенты, которые там записаны, и вывести результат на экран.

В таблице 4.1 представлены все основные функции программного средства, а так же их описания.

Таблица 4.1 Основные функции программного средства

Название функции	Описание функции
waveInOpen (&hWaveIn, WAVE_MAPPER, &pFormat, 0L, 0L, WAVE_FORMAT_DIRECT)	Открывает устройство записи звука, то есть микрофон.
waveInPrepareHeader (hWaveIn, &WaveInHdr, sizeof(WAVEHDR))	Подготавливает буфер к передаче устройству записи. hWaveIn - идентификатор устройства, полученный функцией waveInOpen. В параметре &WaveInHdr программа передает в функцию указатель на структуру типа WAVEHDR, содержащую описание буфера и ссылку на массив передаваемых данных.
waveAddBuffer (hWaveIn, &waveInHdr, sizeof(WAVEHDR))	Передает подготовленный буфер памяти драйверу устройства ввода.
waveInStart (hwaveIn)	Запускает процесс ввода данных.
waveInClose (hWaveIn)	Закрывает устройство ввода.
fopen(fileToOpen, "r")	Считывание файла с признаками из базы данных.
void WriteAudio (string name)	Запись речи, произнесенной в микрофон.
int StartRecord (char* data, int lenght)	Функция захвата аудио.
int StartPlayback (char* data, int lenght)	Функция воспроизведения .
allocationSegment (SignalWavAddZero, NSegment, IndexSegment)	Разбитие входного сигнала на перекрывающие области.
mFilter (n, N)	Фильтр для каждого сегмента входной записи, с целью ликвидации посторонних шумов.
PSpectrSegment()	Вычисляет спектр каждого сегмента.
Half(K_Filtr, C, 1, ff)	Построение треугольных перекрывающих фильтров в мел-частотной области.
KepstrKoeffSegment (PSpectrSegment, NSpectrSegment, K_Filtr)	Вычисление мел-частотных кепстральных коеффициентов для каждого сегмента.
Rasstmin (C1, C2)	Расчет евклидового расстояния между двумя записями речи.

.3 Руководство администратора

.3.1 Назначение и условия применения

Чтобы данная программа успешно работала на компьютере, необходимо выполнение рекомендуемых требований:

тактовая частота процессора не менее 800 МГц;

ОС Windows 7 и старше;

не менее 512 Мб оперативной памяти;

не менее 512 Мб графической памяти;

.Net Framework версии 4.0 и старше;

Super Video Graphics Array (SVGA) монитор;

клавиатура любого производителя;

компьютерная мышь любого производителя.

.3.2 Установка программного средства

Установка основной программы идентификации личности по голосу и базы данных не требуется.

.3.3 Характеристики программного средства

Данное программное средство требовательно к записывающему устройству, а точнее : при идентификации оно должно быть тем же, что и при регистрации пользователя, во избежание некорректной идентификации.

.3.4 Настройка программного средства

Настройка программы заключается в правильных настройках записывающего устройства - микрофона. Необходимые параметры для записи:

частота дискретизации - 44100 Гц;

число каналов - 1;

кодирование 16 бит.

База данных располагается в директории с программой и не требует настройки.

4.3.5 Входные и выходные данные

Входные данные программного средства - это голос, который записан на микрофон во время работы программы

Выходными данными являются кепстральные коэффициенты, которые были получены в ходе выполнения алгоритма программы. Эти коэффициенты сравниваются с коэффициентами , полученными при регистрации пользователя, после чего на экран выводится сообщение о идентификации или не идентификации.

.3.6 База данных программного средства

База данных программного средства хранится в файлах, которые зашифрованы. Она состоит из файла, где находятся все логины зарегистрированных пользователей (рисунок 4.1 ), а так же множества файлов, в которых хранятся мел-частотные кепстральные коэффициенты каждого пользователя по отдельности (рисунок 4.2 ).

Рисунок 4.1 Файл с логинами зарегистрированных пользователей

Рисунок 4.2 Файл с коэффициентами отдельного пользователя

Как мы видим, коэффициенты записаны по 12 в столбик, чтобы наглядно показать их количество на каждом отдельном сегменте речевого сигнала.

.4 Руководство оператора

.4.1 Назначение и условия применения

Чтобы данная программа успешно работала на компьютере, необходимо выполнение рекомендуемых требований:

тактовая частота процессора не менее 800 МГц;

ОС Windows 7 и старше;

не менее 512 Мб оперативной памяти;

не менее 512 Мб графической памяти;

.Net Framework версии 4.0 и старше;

Super Video Graphics Array (SVGA) монитор;

клавиатура любого производителя;

компьютерная мышь любого производителя.

.4.2 Выполнение программного средства

Основная программа состоит из:

Панель инструментов, где можно совершить выход из программы, а так же узнать информацию о программе и кто ее написал:

при нажатии на выход, осуществляется полный выход из программы (рисунок 4.3);

Рисунок 4.3 Меню с выходом из программы

во вкладке "справка" можно узнать информацию о программе (рис.4.4);

Рисунок 4.4 Справка о программе

окно с информацией о программе: название, кто разработал программу и в каком году (рисунок 4.5);

Рисунок 4.5 Информация о программе

Поле с вводом логина (рисунок 4.6):

Рисунок 4.6 Поле для ввода логина

Если введенный логин не найден в базе данных, то выводится сообщение "ПОЛЬЗОВАТЕЛЬ НЕ НАЙДЕН" (рисунок 4.7):

Рисунок 4.7.Регистрация нового пользователя

Если вы не зарегистрированы в системе, то вам следует пройти регистрацию нового пользователя (рисунок 4.8):

Рисунок 4.8 Регистрация нового пользователя

При нажатии на данную ссылку появится кнопка "ЗАПИСАТЬ ГОЛОС" (рисунок 4.9):

Рисунок 4.9 Запись голоса нового пользователя

В специально выделенное поле ввода записывается будущий логин пользователя. Далее, при нажатии на кнопку "Записать голос", пользователь должен произнести определенную фразу, будь то его имя и фамилия, либо что-то другое. При успешной регистрации всплывет окно "ПОЛЬЗОВАТЕЛЬ ДОБАВЛЕН" (рисунок 4.10):

Рисунок 4.10 Успешная регистрация пользователя

Из этого следует, что регистрация прошла успешна, пользователь добавлен в базу данных программы и может проходить процедуру идентификации.

После того, как был введен логин, следует нажать кнопку "идентификация". Далее вы снова произносите речь, которую говорили при регистрации нового пользователя. В случае, если вы не проходите идентификацию, появляется надпись "НЕ СОВПАДЕНИЕ", то есть записанный голос не совпадает с голом, который хранится в базе данных.Так же на экран выводятся спектрограммы записанного голоса и голоса из БД (рисунок 4.11):

Рисунок 4.11 Неудачная идентификация

Если ваши голоса совпали, то так же выводится сообщение "СОВПАДЕНИЕ" и на экран выводятся спектрограммы совпавших голосов (рисунок 4.12). Идентификация пройдена.

Рисунок 4.12 Успешная идентификация

5. Экспериментальная часть

При тестировании программного средства было задействовано три личности. Каждый из них произносил одну и тут же фразу ("звукозапись"), с целью нахождения ошибок первого и второго рода, то есть :

вероятность события, когда злоумышленник получает доступ к системе;

вероятность события, когда зарегистрированный пользователь не получает доступ к системе.

Так же при в экспериментальной части был найден порог евклидового расстояния, который помоет определить, прошел ли идентификацию пользователь или нет. Этот порог равен 0.4. То есть когда расстояние не превышает число 0.4, то на двух записях один и тот же человек, а когда превышает - речь произносили разные люди.

Ниже на рисунке представлена таблица евклидовых расстояний между разными человеческими речами (рисунок 5.1). То есть, записан эталон, и злоумышленники пытаются пройти идентификацию через данного пользователя. С 1 по 10 это пытается сделать один человек, с 1 по 20 - другой.

Рисунок 5. Евклидово расстояние между записью пользователя и злоумышленников

Из рисунка видно, что один раз из всех 20 попыток получилось пройти идентификацию, но порог был пройдет всего лишь на 0,001. Из этого следует, что вероятность ошибки первого рода равняется 1 к 20 (5%).

На следующей рисунке представлена таблица сравнения эталона с записью нужного человека. Таким образом мы сможем определить ошибку второго рода, когда пользователь не может получить доступ к системе (рисунок 5.2).

Рисунок 5.2 Евклидово расстояние записей речи одного человека

Из таблицы видно, что вероятность ошибки второго рода в ситуациях, когда человека в одинаковом психологическом и физическом состоянии, сводится к 0 (смотрим нулевой столбик, не одно значение не превышает значение 0,4). Из 20 экспериментальных записей все 20 прошли идентификацию.

6. Организационно - экономическая часть

.1 Описание эффектов от внедрения разработки

Голос - такая же неотъемлемая черта каждого человека, как и его лицо или отпечатки пальцев. Широкое распространение средств связи (стационарные и мобильные телефонные сети, интернет-телефония и т.д.) открывают большие возможности для применения данного идентификатора; кроме того, распознавание по голосу весьма удобно для пользователей и требует от них минимум усилий.

Необходимо учитывать, что голос (наряду с почерком, походкой и т.п.) относится к т.н. «поведенческим» идентификаторам, и было бы напрасным ожидать от использующих данные идентификаторы технологий высокой точности и надежности.

Технологии и средства идентификации по голосу применяются в ряде областей, непосредственно связанных с обработкой обращений пользователей по телефону (колл-центры и т.п.), что позволяет ускорить обслуживание абонентов и разгрузить операторов. В более значимых проектах (особенно связанных с необходимостью защиты конфиденциальной информации) идентификация по голосу играет вспомогательную роль по отношению к другим биометрическим технологиям (прежде всего идентификации по отпечаткам пальцев).

.2 Планирование процесса разработки программного средства

Планирование процесса разработки включает в себя период от 1 февраля до 31 мая 2016 года.

Плановый эффективный фонд рабочего времени [9] исполнителя за период разработки рассчитывается по следующей формуле:

где - количество календарных дней;

- количество выходных дней;

- количество праздничных дней;

- продолжительность рабочего времени, ч.;

- коэффициент потерь рабочего времени.

Зная количество календарных, выходных и праздничных дней, а также продолжительность рабочего времени и взяв коэффициент потерь рабочего времени равным 0,1 получается, что плановый эффективный фонд рабочего времени равен 72 дня.

Структура трудоемкости по этапам создания программного продукта выглядит следующим образом:

Техническое задание - 15%;

Техническое проектирование - 25%;

Разработка - 50%;

Тестирование - 10%.

Таблица 6.1 Структура трудоемкости по этапам создания программного продукта

Стадия разработки проекта	Удельный вес затрат времени, %	Затраты времени, дней
1.Разработка технического задания 1.1.Затраты времени исполнителя 1.2.Затраты времени руководителя	15 14 1	11 10 1
2.Техническое проектирование 2.1.Затраты времени исполнителя 2.2.Затраты времени руководителя	25 24 1	18 17,5 0,5
3.Разработка 3.1.Затраты времени исполнителя 3.2.Затраты времени руководителя	50 49 1	36 35,5 0,5
4.Тестирование 4.1.Затраты времени исполнителя 4.2.Затраты времени руководителя	10 9 1	7 6,5 0,5
Всего	100	72

Для определения численности исполнителей, необходимых для разработки проекта необходимо воспользоваться следующей формулой:

где - общая трудоемкость разработки, чел.-ч;

- плановый эффективный фонд рабочего времени одного разработчика за период разработки, ч. Чтобы его определить, нам нужно знать количество календарных, выходных и праздничных дней, а так же коэффициент потерь рабочего времени:

Определение численности исполнителей:

Исполнитель:

= 10+17+35+6=68 чел. -дн.;

ставки.

Руководитель:

= 1+0,5+0,5+0,5 = 2,5 чел. -дн.;

ставки.

.3 Смета затрат на разработку

.3.1 Материальные затраты

К материальным затратам относятся:

расходные материалы

Так как результатом дипломного проекта является реализация программы, то к расходным материалам можно отнести лишь бумагу и краску для принтера. Стоимость расходных материалов определяется с учетом цен на 20.04.2016 г.

Таблица 6.2 Расходные материалы.

Наименование	Производитель	Количество	Стоимость, руб.
Бумага	“SvetoCopy”	1 пачка (500 л.)	229
Краска для принтера	InkSystem	100 мл.	299
Итого			528

транспортно-заготовительные расходы

Транспортно-заготовительные расходы составляют 5% от расходных материалов:

*0,05=26,4руб.

затраты на вспомогательные материалы, необходимые для обслуживания оргтехники

Затраты на вспомогательные материалы, необходимые для обслуживания оргтехники составляют 1,5% в год от стоимости оборудования. Для печати использовался принтер Brother DCP-7010R <#"877692.files/image105.gif">

Суммарные материальные затраты составляют 616,9 рублей:

+26,4+62,5=616,9 руб.

.3.2 Расходы на оплату труда

Среднемесячная заработная плата разработчика в республике Марий Эл составляет 9251 рубль, а руководителя - 15000 рублей. Чтобы рассчитать основную заработную плату, нам нужно ставку умножить на среднемесячную заработную плату. Дополнительная заработная плата рассчитывается как 10% от основной заработной платы.

Фонд заработной платы определяется сложением основной заработной и дополнительной заработных плат.

Фонд заработной платы исполнителя составляет 9819,9 рублей.

Фонд заработной платы руководителя проекта составляет 4400 рублей.

Фонд заработной платы равен : 9819,9 + 4400 = 14219,9 рублей.

.3.3 Отчисления на социальные страхования от заработной платы

К отчислениям на социальное страхование относятся отчисления на оплату перерывов в работе в связи с временной нетрудоспособностью и отчисления в пенсионный фонд. Норматив отчислений на социальное страхование составляет 30,2% от величины фонда заработной платы.

Для исполнителя отчисления составляют рублей.

Для руководителя отчисления составляют рублей.

Суммарные отчисления на социальные страхования:

+ = 4294,4 рублей.

.3.4 Амортизационные отчисления

Согласно статье 256 НК РФ [11], Амортизируемым имуществом признается имущество со сроком полезного использования более 12 месяцев и первоначальной стоимостью более 100 000 рублей. То есть, если используемое оборудование стоит дешевле, амортизацию считать не нужно. В данном случае стоимость всего оборудования равняется 43500 рублей.

.3.5 Прочие прямые расходы

Оплата услуг провайдера "Дом.ru", который предоставляет интернет, составляет 450 руб/месяц.

Итого расходы услуг провайдера за 4 месяца составят:

* 4 = 1800руб.

Тариф на электроэнергию для юридического лица согласно тарифам ОАО “Марийэнергосбыт”: 5,29 руб/кВт * ч.

КПД = 0,9.

Коэффициент потерь в сети = 0,85.

Таблица 6.3 Затраты на электроэнергию

	Персональный компьютер(ноутбук)	Принтер
Количество	1	1
Коэффициент загрузки	0,95	0,03
Энергопотребление, кВт/час	0,04	0,02
Затраты на электроэнергию, руб.	=151,35 руб.	=1,19 руб.

Затраты электроэнергии на ноутбука = 151, 6 р., принтера = 1,19 р.

Общие затраты на электроэнергию: 151,35 + 1,19 = 152,54 р.

Расходы на канцелярские принадлежности : 180 рублей.

Итого прочие прямые расходы за 4 месяца составляют:

+ 180 + 152,54 = 2132,54 (руб.)

.3.6 Накладные расходы

Затраты, связанные с обслуживанием, с охраной труда, с управлением организации, содержанием зданий и т.д. составляют 80% от фонда заработной платы труда разработчиков.

,9 * 0,8 = 11375,92 рублей.

Таблица 6.4 Затраты на электроэнергию

№ п/п	Статья затрат	Стоимость, руб.
1	Материальные затраты	616,9
2	Расходы на оплату труда	14219,9
3	Отчисления на социальные страхования от заработной платы	4294,4
4	Прочие прямые расходы	2132,54
5	Накладные расходы	11375,92
	Итого	32639,66

Вывод

В данной главе дипломного проекта были рассмотрены эффекты от разработки программного средства идентификации личности по голосу, рассчитана трудоемкость и себестоимость дипломного работы, которая составляет 32639,66 рублей.

7. Безопасность жизнедеятельности

В современном мире большое внимание уделяется улучшению условий работы пользователей ПК, несмотря на то, что качество и безопасность самых ПК постоянно совершенствуются. Моя дипломная работа связанна с написание программного средства на ПЭВМ. Это подразумевает большое количество часов, проведенных за компьютером в разных условиях: днем, при уличном свете, вечером, при домашних осветительных приборах, а порой и только при свете, излучаемом дисплеем монитора. Это все негативным образом влияет на зрение и в целом на здоровье. И свет - не единственный фактор, влияющий на мое физическое, а так же психологическое состояние. Ниже будут перечислены все факторы, которые воздействуют на человека, а точнее пользователя ПЭВМ. И моей целью является уменьшение влияния всего стороннего при работе на ПК, чтобы избежать сильной утомляемости, ухудшение зрения, физического состояния и многого другого.

Анализ опасных и вредных факторов

Опасные и вредные факторы, которые воздействуют на человека, описаны в ГОСТ 12.1.003-74 [11]. При написании дипломной работы многие из них оказали большое влияние на здоровье. Все факторы делятся на вредные и опасные.

Начнем с вредных факторов:

. Запыленность.

Во время работы с ПЭВМ постоянно было открыто окно, за которым велись строительные работы. На участке, где велась стройка, постоянно передвигалась техника по неасфальтированным дорогам. В связи с этим на компьютерном столе и на самом ПК скапливалась пыль, которая состоит из большого количества аллергентов. Каждый человек вдыхает с воздухом пыль, которая повреждают стенки альвеол, нарушая первый иммунный барьер. В связи с этим человеку легче "подцепить" инфекции и открыть путь аллергенам. Симптомами аллергии являются: чиханье, насморк, слезящиеся глаза. Если каждый день вдыхать частицами пыли, то неизбежны головные боли, заболевания дыхательной системы, раздражение слизистых оболочек глаз из-за возникновения аллергии на пыль и различные воспалительные процессы.

. Шум.

Шум - один из вредных факторов, которые могут повлиять на здоровье. Так как современные компьютеры очень мощные, обладают высокой частотой процессора, и тем самым высоким энергопотреблением, возникает необходимость в мощных системах охлаждения. А мощные системы охлаждения обладают высоким уровнем шума. Также к источникам шума можно отнести работающие принтеры и внешние источники шума, такие как автомобильный транспорт и производственный шум (рядом со зданием, где расположено помещение, идут строительные работы).

Если превысить уровень шума - это с большой вероятностью приведет к подъему кровяного давления, снижению способности к сосредоточению, стрессу, раздражительности. Звуки, неприятные на восприятие, вызывают различные неврозы.

. Неправильное освещение

Дипломная работа большую часть времени писалась в помещение с достаточно слабым освещение. Слабое освещение - причина таких заболеваний, как спазм, близорукость, зрительное утомление, аккомодация и других болезней, понижает физическую и умственную работоспособность, увеличивает количество ошибок при написании кода программы. Это фактор можно расценить как один из самых вредных.

. Излучение

.1 Постоянное электpостатическое поле высокой напpяженности

На каждом мониторе есть кинескоп, на котором имеется потенциал около 20000 вольт. Электростатическое поле от этого потенциала может действовать до полуметра от самого экрана. Сам же этот потенциал не опасен, но он разгоняет пылинки, которые осели на экран. Эти пылинки с огромной скоростью врезаются в кожу того, кто сидит перед экраном. Это постоянное электpостатическое поле может оказывать вредное влияние пpи заболеваниях глаз и кожи.

.2 Низкочастотные электромагнитные поля

Интерференция, которую вызывает взаимодействие собственных полей монитора и внешних электромагнитных полей, может вызвать мерцание экрана, из-за которого может ухудшиться зрение и обостриться головная боль.

. Стесненная поза

затруднение дыхания (когда человек выносит вперед локти, они не дают свободно двигаться грудной клетке, это может привести к астме или приступам кашля);

боли в спине, шее, а так же головные боли (это происходит из-за длительной неподвижности, которая снижает приток крови к мыщцам);

остеохондроз (длительное время работы с опущенными плечами);

боли в кистях (появление хронических заболеваний из-за большого количества мелких движений руками);

. Микроклимат

В 408 аудитории, где проходила практика, а так же находился дипломный руководитель, был очень специфичный микроклимат. Воздух в помещении был очень сухой, при достаточно высокой температуре. Это было вызвано работающей вычислительной техникой. Микроклимат оказывает влияние на организм и на его здоровье: расширяются кровеносные сосуды, повышается температура тела, учащается пульс, появляется головокружение, приводит к расслаблению тела, снижению внимания, а низкая относительная влажность воздуха вызывает пересыхание слизистых оболочек верхних дыхательных путей. В таких условиях очень сложно реализовать свой умственный потенциал, так как быстро происходит утомление, тем самым тратиться большая часть времени и много физических сил.

. Прямая и отраженная блесткость

При неправильной организации рабочего места оператора могут возникнуть источники прямой и отраженной блесткости (от окон и светильников, от экрана и клавиатуры).

Блесткость может привести к перенапряжению и усталости. В дневное время в помещение сквозь окна попадает огромное количество лучей солнца, что может напрямую воздействовать на глаза или посредством отражения от монитора компьютера.

Опасные факторы:

После изучения всех опасных факторов можно выделить:

психофизические: при написании кода будущего программного средства требуется большая сосредоточенность, что создает огромное напряжение в организме человека. Программирование - достаточно сложная деятельность, и если сделать какую то маленькую ошибку или где-то что-либо не досмотреть, это обернется для вас серьезным психическим расстройством. В будущем это приведет только к негативным последствиям. Большим влиянием подвергаются люди с сильным эмоциональным восприятием.

огонь(пожар): помещение с ПЭВМ по пожарной опасности относится к категории пожароопасных «В». Обычно в таких помещениях источниками возгорания могут быть: электронные схемы и устройства электропитания, где в результате различных нарушений могут начать нагреваться различные элементы схем или могут появиться электрические искры, способствующие загоранию легковоспламеняющихся материалов.

Мероприятия по нормализации и защите от вредных и опасных воздействий.

В данном разделе рассмотрены санитарные нормы и правила, которые поспособствуют улучшению условий труда, уменьшению утомительности, повышению работоспособности и сохранению здоровья оператора ПК.

. Требования к уровню шума

В соответствии с СанПиН 2.2.4/2.1.8.562-96 [12] уровень шума для помещений с ПЭВМ не должен превышать 50 дБ.

От шума, который поступает в с улицы, избавиться не так и сложно. Для этого в помещении нужно использовать звукопоглощающие материалы или специальные звукопоглощающие конструкции. Кроме этого установить звукоизолирующие окна, ведь большая часть шума с улицы проникает именно через них.

Чтобы снизить шум, который исходит от компьютера, нужно заменить старую систему охлаждения на систему с водяным охлаждением. Так же можно заменить жесткий диск и усовершенствовать или купить более объемный корпус компьютера (внутренние поверхности стенок корпуса можно обклеить самоклеющимися звукоизолирующими прокладками не загораживая вентиляционных отверстий).

. Требования к освещению

Требования к освещению на рабочих местах, приведенные в СанПиН 2.2.2/2.4.1340-03 [13], поспособствуют устранению отрицательного физиологического воздействия на операторов ПК, которые связанны со зрительными условиями:

Освещенность на поверхности рабочей зоны: 300-500 лк;

В качестве источников света при искусственном освещении необходимо применять люминесцентные лампы типа ЛБ;

Для сохранения нормальных значений освещенности следует проводить чистку светильником и стекол оконных рам не реже двух раз в год и проводить своевременную замену перегоревших ламп.

. Организация рабочего места

Рабочему месту оператора ПК следует уделять особое внимание.

Максимально удобное положение в кресле:

Корпус должен быть выпрямлен, ноги прочно опираются на пол, голову рекомендуется держать ровно, не выпячивая вперед.

Кресло:

Кресло должно быть твердым и обеспечивать достаточную опору в области поясницы оператора ПК. Чтобы была возможность изменять позу во время работы за ПК, стул должен быть подъемно -поворотным, на роликах, с регулируемой спинкой без подлокотников. Неограниченность движений на таком стуле сопровождается работой грудной клетки и позвоночника. Высота регулируется строго индивидуально, что успешно снимает утомление.

Стол:

Стол обязательно должен быть специализированным, с выдвижной доской под клавиатуру. Во время печати клавиатура должна быть расположена на 7-10 см. ниже. Выдвижная доска периодически заставляет сменить позу, что несомненно является плюсом.

Общие рекомендации:

глубина пространства для ног: >650 мм.;

высота пространства для ног : >600 мм. ;

расстояние от крышки стола до сиденья: >150 мм.;

глубина рабочей поверхности: 450 мм.;

расстояние от рабочей поверхности до сидения: >150 мм,

глубина рабочей поверхности: >450 мм,

высота рабочей поверхности: >600 мм.

. Требования к микроклимату

Оптимальными значениями для комфортной работы оператора ПК [14]:

скорость движения воздуха - 0,1 м/с;

относительная влажность воздуха - 40-60%;

температура окружающего воздуха - 22-24° С;

В помещении должна быть системами вентиляции и кондиционирования, каждый день должны проводится влажные уборки.

. Требования по пожарной безопасности

Согласно СНиП 21-01-97, вычислительные центры должны располагаться в зданиях не ниже II степени огнестойкости, залы ЭВМ - не ниже первого этажа. Наиболее вероятные классы пожаров в помещениях с ПЭВМ:

«А» - могут гореть в основном твердые вещества, горение которых сопровождается тлением;

«Е» - возможны пожары, вызванные возгоранием электроустановок.

В помещения с ПЭВМ должны быть:

аптечка первой помощи;

углекислотные огнетушители.

Согласно требованиям Правил ППБ-01-93, расстояние от возможного очага возгорания до места размещения огнетушителя не должно превышать 20 м, если ПЭВМ установлены в общественных зданиях и сооружениях; 30 м - для помещений ВЦ.

.4. Возможные чрезвычайные ситуации

К возможным чрезвычайным ситуациям можно отнести "заражение" вирусом ПК [15], на котором находятся все документы, связанные с дипломным проектом, а так же само программное средство. В настоящее время существует огромное количество различных вирусов, которые могут оказать влияние на функционирование ЭВМ. Следует отметить, что их количество с каждым днем увеличивается.

Вред, нанесенный вирусом может быть разной: от установки какой-либо заставки на рабочий стол компьютера до удаления файлов на жестком диске. На сегодняшний день насчитывается более 70 000 видов компьютерных вирусов.

Отдельные вирус могут нанести огромный вред компьютеру и операционной системе, и вы за пару минут потеряете важную информацию. Современные вирус могут поражать не только программное обеспечение, но и отдельные части компьютера. Например, уничтожить жесткий диск или удалить BIOS.

Оценка напряженности трудового процесса

Осуществляется оценка условий труда по показателям напряженности трудового процесса оператора ПК, который занимается изучением темы дипломного проекта, а так же написание программного средства идентификации личности по голосу.

Критерии оценки:

Нагрузки интеллектуального характера

Содержание работы

При написании дипломного проекта пришлось решать сложные задачи по уже известным алгоритмам, поэтому содержанию работы можно присвоить класс 3.1.

Восприятие информации и их оценка

При написании программного кода и его тестировании нужно было постоянно сопоставлять, что получилось и что должно получиться для того, чтобы программное средство работала правильно. Итог: класс 3.1.

Распределение функций по степени сложности задания

Выполнение работы по написанию диплома сводилось к следующим функциям: обработка материала по теме, реализация задания в программной среде и его проверка. Итог: класс 2.

Характер выполняемой работы

Время на написание диплома было ограниченно достаточно широкими рамками, план на выполнение задания составлялся индивидуально. Итог: класс 1.

Сенсорные нагрузки

Длительное сосредоточение наблюдения

Любой программист не задерживает внимание на чем-либо длительное количество времени, т.е. не более 25% сосредоточенного наблюдения. Итог: класс 1.

Плотность сигналов и сообщений в среднем за 1 час работы

Минимальная плотность сигналов и сообщений за 1 час - не более 75. Итог: 1 класс

Число производственных объектов одновременного наблюдения

Объектами наблюдения при работе за компьютером являются:

монитор (вывод данных);

клавиатура (ввод данных).

Итог: класс 1 (до 5 объектов).

Размер объекта различения при длительности сосредоточенного внимания

К объектам различия можно отнести буквы и символы программного кода на экране монитора, размер которых при стандартном отображении составляет около 5 мм. Итог: класс 1.

Работа с оптическими приборами при длительности сосредоточения наблюдения

Написание программного средства не сопровождается работой с оптическими приборами. Итог: класс 1.

Наблюдение за экраном видеотерминала

В среднем за одну смену программист наблюдает за буквенно-цифровым отображение до 3 часов. Итог: класс 2.

Нагрузка на слуховой анализатор

Исключена нагрузка на слуховой анализатор. Итог: класс 1.

Нагрузка на голосовой аппарат

Исключена нагрузка на голосовой аппарат. Итог: класс 1.

Эмоциональные нагрузки

Степень ответственности за результат собственной деятельности. Значимость ошибки.

Допущенная ошибка не влечет за собой какую-либо опасность для здоровья или жизни человека, так же не привлекает к исправлению данного недочета сторонних лиц. Итог: класс 1.

Степень риска для собственной жизни

Риск для жизни исключен. Итог: класс 1.

Ответственность за безопасность других лиц

Написание программного средства не может привести к нарушению безопасности других лиц. Итог: класс 1.

Количество конфликтных производственных ситуаций за смену

Дипломный проект - индивидуальная работа для одного человека, которая, исключает возникновение конфликтов. Итог: класс 1.

Монотонность нагрузок

Написание программного средства вызывает скорее не монотонные нагрузки, а нервно-эмоциональное напряжение. Итог: класс 1 для всего 4 пункта.

Режим работы

Фактическая продолжительность рабочего дня

Фактическая продолжительность рабочего дня составляла не более 6-7 часов. Итог: 1 класс.

Сменность работы

Односменная работа в дневное время. Итог: класс 1.

Наличие регламентированных перерывов и их продолжительность

Работа за компьютером подразумевает перерывы для отдыха каждые 50 минут. Перерыв по количеству времени составляет более 7% от всего рабочего времени. Итог: класс 1.

Таблица 7.1 Протокол оценки условий труда по показателям тяжести трудового процесса

Показатели напряженности трудового процесса		Класс условий труда
		1	2	3.1	3.2	3.3
Интеллектуальные нагрузки
1.1	Содержание работы			+
1.2	Восприятие сигналов и их оценка			+
1.3	Распределение функции по степени сложности задания		+
1.4	Характер выполняемой работы	+
Сенсорные нагрузки
2.1	Длительность сосредоточенного наблюдения	+
2.2	Плотность сигналов за 1 час работы	+
2.3	Число объектов одновременного наблюдения	+
2.4	Размер объекта различения при длительности сосредоточенного внимания	+
2.5	Работа с оптическими приборами при длительности сосредоточенного наблюдения	+
2.6	Наблюдение за экраном видеотерминала		+
2.7	Нагрузка на слуховой анализатор	+
2.8	Нагрузка на голосовой аппарат	+
Эмоциональные нагрузки
3.1	Степень ответственности за результат собственной деятельности. Значимость ошибки	+
3.2	Степень риска для собственной жизни	+
3.3	Ответственность за безопасность других лиц	+
3.4	Количество конфликтных производственных ситуаций за смену	+
Монотонность нагрузок
4.1	Число элементов, необходимых для реализации простого задания или многократно повторяющихся операций	+
4.2	Продолжительность выполнения простых заданий или повторяющихся операций	+
4.3	Время активных действий	+
4.4	Монотонность производственной обстановки	+
Режим работы
5.1	Фактическая продолжительность рабочего дня	+
5.2	Сменность работы	+
5.3	Наличие регламентированных перерывов и их продолжительность		+
Количество показателей в каждом классе		18	3	2
Общая оценка напряженности труда			+

По итогам наблюдения, была построена таблица (см. Таблица 7.1), в которой представлены результаты и получена общая оценка напряженности труда оператора-программиста ПЭВМ, которая соответствует классу 2 (допустимый) [16].

В этой главе был проведен анализ опасных и вредных факторов при работе с компьютерами предложены мероприятия по улучшению условий труда оператора ПЭВМ и проведена оценка напряженности труда исполнителя. Так же был присвоен класс напряженности труда 2 (допустимый).

Заключение

В данном дипломном проекте было разработано программное средство идентификации личности по голосу. Рассмотрены все методы извлечения признаков из сигнала, а так же их обработка. Изучены теоретические основы биометрической идентификации.

Точность используемого метода составила 95%, что является неплохим результатом для подобных программных средств биометрической идентификации.

Экономические затраты на разработку данного программного средства составили 32639 рублей.

В области безопасности жизнедеятельности была проведена оценка напряженности труда. Был присвоен второй класс напряженности, что является допустимым.

Все цели и задачи, которые были поставлены на этапе постановки задач, были выполнены успешно.

Список используемой литературы

Рамишвили Г.С. Речевой сигнал и индивидуальность голоса. / Тбилиси, 1976, с. 10.

Каганов А.Ш., Михайлов В.Г. Соотношение перцептивных признаков и формативных частот гласных в речевом потоке / Сборник трудов. XIII сессия российского акустического общества. М., 2000, с. 22-27.

Рабинер Л., Гоулд Б. Теория применения цифровой обработки сигналов / изд. "Мир", Москва, 1978, с. 294-483.X., Acero A., Hon H. AGuide to Theory, Algorithm, and System Development / Printice Hall, 2001.

Происхождение и определение кепстра [Электронный ресурс]. URL: http://phviewer.ucoz.net/forum/12-29-1.2.0 [Электронный ресурс]. URL: http://www.speechpro.ru/product/kommercheskaya- biometriya /voicekey.

Кузин М.В. Идентификация по голосу. Скрытые возможности. / Журнал "Information Security", 2006, с. 29.

Михайлов А.А., Колосков А.А., Дронов Ю.И. Основные биометрические системы. / Журнал "Алгоритм безопасности", 2016.

Усынина Т.С. Экономическое обоснование проектных решений вычислительных и программных средств: учебное пособие / Т.С. Усынина - Йошкар-Ола: МарГТУ, 2012.

Постановление правительства Российской Федерации от 1.01.2002 г. №1. [Электронный курс]. URL: https://www.consultant.ru/document/cons_doc_LAW_34710.

Налоговый кодекс Российской Федерации. Статья 256.

СанПиН 2.2.4/2.1.8.562-96. Шум на рабочих местах, в помещениях жилых, общественных зданий и на территории жилой застройки.

СанПиН 2.2.2/2.4.1340-03 "Гигиенические требования к персональным электронно-вычислительным машинам и организации работы" - М.: Информационно-издательский центр Госкомсанэпиднадзора России, 1996.-64с.

ГОСТ 12.1.005-88. ССБТ. Общие санитарно-гигиенические требования к воздуху рабочей зоны - М.: Издательство стандартов, 1988.

Симонович С.В. Информатика. Базовый курс. / СПб., 2000, с. 25-30.2.2.2006-05. Руководство по гигиенической оценке факторов рабочей среды и трудового процесса. Критерии и классификация условий труда.

Программное средство идентификации личности по голосу

Программное средство идентификации личности по голосу

Похожие работы на - Программное средство идентификации личности по голосу