Прогнозирование преждевременного расторжения договоров страхования жизни

  • Вид работы:
    Дипломная (ВКР)
  • Предмет:
    Банковское дело
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    56,31 Кб
  • Опубликовано:
    2016-10-31
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Прогнозирование преждевременного расторжения договоров страхования жизни

Оглавление

Введение

Глава 1. Теоретические предпосылки исследования

.1 Страхование жизни: характеристика и особенности

.2 Причины расторжения договоров

.3 Постановка проблемы

.4 Методы бинарной классификации

Глава 2. Статистические методы моделирования страхования жизни

.1 Методы описательной статистики

.2 Бинарная логистическая регрессия

.3 Регрессия Кокса

.4 Random Forest

.5 Моделирование на основе нейронных сетей

.6 Анализ качества бинарных классификаторов

.7 Проблема несбалансированных выборок

Глава 3. Моделирование расторжения договоров страхования жизни на основе статистических методов

.1 Подготовка информационной базы исследования

.2 Структура страхового портфеля

.3 Модели расторжения договоров страхования жизни

.3.1 Бинарная логистическая регрессионная модель

.3.2 Регрессия Кокса

.3.3 Модель на основе метода Random Forest

.3.4 Нейросетевая модель

.5 Сравнительный анализ моделей расторжения договоров

Заключение

Список литературы

Приложение

Введение

Страхование жизни является неотъемлемой частью в системе страховой защиты интересов человека. Процедура призвана осуществить пенсионное обеспечение и выплаты денежных средств при реализации таких рисков как утрата трудоспособности или потеря кормильца семьи. Страхование жизни на российском рынке страховых услуг является одним из самых быстрорастущих сегментов [1]. Факторами, влияющими на данную ситуацию, могут быть, с одной стороны, снижение доверия граждан к государственной пенсионной системе, а, с другой - стремление в случае непредвиденных обстоятельств или после выхода на пенсию обеспечить себе и близким людям достойный уровень жизни. Но, тем не менее, по мере того, как данный вид страхования приобретает всё большую популярность, в России, становятся актуальными исследования, связанные с предсказанием поведения людей, страхующих свою жизнь.

Понимание и предсказание поведения своего клиента является актуальной проблемой для страхового дела, как и для любого другого бизнеса. Следует отметить, что, не будучи использованной для прогнозирования будущих действий потребителя, любая клиентская база данных не может считаться до конца раскрывшей свой потенциал. Находить закономерности и зависимости в больших массивах исторических данных и делать предсказания насчет поведения клиентов позволяют методы прогностической аналитики. С ее помощью может быть получена информация о потенциальном поведении потребителя, помогающая грамотно организовать работу, связанную с поддержкой договоров страхования жизни.

Актуальность работы обусловлена тем, что выявление среди клиентов страховых компании группы риска, состоящей из людей, более других склонных к расторжению договора страхования жизни, позволяет вести целенаправленную работу по их удержанию. В конечном итоге, данные активности должны привести к уменьшению оттока клиентов и, как следствие, положительно сказаться на финансовых показателях страховой компании.

Объектом исследования является портфель договоров страхования жизни страховой компании.

Предмет исследования - факт расторжения договоров клиентами компании.

Целью данной работы является прогнозирование преждевременного расторжения договоров страхования жизни с учетом параметров договоров и социально-демографических характеристик клиентов.

Для достижения цели необходимо решить следующие задачи:

-подготовить информационную базу к исследованию;

-выявить влияние параметров договоров и социально-демографических характеристик клиентов на факт расторжения договоров страхования;

-разработать модели прогнозирования факта расторжения договоров страхования, учитывающие причины, лежащие в основе события;

-определить оптимальные пороги отсечения для разработанных моделей бинарных классификаторов;

-сравнить полученные модели и выбрать наиболее адекватно предсказывающую факт и причину расторжения.

Структура и объем работы. Данная работа имеет следующую структуру: введение, три главы, заключение, список литературы, состоящий из 49 наименований, и 9 приложений.

В первой главе «Теоретические предпосылки исследования» содержится краткое описание предметной области страхового дела в целом и страхования жизни в частности. Также дана краткая характеристика существующих предиктивных моделей и сформулирована проблема, решаемая в данной работе.

Во второй главе «Статистические методы моделирования страхования жизни» дано теоретическое описание используемых математических моделей предиктивной аналитики и описательной статистики.

В третьей главе «Моделирование расторжения договоров страхования жизни на основе статистических методов» проиллюстрированы результаты применения предиктивных моделей на практике, проанализировано качество каждой из них и сделан вывод о наиболее подходящей предиктивной модели.

Глава 1. Теоретические предпосылки исследования

.1 Страхование жизни: характеристика и особенности

страхование жизнь регрессия клиент

Обществом были разработаны два основных способа защиты своих интересов с целью предотвращения убытков от непредвиденных событий: превентивный и репрессивный [2]. Первый способ - превентивный - предполагает предупреждение реализации негативных рисков. Второй способ - репрессивный - связан с минимизацией неблагоприятных последствий непредвиденного события. Несмотря на то, что в рамках страховой деятельность могут финансироваться меры по предотвращению нежелательных событий, её главной целью остается возмещение полученного материального ущерба. В сущности, страхование является особым видом экономической деятельности, связанной с перераспределением риска нанесения ущерба материальным интересам. Данный вид деятельности осуществляется специализированными организациями, обеспечивающими накопление страховых резервов и страховые выплаты при реализации негативных рисков [3].

Федеральный закон «Об организации страхового дела в Российской Федерации» выделяет следующие основные субъекты страхования: страхователи и страховщики [4]. Страхователями являются заключившие со страховщиками договоры страхования юридические лица и дееспособные физические лица. Страховщиками являются страховые организации, которые занимаются следующими активностями:

-оценка страховых рисков;

-получение страховых премий;

-формирование страховых резервов;

-инвестиционная деятельность;

-осуществление страховых выплат.

В рамках страхования выделяется личное страхование - отрасль, обеспечивающая защиту имущественных интересов граждан [4]. Данный сегмент страхования связан с желанием людей иметь семейные сбережения, а также со следующими социальными рисками: наступление смерти кормильца или члена семьи или наступление серьезных проблем со здоровьем.

В свою очередь, страхование жизни является подотраслью личного страхования. Данная процедура предполагает обязательство страховщика заплатить обозначенную сумму денег в случае смерти страхователя или его дожития до определенного возраста в обмен на уплату страховых премий [5]. Иными словами, страховым случаем в страховании жизни считается смерть до окончания действия договора или продолжающаяся жизнь (дожитие) застрахованного после этого срока.

Следует отметить, что страхование жизни является добровольным видом страхования. Данная процедура осуществляется путем оформления договора, который предусматривает обязательство страховщика посредством получения страховых премий, уплачиваемых страхователем, выплатить страховую сумму, если в течение срока действия договора произойдет предусмотренный страховой случай.

Страхование жизни подразумевает разные виды обязательств страховщика перед страхователем. Их можно разделить на две группы: страхование капитала (сумм) и страхование ренты (аннуитетов) [6]. Страхование капиталов предусматривает выплату страховой суммы при дожитии до окончания срока страхования или в случае смерти застрахованного указанным им третьим лицам. Характерной особенностью страхования ренты является обязательство страховщика выплачивать страхователю некоторый доход в фиксированном размере с периодичностью, предусмотренной в договоре страхования.

1.2 Причины расторжения договоров

Удержание клиента, заключившего договор страхования жизни, является актуальной проблемой для страховщика. Прекращение выплаты установленной премии и расторжение договора могут быть обусловлены как личными причинами клиента, так и экономической ситуацией в стране. Однако, такой исход отношений между страхователем и страховщиком не выгоден ни одному из субъектов. Во-первых, клиент, расторгнувший договор, получает выкупную сумму, закрепленную в договоре, и некоторый инвестиционный доход. Однако это, в любом случае, будет меньше той суммы, которая была уплачена страхователем. Во-вторых, досрочный разрыв договора страхования жизни заставляет страховую компанию забирать денежную сумму из страхового резерва и, следовательно, лишаться средств для инвестирования.

Следует отметить, что разрыв договора страхования может происходить по ряду причин, среди которых можно выделить следующие:

-расторжение договора по собственному желанию;

-расторжение договора из-за неуплаты очередного взноса;

-расторжение в связи со смертью страхователя;

-расторжение из-за дожития страхователя до окончания договора;

-отказ от страхования в течение 30 дней;

-отказ от страхования на стадии написания заявления.

Расторжения договора по каждой из вышеописанных причин имеют разное влияние на страховщика. Так, например, если клиент разрывает договор в течение первого месяца его действия или договор страхования жизни срывается на этапе написания заявления, компания не несет больших убытков. Также договор, расторгнутый из-за смерти или дожития клиента, воспринимается как один из ожидаемых и стандартных сценариев развития отношений со страхователем и не создает проблем для работы компании. В то же время, разрыв контракта из-за неуплаты премии или по собственному желанию клиента приводит к описанным ранее негативным последствиям и для страховщика, и для страхователя. Именно поэтому в данной работе исследуются только два данных типа расторжения договоров.

Таким образом, определение среди страхователей тех, кто более всего подвержен риску преждевременного расторжения договора по собственному желания или из-за неуплаты, может уменьшить количество потерянных клиентов. Это, в свою очередь, должно улучшить финансовые показатели страховой компании. После выделения клиентов, находящихся в группе риска, может быть предпринят ряд мер, направленных на их удержание. К таким активностям можно отнести смену валюты премии или «финансовые каникулы», представляющие собой отсрочку очередного страхового взноса без расторжения договора.

1.3 Постановка проблемы

Проблемой, которая решается в данной работе, является недополучение прибыли от выплат страховых премий по договорам, вызванное их досрочным расторжением. Решение проблемы достигается путем разработки модели, прогнозирующей досрочное расторжение договоров страхования жизни. С клиентами, классифицированными как наиболее склонными к расторжению договора страхования жизни, сотрудники компании смогут вести дополнительную работу, направленную на удержание. Подобные активности могут привести к увеличению лояльности клиентов, уменьшению числа расторгнутых договоров и, как результат, повышению прибыльности бизнеса страховой компании.

В качестве информационной базы исследования выступает набор из 15688 договоров страхования жизни одной из крупнейших страховых компаний России за период с 2008 по 2015 год.

В рамках данной модели прогнозируется не только факт расторжения, но и его причина, то есть расторжение договора по собственному желанию или из-за неуплаты страховых взносов. Иными словами, разрабатываемые модели для каждого клиента страховой компании вычисляют как вероятность расторжения по собственному желанию, так и вероятность расторжения из-за неуплаты страховой премии. Данное разделение предсказываемого события, а именно факта расторжения договора, на два различных действия обусловлено следующими соображениями. Клиент, отказывающийся от договора по собственному желанию, и клиент, перестающий платить премию, очевидно, имеют различные мотивы подобного поведения и, следовательно, требуют разного подхода удержания. Дифференциация причин расторжения позволит более грамотно разработать политику поведения с такими клиентами.

Задачами построения подобных предсказательных моделей занимается прогнозная аналитика. Она представляет собой набор статистических методов моделирования, машинного обучения и Data mining, которые изучают исторические данные для прогнозирования будущих событий [7]. Гарет Хершел, директор по исследованиям Gartner: Прогнозная аналитика помогает связать данные с эффективными действиями, делая достоверные выводы о текущих условиях и будущих событиях [8]. В сущности, целью предиктивных моделей является формирование оценки вероятности определенного поведения элемента выборки в зависимости от его заданных характеристик.

В рамках данной работы задача построения модели предсказания причины расторжения сводится к двум задачам бинарной классификации. Бинарной называется классификация с зависимой переменной, которая может принимать только два значения. Иными словами, это задача, в рамках которой решается вопрос о принадлежности объекта к одному из двух классов [9]. Строго говоря, предсказание типа расторжения - это задача многомерной классификации, то есть, решающая вопрос о принадлежности к одному из трех и более классов [10]. Это объясняется тем, что зависимая переменная принимает три возможных значения:

Однако существует ряд способов сведения задачи многомерной классификации к бинарной [11]. В данном случае сведение производится следующим образом. Создаются две отдельные зависимые переменные, каждая из которых идентифицирует одну из двух причин расторжения. Переменная является зависимой для предсказания расторжения по желанию, - для предсказания расторжения из-за неуплаты:



В качестве инструментов для построения моделей использовалось программное обеспечение для статистического анализа IBM SPSS Statistics версии 22 [12] и программное обеспечение для прогнозной аналитики IBM SPSS Modeler версии 18.0 [13].

1.4 Методы бинарной классификации

Существует множество методов прогнозного моделирования, наиболее известные из которых следующие:

)Наивный байесовский классификатор

)Метод k ближайших соседей

)SVM

4)Искусственная нейронная сеть

)Логистическая регрессия

6)COX

)Пробит-регрессия

)Метод дерева решений

9)Random forest

Рассмотрим основные характеристики этих методов.

Наивный байесовский классификатор (naive Bayes classifier) - особый случай байесовского классификатора. Обширная группа алгоритмов байесовской классификации основана на принципе максимума экспериментальной вероятности. Суть класса методов заключается в вычислении функций правдоподобия каждого из классов для объекта выборки, по ним рассчитывается экспериментальные вероятности классов. Класс с максимальной вероятностью и считается предсказанным классом объекта [14]. Отличительной особенностью наивного классификатора является дополнительное предположение, что n статистически независимых характеристик описывают объекты выборки , где n - количество характеристик объекта. Функции правдоподобия для каждой из предсказываемых категорий могут быть записаны в виде


где - плотность распределения значений j-го признака для класса y . Эта запись непосредственно выражает предположение о независимости характеристик объекта.

Основные преимущества наивного байесовского классификатора - простота реализации и невысокая вычислительная сложность алгоритма и при обучении, и при классификации. Недостатком метода является неудовлетворительное качество классификации для многих реальных выборках. Метод чаще применяют в качестве простейшего эталон для сравнения с другими моделями [15].

Метод k ближайших соседей (k-nearest neighbor algorithm) представляет собой примитивный метрический классификатором для определения класса объектов. Алгоритм был предложен в работе Фикса и Ходжеса [16] в 1951 году. Под метрическим классификатором подразумевается алгоритм, построенный на оценке сходства между объектами выборки. В рамках данного метода должна быть введена метрика расстояния между объектами исследуемой выборки , где и - непосредственно наблюдения. Следует отметить, что подбор метрики является одним из важнейших аспектов применения этого алгоритма на практике [17].

Метод ближайших соседей выделяется среди метрических классификаторов тем, что процесс классификации объекта заключается в выборе класса, к которому относятся ближайшие к объекту наблюдения. Более точно, выбирается та категория, которой принадлежит большая часть соседей. На практике количество анализируемых соседних наблюдений устанавливают нечетным, для недопущения двусмысленности в ситуации, когда одинаковое число соседей принадлежат разным классам [18].

Среди преимуществ данного метода можно выделить устойчивость к влиянию выбросов в выборке, что обусловлено малой вероятностью для такого наблюдения оказаться среди k-ближайших соседей, несложная программная реализация и широкий простор для модификации алгоритма с помощью подбора наиболее подходящих метрик для рассматриваемой задачи. В свою очередь, главным недостатком является потребность использовать все наблюдения для классификации одного лишь объекта, что значительно усложняет практическое применение алгоритма [14].

Метод опорных векторов (Support Vector Machine, SVM) - представляет собой класс алгоритмов обучения, который применяется для классификации и регрессионного анализа. Метод был предложен В. Н. Вапником в 1998 году [19]. Каждое наблюдение выборки - это вектор в n-мерном пространстве, где n - это количество характеристик объекта. Суть метода заключается в рассмотрении векторов изучаемой выборки в пространстве с более высокой размерностью и нахождение разделяющей гиперплоскости с максимальным зазором в этом пространстве. По сторонам выделенной на одном из этапов алгоритма гиперплоскости, намечаются две параллельных гиперплоскости. В качестве искомой принимается плоскость, обеспечивающая наибольшее расстояние между двумя параллельными гиперплоскостями. Важное предположение данного метода - это зависимость между небольшой ошибкой классификации и большим расстоянием между гиперплоскостями [20]. Достоинством этого метода является несложная программная реализация и большое количество модификаций для конкретных задач. Серьезным недостатком является сложность настройки.

Искусственная нейронная сеть (ИНС) представляет собой математическую модель, идея которой базируется на организации биологических нейронных сетей - сетей нервных клеток живого организма [21]. Нейронная сеть является системой искусственных нейронов, которые соединены и взаимодействуют между собой. Элементы нейронной сети могут либо получать сигналы от других элементов, либо посылать сигналы другим. Несмотря на простоту устройства отдельного искусственного нейрона, сеть, состоящая из множества таких элементов способна решать довольно сложные задачи. [22]. Решение конкретных задач, в том числе и классификационных, возможно благодаря обучению нейронной сети на имеющейся выборке. Формально, обучение сводится к поиску коэффициентов связей между нейронами, влияющих на передачу сигналов. На обучающей выборке модель способна выявлять нетривиальные зависимости между входами и выходами, а также выполнять обобщение. Следует отметить, что нейронные сети получили широкое распространение в интеллектуальном анализе данных.

Логистическая регрессия (Logistic regression) - метод классификации, позволяющий оценивать экспериментальные вероятности принадлежности объектов к одному из двух классов. Определение категории проводится с помощью подгонки данных к логистической кривой. Модель была разработана Дэвидом Коксом в 1958 году [23]. В рамках данного метода вычисляется вероятность попадания в искомую категорию, то есть непрерывная переменная со значениями на отрезке {0,1} при любых значениях независимых переменных. Это достигается благодаря применению логистической функции [24]:


где z - взвешенная сумма предикторов. В свою очередь, для поиска весов используется метод максимального правдоподобия, в рамках которого максимизируется функция правдоподобия на обучающей выборке.

В качестве преимуществ модели можно отметить следующие факторы: логистическая регрессия не требует от зависимой или независимых переменных иметь нормальное распределение; логистическая регрессия не ограничивается линейной формой; результаты модели легко интерпретируются. В свою очередь, недостатками модели являются склонность к переобучению и требовательность к размеру выборки для обеспечения стабильной работы алгоритма [14].

Пробит-регрессия (Probit regression) -метод анализа зависимости качественных предсказываемых переменных от множества факторов, основанный на нормальном распределении. Была представлена Честером Блиссом в 1934 году [25]. Пробит-регрессия схожа с логистической регрессией, отличием является иной выбором функции . В пробит-модели принадлежность объекта к классу определяется нормальным распределением. Таким образом, в рамках модели, данная вероятность имеет следующий вид [26]:


где - интегральная функция стандартного нормального распределения, - характеристики объекта, b - весовые параметры модели, которые требуется оценить. По аналогии с логистической моделью, оценка производится методом максимального правдоподобия. Достоинства и недостатки модели аналогичны логистической регрессии.

Регрессия Кокса (Cox regression) или модель пропорциональных рисков - метод из области анализа наступления события (АНС, Event History Analysis). В рамках данного направления исследуется влияние на риск наступления или не наступления события таких факторов как продолжительность нахождения в группе риска и ряд индивидуальных характеристик объекта. В данном методе риск наступления события характеризует степень правдоподобности его наступления в ближайшем будущем для наблюдений из группы риска. Метод был предложен Дэвидом Коксом в 1972 году [27].

Риск наступления события для i-того объекта вычисляется в соответствии со следующей формулой [28]:


где - базовый риск, одинаковый для всех объектов;

- коэффициенты при предикторах;

- предикторы.

Метод дерева решений (Decision tree) - метод, связывающий известные характеристики объекта с целевым показателем с использованием решающего дерева. Модели, в которых зависимая переменная носит качественный характер, называются классификационными деревьями [29]. На данный момент существует немало различных алгоритмов построения деревьев, среди которых: CART [30], CHAID [31], C4.5 [32], ID3 [29]. На ребрах решающего дерева решения записаны предикторы, от которых зависит предсказываемая переменная, в терминальных узлах указаны ее значения. Другие узлы содержат предикторы, по которым различаются случаи. Для оценки категории, к которой относится новый объект, требуется пройти по дереву от корневого до терминального узла и получить предсказанное значение, соответствующее терминальному узлу. Подобные деревья решений получили широкое распространение в интеллектуальном анализе данных.

К числу достоинств модели можно отнести простоту интерпретации и наглядность, а также возможность работать как с качественными, так и с количественными объясняющими переменными. Среди недостатков модели можно выделить следующие: склонность к переобучению и назначение большего веса тем категориальным атрибутам объекта, которые содержат много значений.

Random forest - алгоритм машинного обучения, использующий в своей работе ансамбль деревьев решений. Алгоритм был предложен в 2001 году Лео Брейманом [33]. Метод базируется на построении множества деревьев решений, для создания каждого из которых используется фиксированное количество объясняющих переменных, выбираемых случайно. Выбор класса объекта осуществляется путем голосования каждого дерева решений из ансамбля. В целом, вероятность корректной классификации зависит от разнообразия отдельных классификаторов из набора [14]. Среди основных достоинств этого метода можно выделить невысокую требовательность к объему выборки, простоту настройки алгоритма и возможность работать с данными разных типов как категориальными, так и количественными. Основным недостатком модели является требовательность к памяти для хранения модели.

В качестве моделей для разработки классификаторов были выбраны следующие методы:

-Логистическая регрессия - является достаточно распространенным и классическим инструментом для бинарной классификации. В рамках работы может рассматриваться как некая базовая модель. В отличие от наивного байесовского классификатора, модель может на практике давать удовлетворительные результаты, поэтому имеет смысл использовать ее с вышеуказанной целью.

-Регрессия Кокса - алгоритмы в рамках анализа наступления событий изначально разработаны для того, чтобы учитывать длительность нахождения в той или иной категории (расторгнут / не растогнут). Также эти алгоритмы часто используются для моделирования оттока клиентов, что близко к рассматриваемой задаче.

-Random Forest - модель потенциально отличается высокой точностью при правильной настройке, а также не требовательна к величине выборки. Также позволяет работать как с количественными, так и категориальными переменными.

-Нейронная сеть - данная модель выбрана в исполнении многослойного перцептрона. Данная модель архитектуры выбрана, поскольку является довольно простой, однако может справляться с разными классификационными задачами и показывать высокую точность [22].

страхование жизнь регрессии клиент

Глава 2. Статистические методы моделирования страхования жизни

.1 Методы описательной статистики

Методы описательной статистики позволяют выявить влияние различных параметров договоров и характеристик клиентов на факт расторжения договоров страхования. В описательной статистике можно выделить три основных метода агрегирования данных:

-табличное представление;

-графическое изображение;

-расчет статистических показателей.

В работе для описания статистических характеристик исследуемой базы используются таблицы сопряжённости. С их помощью изучается связь между качественными переменными путем табличного представления их совместного распределения. Также, для поиска связи между категориальными переменными используется критерий согласия Пирсона (критерий согласия ).

Для применения данной процедуры проверки гипотез с использованием критерия согласия предусматривает группирование наблюдений [34]. Более точно, непересекающихся интервалов выделяются на области определения случайной величины со следующими граничными точками . В данном случае является нижней гранью области определения случайной величины, а- верхней.

Далее подсчитывается число выборочных значений, попавших вi-й интервал, и вероятности попадания в интервал


соответствующие теоретическому закону с функцией распределения .

Статистика критерия согласия Пирсона определяется следующим соотношением:


В случае, когда гипотеза об одинаковом распределении величин принимается или, иными словами, отсутствует связь между рассматриваемыми категориальными переменными, вышеуказанная статистика подчинена распределению с степенями свободы.

2.2 Бинарная логистическая регрессия

Логистическая регрессия является одним из примеров множественной регрессии. Целью данного метода является поиск зависимости между предикторами и зависимой переменной. Отличительной особенностью бинарной логистической регрессии является характер предсказываемой переменной - она принимает только два значения. Как правило, это 0 и 1, соответствующие некоторой категории объекта, которую требуется предсказать. Для достижения поставленной цели метод предсказывает не саму категорию для каждого наблюдения, а экспериментальную вероятность попадания в искомую категорию (скажем, это категория, закодированная под значением «1»). Иными словами, логистическая регрессия вычисляет непрерывную величину на отрезке . [23].

Для формирования подобной величины предполагается, что вероятность наступления события, закодированного с помощью значения «1» равна [24]:


где ;

- значения предикторов объекта;

- неизвестные коэффициенты регрессии, нахождение которых и является основной задачей бинарной логистической регрессии;

зависимость, имеющая форму логистической функции:


В свою очередь, вероятность события, закодированного под значением «0» равна:

.

Для нахождения коэффициентов логистической регрессии требуется провести тренировку модели на обучающей выборке. Обучающая выборка представляет собой набор пар и , где - это фактическое значение предсказываемой переменной, а - это вектор предикторов для конкретного объекта. Таким образом, необходимо сформировать набор обучающих примеров.

Далее на обучающей выборке применяется метод максимального правдоподобия. Метод заключается в подборе таких значений коэффициентов , при которых достигает максимального значение функции правдоподобия на обучающих примерах. Данная процедура выглядит следующим образом:


Следует отметить, что максимизация логарифма функции правдоподобия эквивалентна максимизации её самой:

В данной модели может быть использован метод градиентного спуска с целью нахождения максимального значения функции. В данной процедуре выполняются следующие итерации, начиная с некоторого начального набора значений коэффициентов регрессии :


Интерпретация полученных коэффициентов происходит следующим образом: при увеличении i-го предиктора на 1, шансы того, что произойдет событие, закодированное значением «1» умножаются на . Это обосновывается тем, что шансы равны отношению вероятности наступления события к вероятности ненаступления события, а вероятность наступления равна .

Важным этапом построения модели бинарной логистической регрессии является оценка качества подгонки. Следует отметить, что в аналогичной задаче в линейной регрессии используется коэффициент детерминации . Для бинарной логистической регрессии разработан ряд показателей для оценки качества подгонки, в том числе несколько псевдо-:

)- 2 Log Правдоподобие );

) Кокса и Снелла (Cox, Snell, );

) Найджелкерка (Nagelkerke, ).

Показатель вычисляется по следующей формуле [35]:

Данный показатель распределен асимптотически как . Меньшее значение соответствует лучшему качеству подгонки, оно уменьшается с увеличением правдоподобия модели.

Еще одним показателем качества модели является Кокса и Снелла, рассчитываемый по следующей формуле:


где и - значения правдоподобия соответственно для построенной в рамках логистической регрессии модели и нулевой модели,

- количество наблюдений.

Основным недостатком показателя Кокса и Снелла является то, что он не превышает 0.75 [36].

Еще один псевдо - это Найджелкерка, представляющий собой модифицированную версию Кокса и Снелла. Отличие заключается в том, что значение показателя может достигать 1 [37]. Вычисляется Найджелкерка следующим образом:


2.3 Регрессия Кокса

Регрессия Кокса (Cox regression), также называемая моделью пропорциональных рисков, - метод из области анализа наступления события (АНС, Event History Analysis). Основная задача, которая решается в рамках данного направления - это изучение влияния на риск наступления или не наступления события таких факторов как продолжительность нахождения в группе риска и ряд индивидуальных характеристик объекта.

В анализе наступления событий часто используется понятие цензурированные данные. Этот термин был впервые использован в работе Hald в 1949 году [38]. Цензурированными (неполными) называют данные, в которых отсутствует информация о времени окончания анализируемого процесса. В свою очередь, нецензурированные (полные) данные содержат полную информацию о времени завершения процесса.

Цензурированные данные типичны, когда исследуется время до наступления определённого события и время исследований ограничено. Цензурированные наблюдения встречаются во многих областях.

В данном методе риск наступления события характеризует степень правдоподобности его наступления в ближайшем будущем для наблюдений из группы риска. Метод был предложен Дэвидом Коксом в 1972 году [39].

Риск наступления события для i-того объекта вычисляется в соответствии со следующей формулой [28]:

или

где - базовый риск, одинаковый для всех объектов;

- коэффициенты при предикторах;

- предикторы.

Базовый риск - риск наступления события для объекта из референтной группы (для которого все независимые переменные равны нулю). Коэффициенты отражают влияние каждой из независимых переменных (регрессоров) на функцию риска: при увеличении на единицу и фиксированных значениях остальных регрессоров, риск наступления события возрастает в раз.

2.4 Random Forest

Random Forest - это алгоритм машинного обучения, использующий в своей работе ансамбль деревьев решений. Алгоритм был предложен в 2001 году Лео Брейманом [33]. Метод базируется на построении множества деревьев решений, для создания каждого из которых используется фиксированное количество объясняющих переменных, выбираемых случайно.

В данной методике используется термин ансамбль деревьев. В сущности, он является ансамблем классификаторов, каждый из которых может принимать решение об отнесении объекта к одной из изучаемых категорий. Итоговый результат получается с помощью учета решения каждого из классификаторов. Модель случайного леса использует в качестве такого базового классификатора деревья решений, которые строятся определенным образом.

Рассмотрим алгоритм работы данного метода. Набор обучающих примеров имеет размер N, количество характеристик наблюдения равно M, и задан параметр m равный . Каждое из случайных деревьев генерируется независимо по следующему алгоритму [14]:

Шаг 1. Из набора примеров генерируется подвыборка размером N. Это достигается благодаря случайным повторениям некоторых обучающих примеров.

Шаг 2. На этом этапе строится непосредственно дерево решений. Как говорилось выше, для его построения используются не все предикторы, а лишь их фиксированное число. В качестве этого показателя используется параметр m, заданный выше. Из всех случайным образом выбираются m предикторов, на основе которого и строится это дерево. В ходе создания решающего дерева ранжирование выбранных признаков может производиться с помощью разных критериев таких как критерий Джини (Gini) [40] или критерий прироста информации (IG, Information gain) [41].

Шаг 3. Дерево строится до тех пор, пока все элементы выборки не войдут в его терминальные узлы. Что характерно, построенное дерево не подвергается процедуре отсечения ветвей.

В рамках построения модели оптимальное число деревьев определяется в соответствии с условием минимизации ошибки на тестовой выборке. После того, как все деревья в ансамбле построены, для объектов может быть построен прогноз наиболее вероятного события. Каждое из деревьев решений делает свой прогноз о категории, к которой следует отнести наблюдение. В качестве результата по данному объекту выбирается та категория, которая была предсказана большим числом деревьев.

Основная причина популярности этого метода и интереса к нему заключается в том, что ансамбли позволяют достичь большей точности, чем каждое из деревьев по отдельности. А для достижения высокой точности модели главными условиями являются, во-первых, точность самих деревьев, что очевидно, а во-вторых, разнообразие сгенерованных классификаторов, что выражается в совершении ошибок на разных обучающих примерах.

2.5 Моделирование на основе нейронных сетей

Существует немало разновидностей нейронных сетей, для исследования был выбрана модель перцептрона, что обусловлено его возможностями, гибкостью и легкостью использования. Перцептрон базируется на математической модели восприятия информации мозгом, предложенная Фрэнком Розенблаттом в 50е годы. С точки зрения математики, задача, которую решает перцептрон - это разделение нелинейных множеств линейно [21].

Перцептрон состоит из трех типов элементов: S-элементов, -элементови одного -элемента [22]. -элементы- это слой сенсоров, или рецепторов. -элементы называются ассоциативными, потому что каждому такому элементу, как правило, соответствует целый набор (ассоциация) -элементов. Когда на входе -элемента количество сигналов от -элементов превышает некоторую величину он активизируется. Сигналы от возбудившихся -элементов, в свою очередь, передаются в сумматор , причём сигнал от -го ассоциативного элемента передаётся с коэффициентом . Этот коэффициент называетсявесом связи.

элементом вычисляется сумма значений входных сигналов, помноженных на веса. -элемент, а вместе с ним и элементарный перцептрон, выдаёт , если линейная форма превышает порог , иначе на выходе будет . Математически, функцию, реализуемую -элементом, можно записать так:


Нахождение весовых коэффициентов связей и составляет обучение элементарного перцептрона. Веса связей (которые могут принимать значения ) и значения порогов -элементов выбираются случайным образом в самом начале и затем не изменяются.

После того, как перцептрон был обучен, он может распознавать объекты, которые не встречались ему ранее в обучающей выборке. Распознавание заключается в присвоении новому объекту один из двух классов принадлежности. Функционирование перцептрона в данном режиме состоит в следующем: при предъявлении объекта, возбудившиеся -элементы передают сигнал -элементу, равный сумме соответствующих коэффициентов . Объект относится к первому классу, если полученная сумма положительна. В противном случае - объект относится ко второму классу.

Многослойный перцептрон - частный случай вышеописанной модели, в котором все слои обучаются одним алгоритмом обратного распространения ошибки [42]. Главной особенностью данной модели является присутствие в её структуре нескольких обучающих слоев (двух или трех). Чтобы получить линейную разделимость, в теории достаточно и одного скрытого слоя для перекодировки входного представления. Из этого следует, что нет необходимости в большом количестве обучаемых слоев.

2.6 Анализ качества бинарных классификаторов

ROC-кривая (Receiver Operator Characteristic) - кривая, которая наиболее часто используется для представления результатов бинарной классификации. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров [43]. В бинарной задаче классификации на выходе может наблюдаться четыре различных ситуации:

-Если результат классификации положительный, и истинное значение тоже положительное, то речь идет об истинно-положительном значении (true-positive, TP)

-Если результат классификации положительный, но истинное значение отрицательное, то речь идет о ложно-положительном значении (false-positive, FP)

-Если результат классификации отрицательный, и истинное значение тоже отрицательное, то речь идет об истинно-отрицательном значении (true-negative, TN)

-Если результат классификации отрицательный, но истинное значение положительно, то речь идет о ложно-отрицательном значении (false-negative, FN)

При анализе чаще оперируют не абсолютными показателями, а относительными - долями, выраженными в процентах:

-Доля истинно положительных примеров (True Positives Rate):

-Доля ложно положительных примеров (False Positives Rate):


В ROC-анализе также используются понятия чувствительность и специфичность модели, которыми определяется объективная ценность любого бинарного классификатора:

-Чувствительность (Sensitivity) - это доля истинно положительных случаев:


-Специфичность (Specificity) - доля истинно отрицательных случаев, которые были правильно идентифицированы моделью:


Модель с высокой чувствительностью часто дает истинный результат при наличии положительного исхода (обнаруживает положительные примеры). Наоборот, модель с высокой специфичностью чаще дает истинный результат при наличии отрицательного исхода (обнаруживает отрицательные примеры).кривая получается следующим образом:

.Для каждого значения порога отсечения, которое меняется от 0 до 1 с шагом , рассчитываются значения чувствительности и специфичности .

.Строится график зависимости: по оси откладывается чувствительность , по оси - (сто процентов минус специфичность).

Для идеального классификатора график ROC-кривой проходит через верхний левый угол, где доля истинно положительных случаев составляет 100% или 1.0, а доля ложно положительных примеров равна нулю. Поэтому чем ближе кривая к верхнему левому углу, тем выше предсказательная способность модели. При визуальной оценке ROC-кривых расположение их относительно друг друга указывает на их сравнительную эффективность. Кривая, расположенная выше и левее, свидетельствует о большей предсказательной способности модели.

Визуальное сравнение кривых ROC не всегда позволяет выявить наиболее эффективную модель. Еще одним методом сравнения ROC-кривых является оценка площади под кривыми. Теоретически она изменяется от до , но, поскольку модель всегда характеризуются кривой, расположенной выше положительной диагонали, то обычно говорят об изменениях от ("бесполезный" классификатор) до ("идеальная" модель). Эта оценка может быть получена непосредственно вычислением площади под многогранником, ограниченным справа и снизу осями координат и слева вверху - экспериментально полученными точками. Численный показатель площади под кривой называется (Area Under Curve) и его можно вычислить по следующей формуле:


С некоторыми допущениями можно считать, что чем больше показатель , тем лучшей прогностической силой обладает модель. Однако следует учитывать, что:

-показатель предназначен скорее для сравнительного анализа нескольких моделей;

- не содержит никакой информации о чувствительности и специфичности модели.

Помимо вышеуказанных показателей для оценки классификаторов используются Точность (precision) и полнота (recall) [44]. На практике возможно как их самостоятельное использование, так и в качестве базиса для составления других метрик, таких как F-мера

Эти значения легко рассчитать следующим образом [45]:



Иногда бывает полезно объединить точность и полноту в одной усреднённой величине. Для этой цели среднее арифметическое не подходит, так как, например, поисковой системе достаточно вернуть вообще все документы, чтобы обеспечить равную единице полноту при близкой к нулю точности, и среднее арифметическое точности и полноты будет не меньше 1/2. Среднее гармоническое не обладает этим недостатком, поскольку при большом отличии усредняемых значений приближается к минимальному из них и вычисляется по следующей формуле.


Помимо оценки качества построенного бинарного классификатора важной задачей является выбор правильного порога отсечения (cutoff value). Как правило, в алгоритмах классификации по умолчанию установлен порог 0.5, что означает следующее: если вероятность попадания в целевую категорию больше или равна 50%, то его следует отнести к этой категории, в противном случае - ко второй категории. Однако, очевидно, что изменение этого порога может изменить и долю верных предсказаний, и соотношение ошибок первого и второго родов.

Существуют разные подходы к выбору оптимального порога, например использование статистики Юдена [46], минимизация взвешенных ошибок неправильной классификации [47] или использование показателя F-мера. В общем случае выбор подхода зависит от относительных цен ошибок первого и второго родов. В данной ситуации в качестве критерия оптимальности для порога отсечение было выбрано равенство ошибок первого и второго рода. Иначе, равенство долей истинно положительных и истинно отрицательных предсказаний. Это обусловлено тем, что, несмотря на необходимость выявлять среди клиентов тех, кто потенциально готов разорвать договор, следует учитывать то, что удержание клиента стоит определенных средств для компании. Именно поэтому должен соблюдаться баланс между ошибками первого и второго родов.

На практике данная задача сводится к поиску порога отсечения, который обеспечивает минимальную разницу между долями истинно положительных и истинно отрицательных предсказаний. Для этого проводится эксперимент, в рамках которого на построенных моделях проверяются разные пороги отсечения от 0 до 1 с шагом в 0.01. Для каждого порога вычисляются характеристики точности модели, и далее выбирается тот порог, который обеспечивает минимальную разницу между долями истинно положительных и истинно отрицательных прогнозов.

2.7 Проблема несбалансированных выборок

Использование несбалансированных обучающих выборок может привести к тому, что модель будет склонна большую часть наблюдений классифицировать как представителя наибольшей категории [48]. Часто для решения подобной проблемы используют один из двух методов: увеличение численности меньшего класса (oversampling) и уменьшение численности наибольшего класса (undersampling).

Рассмотрим оба этих метода. В рамках метода undersampling обучение проводится на всех наблюдениях из меньшего класса и на отобранных наблюдениях большего класса [49]. Чаще всего количество отобранных объектов большего класса равняется по величине количеству элементов наименьшего класса. Самым распространенным и простым методом отбора элементов большего класса является случайный выбор наблюдений. При уменьшении большего класса происходит существенное сокращение тренировочной базы. Следствие этого - сокращение времени работы классификатора. Однако это может вызвать потерю информации и, как результат, уменьшить точность классификатора.

Метод увеличения меньшего класса (oversampling) заключается в добавлении в тренировочную базу его дублей, выбранных случайным образом [49]. Преимущество такого метода заключается в отсутствии потерь информации. Тем не менее, недостатком является значительное увеличение тренировочной базы, что ведет к увеличению времени работы алгоритма классификации и требуемых ресурсов компьютера.

Для данного исследования был выбран метод увеличения меньшей выборки. Это обусловлено, во-первых, тем, что при таком подходе не теряется информация, а, во-вторых, требуемые ресурсы компьютера в данном исследовании не столь критичны, поскольку даже в увеличенном виде обучающая выборка не будет превышать 25000 наблюдений. Следует уточнить, что увеличение меньшего класса производится на обучающей выборке, а тестовая выборка остается с прежними пропорциями предсказываемых классов.

Глава 3. Моделирование расторжения договоров страхования жизни на основе статистических методов

.1 Подготовка информационной базы исследования

В работе используется информационная база, состоящая из портфеля договоров страховой компании. База содержит в себе данные о клиентах: их социо-демографические показатели и характеристики заключенных со страховой компанией договоров. Полный список переменных, содержащихся в базе, приведен в Приложении 1. Рассмотрим некоторые важные для исследования показатели. База содержит следующие атрибуты, имеющие отношение к социально-демографическим показателям: пол, возраст, семейное положение, должность, сфера занятости и город заключения договора. Также база содержит следующие атрибуты договоров: дата начала и окончания сотрудничества, факт и причина расторжения, страховой продукт, валюта договора, периодичность оплаты страховой премии, срок договора, величина премии и некоторые другие денежные атрибуты. Кроме того, на основе количественных переменных, описывающих возраст, срок договора, первоначальную выплачиваемую премию, текущую премию, итоговое количество денег, полученное от клиента, были созданы интервальные категориальные переменные.

Следует отметить, что в исследуемой базе не все записи о договорах содержат полный набор данных, описанный выше. Так, например, в 64% наблюдений отсутствует информация о сфере занятости клиента. Кроме того, данные о семейном положении и должности отсутствуют в 9 и 13% случаев соответственно. Так как отсутствующие значения могут исказить результаты моделирования, переменная, описывающая сферу деятельности клиента, исключена из числа потенциальных предикторов. Однако семейное положение и должность клиента являются немаловажными социально-демографическими характеристиками, поэтому переменные не исключены из рассмотрения. Тем не менее, в связи с отсутствующими значениями объем информационной базы уменьшился с 15688 до 13219 записей.

Для осуществления предсказания расторжения контракта по желанию клиента или неуплате были созданы две зависимые переменные, каждая из которых принимала значение 1, если клиент разорвал контракт по одной из указанных причин, и 0 - в противном случае.

В информационной базе наблюдается следующее распределение значений зависимых переменных:

-у 7% клиентов договор расторгнут по желанию, у 93% - действителен или расторгнут по иной причине;

-у 18% клиентов договор расторгнут из-за неуплаты, у 82% - действителен или расторгнут по иной причине.

Таким образом, рассматриваемые выборки несбалансированы, т.е. одна категория изучаемой переменной встречается гораздо чаще, чем другая. Для преодоления данной проблемы используется метод увеличения наименьшей группы (oversampling). Случайным образом выбираются записи с расторжением по одной из двух исследуемых причин и копируются до уменьшения разрыва между меньшей и большей категориями. Данный метод используется для формирования обучающей выборки, в то время как тестовая выборка сохраняет оригинальное распределение категорий.

Для прогнозирования расторжения договора страхования по желанию клиента были сформированы обучающая и тестовая выборки, характеристики которых указаны в таблице 1. В обучающей выборке записи о договорах, расторгнутых по собственному желанию клиента, составляют 48.7%. В тестовой выборке этот показатель составляет 6.7%, что приближено к показателю оригинальной информационной базы.

В свою очередь, для прогнозирования расторжения из-за неуплаты были сформированы обучающая и тестовая выборки, характеристики которых указаны в таблице 2. В обучающей выборке записи о договорах, расторгнутых из-за неуплаты, составляют 51.2%. В тестовой выборке этот показатель составляет 16.9%, что приближено к показателю оригинальной информационной базы.

Таблица 1. Распределение типов договоров по статусу в обучающей и тестовой выборках (предсказание расторжения договора по желанию клиента)

ВыборкаТип договораКоличество наблюденийПроцент от выборкиОбучающая выборкаДействующие645833.5Расторгнутые по желанию клиентов939948.7Расторгнутые из-за неуплаты18739.7Прочие причины расторжения15608.1Всего19290100.0Тестовая выборкаДействующие159961.4Расторгнутые по желанию клиентов1756.7Расторгнутые из-за неуплаты43916.9Прочие причины расторжения39215.0Всего2605100.0

Таблица 2. Распределение типов договоров по статусу в обучающей и тестовой выборках (предсказание расторжения договора из-за неуплаты)

ВыборкаТип договораКоличество наблюденийДоля выборкиОбучающая выборкаДействующие645836.1Расторгнутые по желанию клиентов7234.0Расторгнутые из-за неуплаты917051.2Прочие причины расторжения15608.7Всего17911100.0Тестовая выборкаДействующие159961.4Расторгнутые по желанию клиентов1756.7Расторгнутые из-за неуплаты43916.9Прочие причины расторжения39215.0Всего2605100.0

3.2 Структура страхового портфеля

Рассмотрим основные социо-демографические показатели. Среди клиентов больше мужчин - 70%. Как показано на рисунке 1, с точки зрения семейного положения, три четверти страхователей женаты или замужем, а 22% холосты. Почти половина страхователей занимает высокую должность и занимается стратегическим руководством. Треть находится на должности специалистов.

Рисунок 1. Распределение семейного положения и должности клиента в выборке

Больше всего договоров (около 70%) заключается клиентами в возрасте от 35 до 60 лет. Около 20% договоров заключаются в более раннем возрасте, оставшиеся - в позднем (рисунок 2).

Рисунок 2. Распределение возраста клиента на момент заключения договора

Рассмотрим показатели, имеющие отношение к договорам страхования жизни. Среди портфеля договоров 61% являются действующими. Среди оставшихся 39% расторгнутых договоров соответственно 7% и 18% занимают случаи расторжения по желанию и из-за неуплаты. Из оставшихся - 15% составляют договоры, расторгнутые в течение 30 дней (58%), отказ клиента от страхования (32%), расторгнутые из-за дожития (7%) и самая малочисленная категория - смерть застрахованного (2%) (рисунок 3).

Рисунок 3. Распределение типов договоров страхования по статусу

Абсолютное большинство (83%) клиентов выбирает договор с регулярной оплатой премии. Из них две трети платят раз в год, четверть - раз в квартал, и оставшиеся - раз в полгода (рисунок 4).

Половина всех договоров заключается с условием оплаты в рублях, треть - в долларах США, и оставшиеся - в евро (рисунок 5).

Ежегодная премия, которую клиенты выплачивают страховой компании, варьируется от нескольких десятков тысяч рублей, до нескольких десятков миллионов рублей. Наиболее многочисленная категория - люди, платящие от 50 до 100 тысяч рублей в год - составляет около 20%. В целом, от 50 до 500 тысяч рублей платят в год около 54% страхователей. Примерно четверть платит больше, так например 1.6% платят от 5 до 10 миллионов, а 0.7% платит более 10 миллионов рублей в год (рисунок 6).

Рисунок 4. Распределение периодичности оплаты договоров страхования

Рисунок 5. Распределение валюты договоров и типа страхового продукта среди клиентов

На рисунке 7 проиллюстрирована длительность сотрудничества со страховой компанией тех клиентов, которые впоследствии разорвали договор. Так, около 60% прекращают платить взносы в первые два года, а примерно 30% перестают быть клиентами компании с третьего по пятый год.

Рисунок 6. Распределение размера уплачиваемой премии среди клиентов

Рисунок 7. Распределение времени сотрудничества с клиентами, отказавшимися от услуг страховой компании

Рассмотрим более подробно длительность сотрудничества с ушедшими клиентами в зависимости от причины расторжения. Как видно на рисунке 8, из-за неуплаты клиенты уходят преимущественно в первые три года действия договора (почти 93%). У тех, кто уходит по собственному желанию, картина противоположная: разрывать договоры преимущественно начинают на четвертом году (три четверти клиентов).

Рисунок 8. Распределение времени сотрудничества с клиентами, отказавшимися от услуг страховой компании, для разных причин расторжения договора

Проанализировав таблицы сопряженности типов расторжения и качественных характеристик, можно сделать вывод о наличии связи. С точки зрения критерия согласия Пирсона, на уровне значимости 0,01 было установлено наличие связи между причиной расторжения и следующими показателями: страховой продукт, семейное положение, должность, сфера занятости клиента, город заключения договора, категория длительности договора, валюта договора, периодичность оплаты премии и возрастная категория начала договора. Лишь такой показатель как пол клиента показал наличие связи на уровне 0,034 (). Иными словами, каждая из рассмотренных переменных имеет свое распределение для разных причин расторжения договоров. Рассмотрим подробнее эти связи.

Говоря о группе страхового продукта, больше всего людей, замеченных в неуплате, находится в сегменте Премиум. Там же больше всего и расторжений по желанию (рисунок 9). Меньше всего расторжений обоих типов среди владельцев страхового тарифа Комфорт.

Рассмотрим зависимость причин расторжения от семейного положения клиентов (рисунок 10). Среди разведенных клиентов около половины разрывают договор. Наименьшая доля расторжений из-за неуплаты наблюдается среди вдовцов (9%). Доля расторжений по желанию меньше всего среди клиентов, состоящих в браке (6%).

Рисунок 9. Распределение статусов договоров для разных типов страхового продукта

Рисунок 10. Распределение статусов договоров для разных категорий семейного положения

Анализируя расторжения по городам (рисунок 11), можно заметить следующее. Самая большая доля расторгнутых из-за неуплаты договоров - в Нижнем Новгороде (27%), самая низкая - в Москве (17%). По желанию разрывают договор чаще в Самаре и Волгограде - по 8% в каждом городе. Реже всего договор разрывают по этой причине в Уфе - лишь 2%.

Рисунок 11. Распределение статусов договоров для разных городов

Больше всего расторжений по обеим причинам среди тех клиентов, кто выплачивает премии в рублях (рисунок 12) - суммарно 31%. Меньше всего расторжений среди тех, у кого в договоре указана валюта - доллар США (суммарно 16%).

Рисунок 12. Распределение статусов договоров для разных валют оплаты премии

Связь между периодичностью оплаты и причиной расторжения выглядит следующим образом (рисунок 13). Больше всего расторжений среди клиентов, платящих раз в квартал (36% - а из-за неуплаты, 11% - по желанию). Среди тех, кто платит единовременно, меньше всего расторжений - лишь 2% договоров расторгаются по желанию.

Рисунок 13. Статусы договоров для разной периодичности выплаты премий

Как видно на рисунке 14, с увеличением возраста уменьшается и доля расторжений обоих типов. Так, например, в самой юной возрастной категории - от 18 до 24 лет - расторгается 43% договоров по интересующим нас причинам. К самой старшей категории этот показатель уменьшается до 2%.

Рисунок 14. Распределение статусов договоров для разных возрастных категорий клиента

.3 Модели расторжения договоров страхования жизни

.3.1 Бинарная логистическая регрессионная модель

Модель предсказания расторжения по желанию клиента

Для построения модели был использован метод пошагового ввода переменных. Процедура отбора переменных состояла из 14 шагов, на каждом из которых добавлялась переменная. В Приложении 2 представлены оценки качества моделей, построенных на каждом из шагов: показатель , Кокса и Снелла() и Найджелкерка (). По каждому из показателей можно заметить улучшение модели с каждым шагом. Так, уменьшился с 25 228 до 22904. В свою очередь, и увеличились соответственно с 0.075 до 0.180 и с 0.100 до 0.240. Тем не менее, показатели и не превышают 0.25, что говорит о невысоком качестве подгонки. В Приложении 3 показан список итоговых предикторов и их коэффициентов .

Точность финальной модели, определенной на 14 шаге составляет 69.1% (69% верных предсказаний для случаев разрыва контракта по желанию и 69.3% - для остальных). Данный показатель вычисляется для значения порога отсечения, равного 0.5. На рисунке 15 проиллюстрировано изменение точности моделей для каждого из 14 шагов. Максимальная доля верно предсказанных контрактов, расторгнутых по желанию, составляет 75.1% и достигается на первом шаге. Аналогичный показатель для остальных договоров страхования - 70.1% - достигается на шестом шаге. Однако этим моделям соответствует меньшая точность и больший разброс в долях верных предсказания двух категорий, чем финальной модели.

На рисунке 16 изображено распределение предсказанной вероятности расторжения договора по желанию с разделением по фактическому значению зависимой переменной. Из графика видно, что распределения сильно пересекаются, о чем и свидетельствуют их статистические показатели. Средняя предсказанная вероятность для расторгнутых по желанию договоров равна 0.58 при стандартном отклонении в 0.18. Для другой категории эти показатели соответственно 0.40 и 0.21.

Рисунок 15. Точность построенных моделей для каждого шага выбора переменных (логистическая регрессия, предсказание расторжения по желанию клиента)

На рисунке 17 изображена ROC-кривая, показатель AUC которой равен 0.747 и значим на уровне 0.001.

Рисунок 16. Распределение предсказанной вероятности разрыва договора по желанию (логистическая регрессия, обучающая выборка)

Рисунок 17. ROC-кривая для предсказанной вероятности разрыва договора по желанию (логистическая регрессия, обучающая выборка)

Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 18). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.5. Данный порог совпадает со значением по умолчанию, поэтому точность модели равняется ранее озвученной точности:

-доля истинно положительных предсказаний - 69.0%;

-доля истинно отрицательных предсказаний - 69.3%;

-доля верно предсказанных наблюдений - 69.1%.

Точность модели на тестовой выборке составила 68% (68.6% верных предсказаний для расторгнутых по желанию договоров и 68% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 19. Выборочные характеристики аналогичны характеристикам распределения для обучающей выборки.

Рисунок 18. Зависимость параметров точности модели от порога отсечения (логистическая регрессия, предсказание расторжения по желанию клиента)

На рисунке 20 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.722, т.е. на 0.025 меньше, чем для обучающей выборки. Показатель значим на уровне 0.001.

Рисунок 19. Распределение предсказанной вероятности разрыва договора по желанию (логистическая регрессия, тестовая выборка)

Рисунок 20. ROC-кривая для предсказанной вероятности разрыва договора по желанию (логистическая регрессия, тестовая выборка)

Модель предсказания расторжения из-за неуплаты

Для построения модели был использован метод пошагового ввода переменных. Процедура отбора переменных состояла из 15 шагов, на каждом из которых добавлялась переменная. В Приложении 4 представлены оценки качества моделей, построенных на каждом из шагов. По каждому из показателей можно заметить улучшение модели с каждым шагом. Так, например, показатель улучшается от 19908 до 16371 за 15 шагов. Показатели и увеличиваются соответственно с 0.240 и 0.320 до 0.376 и 0.502, что говорит об умеренно хорошем качестве подгонки (значительно превышают аналогичные показатели для модели, предсказывающей расторжение договора страхования по желанию клиента). В Приложении 5 показан список итоговых предикторов и их коэффициентов θ.

Точность финальной модели, определенной на 15 шаге, составляет 80.1% (85.7% верных предсказаний для случаев разрыва контракта из-за неуплаты и 74.1% - для остальных). Данный показатель вычисляется для значения порога отсечения, равного 0.5. На рисунке 21 проиллюстрировано изменение точности моделей для каждого из 15 шагов. На всех этапах доля верно предсказанных случаев расторжения из-за неуплаты была выше, чем у другой категории. Начиная с пятого шага, общая точность моделей была около 80%.

Рисунок 21. Точность построенных моделей для каждого шага выбора переменных (логистическая регрессия, предсказание расторжения из-за неуплаты)

На рисунке 22 изображено распределение предсказанной вероятности расторжения договора из-за неуплаты с разбивкой на фактическое значение зависимой переменной. На графике видно, что для расторгнутых из-за неуплаты договоров предсказанная вероятность гораздо больше, чем у другой категории. Средняя предсказанная вероятность для расторгнутых из-за неуплаты договоров равна 0.71 при стандартном отклонении в 0.20. Для другой категории эти показатели соответственно 0.31 и 0.28.

На рисунке 23 изображена ROC-кривая, показатель AUC которой равен 0.858 и значим на уровне 0.001. Данное значение AUC говорит о довольно хорошем качестве модели.

Рисунок 22. Распределение предсказанной вероятности разрыва договора из-за неуплаты (логистическая регрессия, обучающая выборка)

Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 24). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.58. Модель с данным порогом отсечения имеет следующие показатели точности:

Рисунок 23. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (логистическая регрессия, обучающая выборка)

Рисунок 24. Зависимость параметров точности модели от порога отсечения (логистическая регрессия, предсказание расторжения из-за неуплаты)

-доля истинно положительных предсказаний - 79.3%;

-доля истинно отрицательных предсказаний - 79.4%;

-доля верно предсказанных наблюдений - 79.4%.

На тестовой выборке модель показала точность 80.0%: 82.0% - верных предсказаний для расторгнутых из-за неуплаты и 79.6% - для остальных видов договоров.

График предсказанных вероятностей для тестовой выборки представлен на рисунке 25. Выборочные характеристики аналогичны характеристикам предыдущего распределения для обучающей выборки. Выборки разных фактических значений зависимой переменной так же разделены, но пересекаются таким образом, что cutoff value отсекает около пятой части действующих или расторгнутых по иной причине договоров и классифицирует их как расторгнутые из-за неуплаты.

Рисунок 25. Распределение предсказанной вероятности разрыва договора из-за неуплаты (логистическая регрессия, тестовая выборка)

На рисунке 26 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.865, т.е. на 0.007 больше, чем для обучающей выборки. Показатель значим на уровне 0.001.

Рисунок 26. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (логистическая регрессия, тестовая выборка)

Результаты моделирования

Таким образом, были построены две модели для предсказания разных причин досрочного разрыва договора с помощью логистической регрессии. С учетом оптимального порога отсечения, равного 0.5, точность модели расторжения договоров по собственному желанию оказалась равной 69.1%. Доли истинно положительных и истинно отрицательных оказались очень близки и составили соответственно 69,0 и 69.3%. После применения построенной модели на тестовой выборке общая точность предсказаний уменьшилась примерно на 1 п.п. Кроме того, сохранилась близость долей истинно положительных и истинно отрицательных предсказаний.

Для модели, предсказывающей расторжение договора из-за неуплаты, порог отсечения оказался равен 0.58. С учетом порога точность модели оказалась равной 79.4%. Доли истинно положительных и истинно отрицательных оказались очень близки и составили соответственно 79,3 и 79.4%. После применения построенной модели на тестовой выборке общая точность увеличилась до 80%, в отличие от предыдущей модели. Кроме того, сохранилась близость долей истинно положительных и истинно отрицательных предсказаний, однако доля первых на 2.4 п. п. больше и составляет 82%.

Вторая модель, предсказания расторжения из-за неуплаты несколько более удачная, чем первая по совокупности показателей (, , распределению предсказанной вероятности и точности). Однако сравнение будет уместно далее в рамках предсказания одной и той же причины расторжения с помощью разных моделей.

3.3.2 Регрессия Кокса

Модель предсказания расторжения по желанию клиента

В данной модели в качестве статусной переменной, разделяющей цензурированные и нецензурированные наблюдения, используется зависимая переменная. Если переменная принимает значение 1, наблюдение нецензурированное, так как договор расторгнут по желанию. Если же переменная принимает значение 0, наблюдение цензурированное, так как соответствующее событие не произошло. В качестве индикатора начала и конца события выступает переменная Длительность сотрудничества, выражаемая в месяцах. Если клиент ушел по собственному желанию, то переменная равна разнице между датами начала и расторжения договора. Если же договор страхования действует или расторгнут по иной причине, переменная равна разнице между датой начала договора и началом 2015 года.

На рисунке 27 изображено распределение предсказанной вероятности расторжения договора по желанию с разделением по фактическому значению прогнозируемой переменной. Из графика видно, что распределения пересекаются по всей области определения, о чем свидетельствуют и их статистические показатели. Средняя предсказанная вероятность для расторгнутых по желанию договоров равна 0.49 при стандартном отклонении в 0.25. Для другой категории эти показатели соответственно 0.23 и 0.26.

Рисунок 27. Распределение предсказанной вероятности разрыва договора по желанию (регрессия Кокса, обучающая выборка)

На рисунке 28 изображена ROC-кривая, показатель AUC которой равен 0.773 и значим на уровне 0.001.

Рисунок 28. ROC-кривая для предсказанной вероятности разрыва договора по желанию (регрессия Кокса, обучающая выборка)

Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 29). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.32. Модель с данным порогом отсечения имеет следующие показатели точности:

-доля истинно положительных предсказаний - 69.2%;

-доля истинно отрицательных предсказаний - 69.3%;

-доля верно предсказанных наблюдений - 69.2%.

Точность модели на тестовой выборке составила 69.5% (73.7% верных предсказаний для расторгнутых по желанию и 69.2% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 30. Выборочные характеристики аналогичны характеристикам распределения для обучающей выборки.

Рисунок 29. Зависимость параметров точности модели от порога отсечения (регрессия Кокса, предсказание расторжения по желанию клиента)

На рисунке 31 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.779, т.е. на 0.006 меньше, чем для обучающей выборки. Показатель значим на уровне 0.001.

Рисунок 30. Распределение предсказанной вероятности разрыва договора по желанию (регрессия Кокса, тестовая выборка)

Рисунок 31. ROC-кривая для предсказанной вероятности разрыва договора по желанию (регрессия Кокса, тестовая выборка)

Модель предсказания расторжения из-за неуплаты

В данной модели аналогично предыдущей в качестве статусной переменной, разделяющей цензурированные и нецензурированные наблюдения, используется зависимая переменная, связанная с расторжением договора из-за неуплаты. Также в качестве индикатора начала и конца события выступает переменная Длительность сотрудничества, выражаемая в месяцах.

На рисунке 32 изображено распределение предсказанной вероятности расторжения договора из-за неуплаты с разделением по фактическому значению прогнозируемой переменной. Из графика видно, что распределения слабо разделены, о чем свидетельствуют их статистические характеристики. Средняя предсказанная вероятность для расторгнутых из-за неуплаты договоров равна 0.39 при стандартном отклонении в 0.17. Для другой категории эти показатели соответственно 0.35 и 0.30. Также для договоров, фактически расторгнутых из-за неуплаты, большая часть наблюдений находится в левой части. Для остальных же договоров большая часть наблюдений - в правой. Это свидетельствует о низком качестве модели, поскольку возникают трудности в выявлении оптимального порога отсечения.

Рисунок 32. Распределение предсказанной вероятности разрыва договора из-за неуплаты (регрессия Кокса, обучающая выборка)

На рисунке 33 изображена ROC-кривая, показатель AUC которой равен 0.505. Гипотеза о том, что принимается на уровне 0.268.

Рисунок 33. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (регрессия Кокса, обучающая выборка)

Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 34). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.36. В данном случае доля истинно положительных предсказаний равна 33%, а истинно отрицательных - 40.8%. Однако этому порогу отсечения соответствует 37.9% верных предсказаний, что меньше 50% и, следовательно, делает использование модели нецелесообразным. Поэтому в качестве порога отсечения была выбрана соседняя точка - 0.35, доля верных предсказаний для которой равна 54.0%. Модель с порогом отсечения, равным 0.35, имеет следующие показатели точности:

-доля истинно положительных предсказаний - 66.6%;

-доля истинно отрицательных предсказаний - 40.8%;

-доля верно предсказанных наблюдений - 54.0%.

Точность модели на тестовой выборке составила 44.5% (65.4% верных предсказаний для расторгнутых из-за неуплаты и 40.3% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 35. Выборочные характеристики аналогичны характеристикам распределения для обучающей выборки.

Рисунок 34. Зависимость параметров точности модели от порога отсечения (регрессия Кокса, предсказание расторжения из-за неуплаты)

Рисунок 35. Распределение предсказанной вероятности разрыва договора из-за неуплаты (регрессия Кокса, тестовая выборка)

На рисунке 36 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.502 Гипотеза о том, что принимается на уровне 0.876.

Рисунок 36. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (регрессия Кокса, тестовая выборка)

Результаты моделирования

C помощью регрессии Кокса были построены две модели для предсказания разных причин досрочного разрыва договора. С учетом оптимального порога отсечения, равного 0.32, точность модели расторжения договоров по собственному желанию оказалась равной 69.2%. Доли истинно положительных и истинно отрицательных оказались очень близки и составили соответственно 69,2 и 69.3%. После применения построенной модели на тестовой выборке общая точность предсказаний незначительно увеличилась на 0.3 п.п. Однако доля истинно положительных предсказаний оказалась больше доли истинно отрицательных на 4.5 п.п. и составила 73.7%.

Для модели, предсказывающей расторжение договора из-за неуплаты, порог отсечения оказался равен 0.35. С учетом порога точность модели оказалась равной 54.0%. Доли истинно положительных и истинно отрицательных существенно отличались и составили соответственно 66.6 и 40.8%. После применения построенной модели на тестовой выборке общая точность уменьшилась до 44.5%. Кроме того, сохранилась разница долей истинно положительных и истинно отрицательных предсказаний: 65.4% и 40.3% соответственно. Также следует отметить, что в данной модели для обеих ROC-кривых (для обучающей и тестовой выборок) гипотеза была принята. Таким образом, построенная модель оказалась неудачной, поскольку ее точность на тестовой выборке менее 50%, т.е. меньше точности равномерного случайного предсказания.

Таким образом, модель предсказания расторжения договора по желанию оказалась более удачной по совокупности показателей. В то же время вторая модель оказалась непригодной к использованию по ряду причин, а именно равенство 0.5 показателя AUC и точность менее 50%.

3.3.3 Модель на основе метода Random Forest

Модель предсказания расторжения по желанию клиента

Распределение предсказанной вероятности расторжения по желанию представлено на рисунке 37. Распределения вероятности расторжения для двух категорий значительно разделены, о чем и свидетельствуют статистические показатели. Так среднее значения вероятности расторжения по желанию для наблюдений, фактически расторгнутых по желанию, равняется 0.90 со стандартным отклонением в 0.16. Аналогичные Статистические показатели для другой группы соответственно 0.28 и 0.29.

Рисунок 37. Распределение предсказанной вероятности разрыва договора по желанию (Random Forest, обучающая выборка)

На рисунке 38 представлена ROC-кривая со значением , равным 0.953 и значимым на уровне 0.001.

Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 39). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.66. Модель с данным порогом отсечения имеет следующие показатели точности:

-доля истинно положительных предсказаний - 88.4%;

-доля истинно отрицательных предсказаний - 90.0%;

-доля верно предсказанных наблюдений - 89.2%.

Рисунок 38. ROC-кривая для предсказанной вероятности разрыва договора по желанию (Random Forest, обучающая выборка)

Точность модели на тестовой выборке составила 79.9% (65.1% верных предсказаний для расторгнутых по желанию и 80.9% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 40.

Рисунок 39. Зависимость параметров точности модели от порога отсечения (Random Forest, предсказание расторжения по желанию клиента)

Рисунок 40. Распределение предсказанной вероятности разрыва договора по желанию (Random Forest, тестовая выборка)

На рисунке 41 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.793, т.е. на 0.160 меньше, чем для обучающей выборки. Показатель значим на уровне 0.001.

Рисунок 41. ROC-кривая для предсказанной вероятности разрыва договора по желанию (Random Forest, тестовая выборка)

Модель предсказания расторжения из-за неуплаты

Распределение предсказанной вероятности расторжения по желанию представлено на рисунке 42. Распределения вероятности расторжения для двух категорий в значительной мере разделены, о чем свидетельствуют статистические показатели выборки. Так среднее значения вероятности расторжения по желанию для наблюдений, фактически расторгнутых по желанию, равняется 0.92 со стандартным отклонением в 0.19. Аналогичные Статистические показатели для другой группы соответственно 0.12 и 0.22.

Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 44). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.44. Модель с данным порогом отсечения имеет следующие показатели точности:

-доля истинно отрицательных предсказаний - 89.2%;

-доля верно предсказанных наблюдений - 92.6%.

Рисунок 42. Распределение предсказанной вероятности разрыва договора из-за неуплаты (Random Forest, обучающая выборка)

Рисунок 43. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (Random Forest, обучающая выборка)

Рисунок 44. Зависимость параметров точности модели от порога отсечения (Random Forest, предсказание расторжения из-за неуплаты)

Точность модели на тестовой выборке составила 88.9% (92.3% верных предсказаний для расторгнутых из-за неуплаты и 88.3% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 45.

Рисунок 45. Распределение предсказанной вероятности разрыва договора из-за неуплаты (Random Forest, тестовая выборка)

На рисунке 46 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.956, т.е. на 0.020 меньше, чем для обучающей выборки. Показатель значим на уровне 0.001.

Рисунок 46. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (Random Forest, тестовая выборка)

Результаты моделирования

Таким образом, были построены две модели для предсказания разных причин досрочного разрыва договора с помощью метода Random forest. С учетом оптимального порога отсечения, равного 0.66, точность модели расторжения договоров по собственному желанию оказалась равной 89.2%. Доли истинно положительных и истинно отрицательных оказались очень близки и составили соответственно 88,4 и 90.0%. После применения построенной модели на тестовой выборке общая точность предсказаний уменьшилась до 79.9%. Однако на тестовой выборке изменилось соотношение долей истинно положительных и истинно отрицательных предсказаний: 65,1 и 80.9% соответственно.

Для модели, предсказывающей расторжение договора из-за неуплаты, порог отсечения оказался равен 0.44. С учетом порога точность модели оказалась равной 92.8%. Доли истинно положительных и истинно отрицательных оказались довольно близки и составили соответственно 91.9 и 93.7%. После применения построенной модели на тестовой выборке общая точность несколько уменьшилась до 88.9%. Соотношение долей истинно положительных и истинно отрицательных предсказаний немного сместилось в сторону истинно положительных: 92.3% и 88.3%.

Модель, предсказывающая расторжение по собственному желанию, показала достаточно высокий результат: около 90% точности на обучающей выборке. Однако на тестовой выборке точность уменьшилась на 10 п.п., и доля истинно положительных предсказаний упала до 65%. Вторая модель, предсказывающая расторжения из-за неуплаты, несколько более удачная из-за высокой доли верных предсказаний около - 90% - и приемлемого уменьшения точности на тестовой выборке лишь на 4 п.п.

3.3.4 Нейросетевая модель

Модель предсказания расторжения по желанию клиента

Построенная модель обладает следующими характеристиками:

-количество скрытых слоев: 2;

-количество элементов в первом скрытом слое: 13;

-количество элементов в первом скрытом слое: 10;

-активационная функция (скрытые слои): сигмоид;

-активационная функция (внешний слой): Softmax.

В таблице 3 указан список предикторов, отранжированных по важности в модели. Так, пять наиболее значимых объясняющих переменных по убыванию их важности: длительность сотрудничества, премия первого года страхования, общая сумма поступлений от клиентов (группа), процент изменения премии, общая сумма поступлений от клиента.

Таблица 3. Важность независимых переменных в предсказании расторжения по желанию клиента (нейросетевая модель)

ПредикторВажностьНормализованная важностьДлительность сотрудничества со страховой компанией, мес.0.136100.0%Премия первого года страхования в тыс. руб.0.10275.4%Итого поступило рубли группа0.08361.2%% изменения премии0.07353.5%Оплачено в тыс. руб. на начало 20150.06648.7%Текущая годовая премия в тыс. руб.0.06246.0%Возраст начала договора0.05641.1%Периодичность оплаты премии0.05338.8%Валюта договора0.05137.3%Премия первого года рубли группа0.04029.6%Город заключения договора0.03526.1%Общий срок действия договора (лет)0.03525.8%Премия текущая рубли группа0.03424.8%Семейное положение0.03021.8%Группы договоров по длительности0.02921.2%Возраст начала договора (группа)0.02820.5%Должность клиента0.02820.4%Регулярная или единовременная оплата0.02518.1%Группа страхового продукта0.02417.7%Пол клиента0.0139.4%Распределение предсказанной вероятности расторжения по желанию представлено на рисунке 47. Распределения вероятности расторжения для двух категорий в значительной мере пересекаются, что говорит о существенной доле ошибочных классификаций. Так среднее значения вероятности расторжения по желанию для наблюдений, фактически расторгнутых по желанию, равняется 0.55 со стандартным отклонением в 0.20. Аналогичные Статистические показатели для другой группы соответственно 0.33 и 0.23.

Рисунок 47. Распределение предсказанной вероятности разрыва договора по желанию (нейросетевая модель, обучающая выборка)

На рисунке 48 представлена ROC-кривая со значением , равным 0.767 и значимым на уровне 0.001.

Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 49). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.45. Модель с данным порогом отсечения имеет следующие показатели точности:

Рисунок 48. ROC-кривая для предсказанной вероятности разрыва договора по желанию (нейросетевая модель, обучающая выборка)

-доля истинно положительных предсказаний - 70.0%;

-доля истинно отрицательных предсказаний - 69.8%;

-доля верно предсказанных наблюдений - 69.9%.

Рисунок 49. Зависимость параметров точности модели от порога отсечения (нейросетевая модель, предсказание расторжения по желанию клиента)

Точность модели на тестовой выборке составила 69.4% (75.4% верных предсказаний для расторгнутых по желанию и 68.9% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 50. Выборочные характеристики аналогичны характеристикам распределения вероятностей для обучающей выборки.

Рисунок 50. Распределение предсказанной вероятности разрыва договора по желанию (нейросетевая модель, тестовая выборка)

Рисунок 51. ROC-кривая для предсказанной вероятности разрыва договора по желанию (нейросетевая модель, тестовая выборка)

На рисунке 51 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.763, т.е. на 0.004 меньше, чем для обучающей выборки. Показатель значим на уровне 0.001.

Модель предсказания расторжения из-за неуплаты

Построенная модель обладает следующими характеристиками:

-Количество скрытых слоев: 2;

-Количество элементов в первом скрытом слое: 13;

-Количество элементов в первом скрытом слое: 10;

-Активационная функция (скрытые слои): сигмоид;

-Активационная функция (внешний слой): Softmax.

В таблице 4 указан список предикторов, отранжированных по степени важности в модели. Так, пять наиболее значимых объясняющих переменных по убыванию их важности: длительность сотрудничества со страховой компанией, текущая годовая премия, премия первого года страхования, общая сумма поступлений от клиента, процент изменения премии.

Таблица 4. Важность независимых переменных в предсказании расторжения договора из-за неуплаты (нейросетевая модель)

ПредикторВажностьНормализованная важностьДлительность сотрудничества со страховой компанией, мес.0.163100.0%Текущая годовая премия в тыс. руб.0.15997.4%Премия первого года страхования в тыс. руб.0.14588.9%Оплачено в тыс. руб. на начало 20150.11670.8%% изменения премии0.04326.5%Периодичность оплаты премии0.04326.4%Общий срок действия договора (лет)0.04225.6%Должность клиента0.03118.8%Регулярная или единовременная оплата0.02917.7%Итого поступило рубли группа0.02817.0%Группа страхового продукта0.02716.4%Город заключения договора0.02515.4%Возраст начала договора0.02314.0%Премия первого года рубли группа0.02213.6%Группы договоров по длительности0.02213.5%Семейное положение0.02012.4%Валюта договора0.01710.5%Премия текущая рубли группа0.01610.0%Возраст начала договора (группа)0.0169.8%Пол клиента0.0116.9%

Распределение предсказанной вероятности расторжения из-за неуплаты представлено на рисунке 52. Распределения вероятностей для каждой фактической категории пересекаются по всему диапазону значений, однако основная масса наблюдений, фактически являющихся расторгнутыми из-за неуплаты, сосредоточена справа, а фактические наблюдения другой категории - слева. Так среднее значение вероятности расторжения для фактически расторгнутых из-за неуплаты, равняется 0.75 со стандартным отклонением в 0.29. Те же Статистические показатели для другой группы соответственно 0.25 и 0.33.

Рисунок 52. Распределение предсказанной вероятности разрыва договора из-за неуплаты (нейросетевая модель, обучающая выборка)

На рисунке 53 представлена ROC-кривая, отражающая качество классификатора, со значением , равным 0.864 и значимым на уровне 0.001.

Рисунок 53. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (нейросетевая модель, обучающая выборка)

Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 54). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.61. Модель с данным порогом отсечения имеет следующие показатели точности:

-доля истинно положительных предсказаний - 78.5%;

-доля истинно отрицательных предсказаний - 78.5%;

-доля верно предсказанных наблюдений - 78.5%.

Точность модели на тестовой выборке составила 78.5% (77.4% верных предсказаний для расторгнутых по желанию и 78.7% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 55. Выборочные характеристики аналогичны характеристикам распределения вероятностей для обучающей выборки.

Рисунок 54. Зависимость параметров точности модели от порога отсечения (нейросетевая модель, предсказание расторжения из-за неуплаты)

Рисунок 55. Распределение предсказанной вероятности разрыва договора из-за неуплаты (нейросетевая модель, тестовая выборка)

На рисунке 56 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.864, т.е. равно аналогичному показателю обучающей выборки. Показатель значим на уровне 0.001.

Рисунок 56. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (нейросетевая модель, тестовая выборка)

Результаты моделирования

Таким образом, были построены две модели для предсказания разных причин досрочного разрыва договора с помощью нейронной сети. С учетом оптимального порога отсечения, равного 0.45, точность модели расторжения договоров по собственному желанию оказалась равной 69.9%. Доли истинно положительных и истинно отрицательных оказались очень близки и составили соответственно 70,0 и 69.8%. После применения построенной модели на тестовой выборке общая точность предсказаний уменьшилась на 0.5 п.п. Однако, соотношение долей истинно положительных и истинно отрицательных предсказаний сместилось в сторону истинно положительных: 75.4% и 68.9%.

Для модели, предсказывающей расторжение договора из-за неуплаты, порог отсечения оказался равен 0.61. С учетом порога точность модели оказалась равной 78.5%. Доли истинно положительных и истинно отрицательных оказались равны и составили 78.5%. После применения построенной модели на тестовой выборке общая точность не изменилась. Соотношение долей истинно положительных и истинно отрицательных предсказаний немного сместилось в сторону истинно отрицательных: 77.4% и 78.7%.

Обе построенные модели оказались пригодными для использования. Вторая модель показала точность большую примерно на 9 п.п. Обе модели мало изменили точность при проверке на тестовой выборке: для модели предсказания расторжения по желанию на тестовых данных доля верных предсказаний уменьшилась на 0.5 п.п., а для второй модели на тестовых данных точность не изменилась.

3.5. Сравнительный анализ моделей расторжения договоров

Сравнение моделей предсказания расторжения по желанию клиента

Для проведения анализа сравниваются ROC-кривые для всех полученных моделей предсказания расторжения договоров страхования жизни по желанию клиента. Для сравнения используются модели, построенные на тестовых выборках (рисунок 57). Среди кривых нельзя однозначно определить лидера, который находился бы выше и левее всех. Однако, можно выделить модель Random forest и регрессию Кокса. Первая доминирует при значениях показателя менее 0.3, вторая при значениях более 0.3.

Показатели AUC (таблица 5) соответствуют визуальному представлению на графике (рисунок 57). Наибольшее значение показателя у модели Random Forest 0.793. У модели, построенной на регрессии Кокса, показатель несколько меньше - 0.779. Наименьший показатель AUC у модели, построенной на логистической регрессии. Таким образом, с точки зрения показателя , лучшей моделью предсказания расторжения договора страхования по желанию клиента является Random Forest. Однако ROC-кривые не являются единственным способом оценки качества бинарного классификатора. Строго говоря, кривые анализируют различные пороги отсечения для модели, оценивая её предсказательные способности. Но поскольку для моделей уже найден оптимальный порог отсечения, в анализ следует включить и иные показатели.

Рисунок 57. Сравнение ROC-кривых для построенных предиктивных моделей расторжения договора по желанию

Таблица 5. Сравнение показателя AUC для моделей предсказания расторжения договора по желанию

Предсказательные моделиAUCСтд. ошибкаЗначимостьRandom Forest0.7930.0180.000Регрессия Кокса0.7790.0140.000Нейросетевая модель0.7630.0170.000Бинарная логистическая модель0.7220.0180.000

В таблице 6 представлены показатели качества построенных моделей. Помимо в таблицу включены такие показатели как доля истинно положительных предсказаний (TP, True Positive), доля истинно отрицательных предсказаний (TN, True Negative), доля верных предсказаний, точность (Precision) и F-мера. Несмотря на то, что модель на основе Random Forest превосходит все остальные модели по таким параметрам как доля истинно отрицательных предсказаний, доля верных предсказаний, точность (precision) и , слишком велика разница между показателями TP и TN. Следует отметить, что расторгнутые по желанию договора предсказываются лишь в 65.1% наблюдений. Иными словами, треть расторжений по данной причине неверно классифицируется, что является худшим показателем среди всех моделей. Поэтому модель Random Forest не может быть выбрана в качестве наиболее подходящей.

Таблица 6. Сравнение показателей качества классификатора для моделей предсказания расторжения договора по желанию клиента

МодельTPTNВерные предсказанияPrecisionF-мераAUCБинарная логистическая модель68.6%68.0%68.0%0.6820.6840.722Нейросетевая модель75.4%68.9%69.4%0.7080.7310.763Random Forest65.1%80.9%79.9%0.7730.7070.793Регрессия Кокса73.7%69.2%69.5%0.7050.7210.779

Из оставшихся выделяются нейросетевая модель и модель на основе регрессии Кокса. Обе модели превосходят другие по трем критериям (без учета исключенной модели Random Forest). Нейросетевая модель показывает лучшие результаты по следующим критериям: доля истинно положительных предсказаний, точность (precision) и F-мера. В свою очередь, модель на основе регрессии Кокса показывает лучшие результаты по следующим критериям: доля истинно отрицательных предсказаний, доля верных предсказаний и . Из этих моделей в качестве наиболее предпочтительной можно выбрать построенную на основе регрессии Кокса, поскольку для нее характерна меньшая разница между долями истинно положительных и истинно отрицательных предсказаний.

Сравнение моделей предсказания расторжения из-за неуплаты

Для проведения анализа сравним ROC-кривые для всех полученных моделей предсказания расторжения договоров страхования жизни из-за неуплаты. Для сравнения используются модели, построенные на обучающих выборках (рисунок 58). На графике однозначно видны самая лучшая и худшая модели. Выше и левее других находится модель, построенная с помощью алгоритма Random Forest, ниже и правее - модель, построенная с помощью алгоритма. Две другие модели - нейросетевая и логистическая регрессия - находятся между вышеуказанными моделями и пересекаются при показателе около 0.15.

Рисунок 58. Сравнение ROC-кривых для построенных предиктивных моделей расторжения договора из-за неуплаты

Показатели AUC (таблица 7) соответствуют визуальному представлению на графике (рисунок 57). Наибольшее значение показателя AUC у модели Random Forest - 0.956. У модели, построенной на регрессии Кокса, наименьший показатель - 0.502, кроме того, принимается гипотеза о равенстве нулю. У логистической регрессии и нейросетевой модели показатели очень близки: 0.865 и 0.864 соответственно. Таким образом, с точки зрения показателя AUC, лучшей моделью предсказания расторжения договора страхования из-за неуплаты является Random Forest. Аналогичный результат получен и для расторжения договора по желанию, и точно так же, поскольку для моделей уже найден оптимальный порог отсечения, в анализ следует включить и иные показатели.

Таблица 7. Сравнение показателя AUC для моделей предсказания расторжения договора из-за неуплаты

Предсказательные моделиAUCСтд. ошибкаЗначимостьRandom Forest0.9560.0060.000Бинарная логистическая модель0.8650.0080.000Нейросетевая модель0.8640.0090.000Регрессия Кокса0.5020.0120.876

В таблице 8 представлены показатели качества построенных моделей. Помимо в таблицу включены такие показатели как доля истинно положительных предсказаний (TP, True Positive), доля истинно отрицательных предсказаний (TN, True Negative), доля верных предсказаний, точность (Precision) и F мера. Помимо рассмотренного модель, построенная с помощью метода Random Forest, превосходит все остальные модели по всем показателям. Таким образом, наилучшей моделью для предсказания расторжения договоров из-за неуплаты является модель, построенная на основе метода Random Forest.

Таблица 8. Сравнение показателей качества классификатора для моделей предсказания расторжения договора из-за неуплаты

МодельTPTNВерные предсказанияТочностьF-measureAUCБинарная логистическая модель82.0%79.6%80.0%0.8010.8100.865Нейросетевая модель77.4%78.7%78.5%0.7840.7790.864Random Forest92.3%88.3%88.9%0.8870.9050.956Регрессия Кокса65.4%40.3%44.5%0.5230.5810.502

Таким образом, в качестве наиболее подходящей модели для предсказания расторжения договора по желанию была выбрана модель на основе регрессии Кокса, а для предсказания расторжения из-за неуплаты - модель на основе метода Random Forest. Cтоит отметить, что, в целом, полученные модели лучше прогнозируют расторжение договора из-за неуплаты. Так в выбранных моделях на тестовых данных доля верных предсказаний оказалась равна 69.5% и 88.9% соответственно для расторжения по желанию и из-за неуплаты.

На рисунке 59 изображено соотношение между оценками вероятностей, которые получают страховые договора.

Рисунок 59. Соотношение вероятностей расторжения договоров по разным причинам

После того как выбраны наиболее подходящие модели прогнозирования для каждой из причин расторжения договоров, рассмотрим, как соотносятся предсказанные вероятности быть отнесенным к той или иной категории соотносятся между собой. На осях и (рисунок 59) отложены соответственно предсказанные вероятности расторжения договора из-за неуплаты (на основе разработанной модели Random Forest) и вероятности расторжения договора из-за неуплаты (на основе разработанной регрессии Кокса). Как видно из рисунка 59, правая нижняя часть графика содержит в себе большую часть случаев досрочного расторжения по причине неуплаты, а левая верхняя - по собственному желанию. Это говорит о том, что для большинства (для 95%) договоров, фактических расторгнутых из-за неуплаты, предсказанная вероятность быть расторгнутым по этой же причине больше вероятности быть расторгнутым по желанию. Аналогично, для большинства договоров (для 77%), фактически расторгнутых по желанию, предсказанная вероятность быть расторгнутым этой же причине больше вероятности быть расторгнутым из-за неуплаты.

На рисунке 60 более детально изображено распределение предсказанных вероятностей для фактических категорий. Так, для договоров, фактически расторгнутых по желанию, предсказанная вероятность быть расторгнутым из-за неуплаты в большинстве случаев не превышает 0.40 (средняя вероятность 0.24, стандартное отклонение - 0.35). В свою очередь для договоров, фактически расторгнутых из-за неуплаты, предсказанная вероятность принадлежать иной категории в большинстве случаев не превышает 0.50 (средняя вероятность 0.30, стандартное отклонение - 0.21).

Рисунок 60. Распределение предсказанных вероятностей для фактических категорий

Данный результат несколько слабее предыдущего, однако. это может быть объяснено разницей почти в 20 п.п. в точности предсказания расторжения по желанию и из-за неуплаты в пользу второго.

Совместный анализ предсказанных вероятностей и фактических категорий позволяет сделать вывод о пригодности методов для использовании на практике в страховой компании. Это обосновывается тем, что в большинстве случаев предсказаний не возникает противоречия между вычисленными вероятностями для каждого из типов расторжения.

Заключение

Подходы к предсказанию потенциального поведения клиента, а именно досрочного расторжения договоров страхования жизни, рассмотренные в данной работе, позволяют бизнесу эффективно решать задачи уменьшения оттока клиентов. Необходимость применения таких подходов обусловлена потребностями лиц, принимающих решения относительно политики отношений со страхователями.

В данной работе были решены следующие задачи:

)Была подготовлена к исследованию информационная база. Во-первых, была произведена очистка базы от отсутствующих значений. Таким образом, количество наблюдений в базе сократилось с 15688 до 13219, а также из рассмотрения была удалена переменная, показывающая сферу деятельности, в которой занят клиент страховой компании. Во-вторых, были сформированы два набора данных, каждый из которых отвечал за прогнозирование одной из причин - расторжение договора страхования по собственному желанию или из-за неуплаты. В свою очередь, в рамках каждого набора данных были выделены обучающая и тестовая выборки. Ввиду несбалансированности выборок был применен метод увеличения наименьшего класса: расторгнутые по желанию договоры (7% наблюдений) и расторгнутые из-за неуплаты договоры (18%) были случайным образом копированы до размера около половины выборки.

)Проведен статистический анализ базы исследования. Были описаны основные статистические характеристики, связанные с распределением социально-демографических показателей и характеристик договора среди клиентов страховой компании. Также было выявлены распределения типов договоров для разных категорий качественных показателей в базе. Более подробные результаты выполнения данной задачи описаны в пункте 3.1.

)Разработаны модели, прогнозирующие факт расторжения договоров. Для работы были использованы следующие четыре модели: бинарная логистическая регрессионная модель, регрессия Кокса, модель на основе метода Random Forest и нейросетевая модель. Полученные модели были разработаны с учетом причин расторжения договора. На основе каждого из перечисленных методов было разработано по два бинарных классификатора, каждый из которых отдельно предсказывает вероятность расторжения по одной из изучаемых причин (из-за неуплаты или по желанию). Таким образом, было создано восемь прогнозных моделей.

)Определены оптимальные пороги отсечения для моделей. Для каждой из восьми разработанных моделей был выбран оптимальный порог отсечения. В качестве критерия оптимальности выступала минимальная разница между ошибками первого и второго родов. Лишь в одном случае оптимальный показатель оказался равен стандартному порогу 0.5 (в случае с предсказанием расторжения по желанию с помощью логистической регрессии). В остальных случаях этот показатель принимал значения от 0.32 до 0.66.

)Проведено сравнение полученных моделей. Разработанные модели были сравнены по следующим показателям: доля истинно положительных предсказаний, доля истинно отрицательных предсказаний, доля верных предсказаний, показатель Точность (Precision), F-мера и AUC. Для сравнения анализировалась работа разработанных моделей на тестовых данных. С точки зрения этих критериев выбраны следующие модели: для предсказания расторжения договора страхования по собственному желанию -модель на основе регрессии Кокса, для предсказания расторжения договора из-за неуплаты - модель на основе метода Random Forest. Для модели предсказания расторжения по желанию на основе Регрессии Кокса точность на обучающей выборке составила 69.2% (69.2% - доля истинно положительных предсказаний, 69.3% - доля истинно отрицательных предсказаний), на тестовых данных модель показала точность 69.5% (73.7% - доля истинно положительных предсказаний, 69.2% - доля истинно отрицательных предсказаний). Для модели предсказания расторжения из-за неуплаты на основе модели Random Forest точность на обучающей выборке составила 92.6% (95.8% - доля истинно положительных предсказаний, 89.2% - доля истинно отрицательных предсказаний), на тестовых данных модель показала точность 88.9% (92,3% - доля истинно положительных предсказаний, 88.3% - доля истинно отрицательных предсказаний). Таким образом, получилось, что гораздо точнее предсказывается расторжение договора из-за неуплаты, что соответствует почти всем построенным моделям.

Практическая значимость работы заключается в возможности использования разработанных моделей прогнозирования расторжения договоров страхования жизни в повседневной практике страховых компаний.

Научная значимость исследования заключается в разработке моделей для предсказания поведения клиента страховой компании. Разработанные модели предсказывают расторжение договора страхования жизни по желанию клиента и из-за неуплаты. Точность предсказания расторжения по желанию составила 69.5% (модель регрессии Кокса), а точность предсказания расторжения из-за неуплаты - 88.9% (модель Random Forest).

Список литературы

1.Рейтинговое агентство RAEX - Исследование российского рынка страхования. - RAEX, 2015.

2.Архипов А.П., Гомелля В.Б., Туленты Д.С. Страхование. Современный курс. - М.: Финансы и Статистика, 2008. -448 с.

.Ермасов С.В., Ермасова Н.Б. Страхование: учебник. - М.: Высшее образование, 2008. -613 с.

.Закон РФ «Об организации страхового дела в Российской Федерации» № 4015-1 от 27.11.1992 г. в ред. от 08.03.2015 г.

.Архипов А.П. Страхование: Учебник. - Кнорус, 2012. -288 с.

.Сплетухов Ю.А., Дюжиков Е.Ф. Страхование: Учебное пособие. - М.: ИНФРА-М, 2006. -312 с.

7.Nyce C. Predictive Analytics. - American Institute for Chartered Property Casualty Underwriters/Insurance Institute of America, 2007.

.IBM - IBM Business Intelligence Software & Its Capabilities

.Base Group Labs - Бинарная классификация - Base Group Labs, 2015.

.Bishop C. M. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., 2006. 562 p.

11.Карасиков М.Е., Максимов Ю.В. Поиск эффективных методов снижения размерности при решении задач многоклассовой классификации путем её сведения к решению бинарных задач // Машинное обучение и анализ данных, 2014. Т. 1, № 9.

12.IBM - SPSS Statistics Base.- IBM, 2014.

13.IBM - SPSS Modeler- IBM, 2014.

14.Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning Data Mining, Inference, and Prediction. Springer; 2nd ed. 2009. -745 p.

.Russell S., Norvig P. Artificial Intelligence: A Modern Approach. - Pearson, 2009. -1152 p.

.Fix E., Hodges J.L. Discriminatory Analysis, Nonparametric Discrimination: Consistency Properties // Report No. 4, Project No. 21-49-004, USAF School of Aviation Medicine, 1951.

17.С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. Прикладная статистика: Классификация и снижение размерности - М.: Финансы и статистика, 1989. - 607с.

18.Altman N.S. An introduction to kernel and nearest-neighbor nonparametric regression // The American Statistician, 1992, Vol. 46, № 3, pp. 175-185.

.Vapnik V. Statistical Learning Theory. NY.: J. Wiley, 1998.

20.Вьюгин В.В. Математические основы теории машинного обучения и прогнозирования. -М.: МЦНМО, 2013. - 390 с.

.Беркинблит М. Б. Нейронные сети. - М.: МИРОС и ВЗМШ РАО, 1993. - 96 с.

22.Rojas R. Neural Networks: A Systematic Introduction. Springer-Verlag, Berlin, 1996. 507 p.

.Cox D. R. The Regression Analysis of Binary Sequences // Journal of the Royal Statistical Society, 1958, Vol. 20, № 2, pp. 215-242.

24.Айвазян С.А. Основы эконометрики. - М.: ЮНИТИ-ДАНА, 2001. - 432с.

25.Bliss C. The method of probits // American Association for the Advancement of Science, 1934, Vol. 79, № 2037, pp. 38-39.

26.Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учеб. - 6-е изд., перераб. и доп. - М.: Дело, 2004. - 576 с.

27.Cox D. R. Regression Models and Life-Tables // Journal of the Royal Statistical Society, 1972, Vol. 34, № 2, pp. 187-220.

.Kleinbaum D.G., Klein M. Survival Analysis: A Self-Learning Text

.Quinlan J.R. Induction of Decision Trees // Machine Learning, 1986, Vol. 1, № 1, pp. 81-106.

.Breiman L., Friedman J.H., Olshen R.A., & Stone C.J. Classification and regression trees. Florence, KY: Wadsworth, 1984.

.Kass G.V. An Exploratory Technique for Investigating Large Quantities of Categorical Data // Applied Statistics, 1980, Vol. 29, № 2, pp. 119-127.

.Quinlan J.R. Learning With Continuous Classes // AI, 1992, pp. 343-348.

.Breiman L. Random Forests // Machine Learning, 2001, Vol. 5, №1, pp. 5-32.

34.Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н., Чимитова Е.В. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. - Новосибирск: Издательство НГТУ, 2011. - 888 с.

35.Casella G., Berger R. L. Statistical Inference. - Duxbury Press, 2001. -666 p.

.Cohen J., Cohen P., West S.G., Aiken L.S. Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences. - Routledge, 2002. -736 p.

.Allison P.D. Measures of Fit for Logistic Regression // Paper 1485-2014 presented at the SAS Global Forum, Washington, DC.

.Powers D. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation // Journal of Machine Learning Technologies, vol. 2 (1), p. 37-63.

.Cox D.R. Regression Models and Life-Tables // Journal of the Royal Statistical Society, 1972, Vol. 34, № 2, pp. 187-220.

.Tan P., Steinbach M., Kumar V. Introduction to Data Mining. Pearson, 2005. 769 p.

.Mitchell T., Carbonell J., Michalski R. Machine Learning: A Guide to Current Research, Kluwer Academic Publishers, 1986. -432 p.

.Swingler K. Applying Neural Networks. A practical Guide. - Morgan Kaufmann, 1996. -303 p.

.Fawcett T. An introduction to ROC analysis // Pattern Recognition Letters, 2006, Vol. 27, № 8, pp. 861-874.

.Rijsbergen C.J. Informational retrieval. Butterworth-Heinemann Newton, MA, 1979. -432 p.

.Powers, D. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation // Journal of Machine Learning Technologies, vol. 2 (1), p. 37-63.

.Youden W. Index for rating diagnostic tests //Cancer. 1950, vol. 3. P. 32-35.

.Hand D.J. Data Mining for Business Intelligence: Concepts, Techniques, and Application // International Statistical Review, Volume 75, Issue 2, page 256, August 2007.

.Alexander Yun-chung Liu, B.S. The Effect of Oversampling and Undersampling on Classifying Imbalanced Text Datasets, 2004.

.Show-Jane Yen, Yue-Shi Lee, Cheng-Han Lin, Jia-Ching Ying, Investigating the Effect of Sampling Methods for Imbalanced Data Distributions // SMC, 2006, vol. 5, pp. 4163-4168

Приложение 1

Переменные в информационной базе

Название переменнойОписаниеЗначенияКоличественные переменныеДоговор_номерНомер договораКлиент_IDID клиентаДатаРождДата рождения клиентаДата_заявл _на_страхДата заявления на страхованиеДата_начала _договораДата вступления договора в силуДата_проведения _расторженияДата проведения расторжения в системеДата_вступления _расторж_в_силуДата расторженияПремия_первого _года_рублиПремия первого года страхования в рубляхПремия _текущая _рублиТекущая годовая премия в рубляхИтого _поступило _рублиОплачено в рублях на начало 2015Возраст _начало _договораВозраст на момент начала договораСрок_договора _летОбщий срок действия договора (лет)Прирост_премии _рублиИзменение премии в рубляхПрирост_премии _доля% изменения премииДлительность _сотрудничестваДлительность сотрудничества с клиентомНоминальные переменныеСтатус_договораСтатус договораДействует; Расторгнут; Аннулирован.Причина _расторженияПричина расторжения договораДействует; Расторжение в течение 30 дней; Расторжение по желанию клиента; Расторжение в связи со смертью застрахованного; Отказ клиента от страхования; Дожитие клиента до окончания договора; Расторжение из-за неуплаты премии.Пол_клиентаПол клиентаЖенщины; Мужчины.Семейное _положениеСемейное положениеНе женатý/ не замужем; Женат/замужем; Разведён/разведена; Вдовец/вдоваДолжностьДолжность клиентаСпециалисты; Ведущие специалисты; Оперативное руководство; Стратегическое руководствоСфера _занятостиСфера занятости клиентаPR / Реклама / Печать / СМИ; Тяжелая промышленность; Бизнес/ Продажи; Госслужба; Финансы и банки; ИТ и связь; Медицина и здравоохранение; Наука и образование; Нефть, газ, энергетика; Производство и сбыт; Строительство и недвижимость; УслугиГородГород заключения договораЕкатеринбург; Волгоград; Москва; Нижний Новгород; Ростов-на-Дону; Самара; Санкт-Петербург; УфаПрограмма _страхованияПрограмма страхования{1; Комфорт (EUR)}...Страх_продГруппа страхового продуктаКомфорт; Дети; Копилка; Премиум; Защита капиталаВалюта_ договораВалюта договораЕвро; Рубль; Доллар СШАПериодичность _оплатыПериодичность оплаты премииЕжегодно; Раз в полгода; Ежеквартально; Ежемесячно; ЕдиновременноРегулярность _платежейРегулярная или единовременная оплатаЕдиновременный платеж; Регулярный платеж

Приложение 2

Критерии оценки качества подгонки логистической регрессии (предсказание расторжения договора страхования жизни по желанию клиента)

Шаг125 2280,0750,100224 0990,1270,170323 5400,1520,203423 4290,1570,210523 3410,1610,215623 2770,1640,219723 2010,1670,223823 1430,1700,226923 0610,1730,2311023 0220,1750,2331122 9610,1770,2371222 9450,1780,2381322 9160,1790,2391422 9040,1800,240

Приложение 3

Параметры предикторов в модели логистической регрессии, предсказывающей расторжение договоров страхования по желанию

ПредикторСтд. ошибкаСтатист. ВальдаСт. св.ЗначимостьВозраст_начало_договора_группа72,3555,00025-34 года-,479,15110,0921,001,61935-44 года-,696,15121,3661,000,49945-59 года-,453,1528,8731,003,63560-75 года-,830,16924,1521,000,436Более 75 лет-,497,3741,7711,183,608Семейное_положение87,6913,000Женат / Замужем-,247,04037,1691,000,781Разведенý/-на,558,10926,4051,0001,747Вдовец/ вдова-,058,119,2371,626,944Должность67,8553,000Ведущие специалисты-,122,0703,0051,083,885Оперативное руководство-,376,04959,0921,000,686Стратегическое руководство-,249,04136,4311,000,779Город61,5027,000Волгоград-,051,144,1261,722,950Москва,164,0774,4971,0341,178Н.Новгород-,657,20210,5751,001,518Ростов-на-Дону,064,123,2661,6061,066Самара-,100,121,6781,410,905Санкт-Петербург,051,082,3961,5291,053Уфа-1,541,31723,5841,000,214Страх_прод53,9433,000Дети,149,0508,8541,0031,161Премиум,199,04222,5761,0001,220Защита капитала-1,587,29528,9301,000,205Валюта_договора71,5402,000RUR,096,0572,8621,0911,101USD-,342,05046,1131,000,710Периодичность_оплаты413,5633,000Раз в полгода,891,064195,8971,0002,438Ежеквартально,754,043312,7051,0002,125Единовременно-,195,1232,5211,112,823Срок_договора_лет_группа11,6964,02010-14 лет,206,0915,1291,0241,22915-19 лет,324,1425,2021,0231,38320-24 лет,259,1911,8321,1761,29625 лет и более,417,2912,0601,1511,517Премия_первого_года_рубли_группа27,8398,00130 - 50 тыс. руб.-,028,119,0541,817,97350 - 100 тыс. руб.-,258,1363,6301,057,772100 - 200 тыс. руб.-,548,16810,6081,001,578200 -500 тыс. руб.-,527,2076,5071,011,5900.5 - 1 млн. руб.-,426,2592,6961,101,6531 - 5 млн. руб.-,731,3294,9391,026,4815 - 10 млн. руб.-,655,5701,3181,251,520Более 10 млн. руб.19,42028152,914,0001,999271719854,7Премия_текущая_рубли_группа58,8828,00030 - 50 тыс. руб.,131,139,8971,3441,14050 - 100 тыс. руб.,397,1467,3991,0071,488100 - 200 тыс. руб.,827,17522,3311,0002,286200 -500 тыс. руб.,748,20912,8371,0002,1130.5 - 1 млн. руб.,730,2498,5671,0032,0741 - 5 млн. руб.1,044,30311,8721,0012,8425 - 10 млн. руб.2,216,50419,3401,0009,170Более 10 млн. руб.-17,09928152,914,00011,000,000Итого_поступило_рубли_группа550,7408,00030 - 50 тыс. руб.1,192,098147,7431,0003,29350 - 100 тыс. руб.1,584,085344,7271,0004,875100 - 200 тыс. руб.1,463,086286,9561,0004,320200 -500 тыс. руб.,972,10388,8871,0002,6450.5 - 1 млн. руб.,881,12846,9931,0002,4131 - 5 млн. руб.,579,15513,9741,0001,7845 - 10 млн. руб.,076,308,0611,8051,079Более 10 млн. руб.-1,935,7636,4261,011,144Срок_договора_лет-,038,0139,3071,002,963Tenure,023,001294,1781,0001,023Мужчины,151,03815,6831,0001,163Constant-1,381,21640,9211,000,251

Приложение 4

Критерии оценки качества подгонки логистической регрессии (предсказание расторжения договора страхования жизни из-за неуплаты)

Шаг119 908,240,320218 763,287,383317 175,347,463416 997,354,472516 874,358,478616 789,361,482716 736,363,484816 681,365,487916 647,366,4891016 495,372,4961116 460,373,4971216 425,374,4991316 406,375,5001416 375,376,5011516 371,376,502

Приложение 5

Параметры предикторов в модели логистической регрессии, предсказывающей расторжение договоров страхования из-за неуплаты

ПредикторСтд. ошибкаСтатист. ВальдаСт. св.ЗначимостьМужчины,210,04620,6321,0001,233Женат / Замужем47,7723,000Разведенý/-на-,066,0471,9501,163,936Вдовец/ вдова,848,13738,5731,0002,335Женат / Замужем-,082,173,2261,635,921Должность40,7823,000Ведущие специалисты-,238,0906,9651,008,788Оперативное руководство-,106,0593,2301,072,899Стратегическое руководство,183,05013,1671,0001,200Город94,3407,000Волгоград,120,163,5391,4631,127Москва,048,089,2981,5851,050Н.Новгород,756,20313,9291,0002,130Ростов-на-Дону,065,138,2231,6371,067Самара,069,141,2361,6271,071Санкт-Петербург-,351,09414,0041,000,704Уфа-,112,206,2931,589,894Страх_прод91,3563,000Дети,424,05951,2801,0001,528Премиум,419,04780,1891,0001,520Защита капитала-1,3532442,527,00011,00,258Валюта_договора177,5012,000RUR1,206,113114,5071,0003,339USD-,657,07282,3591,000,519Периодичность_оплаты426,0593,000Раз в полгода,789,078101,2391,0002,201Ежеквартально1,091,054410,0321,0002,977Единовременно-19,093917,886,0001,983,000Срок_договора_лет_группа59,6484,00010-14 лет-,098,115,7251,395,90715-19 лет-,550,17010,4751,001,57720-24 лет-,713,22410,1001,001,49025 лет и более-1,778,34127,2481,000,169Премия_первого_года_рубли_группа34,2468,00030 - 50 тыс. руб.-,669,16117,2891,000,51250 - 100 тыс. руб.-,479,1906,3441,012,619100 - 200 тыс. руб.-,210,242,7541,385,811200 -500 тыс. руб.-,001,295,0001,997,9990.5 - 1 млн. руб.-,164,377,1891,664,8491 - 5 млн. руб.-,072,463,0241,876,9305 - 10 млн. руб.-16,4682508,373,0001,995,000Более 10 млн. руб.,15525821,567,00011,001,167Премия_первого_года_тыс_руб,000,0004,1851,0411,000Премия_текущая_рубли_группа34,9238,00030 - 50 тыс. руб.-,345,1813,6401,056,70950 - 100 тыс. руб.-,750,20213,8271,000,473100 - 200 тыс. руб.-1,216,25223,3101,000,297200 -500 тыс. руб.-1,397,30720,7481,000,2470.5 - 1 млн. руб.-1,792,36524,1081,000,1671 - 5 млн. руб.-2,190,44624,1121,000,1125 - 10 млн. руб.-3,189,77317,0011,000,041Более 10 млн. руб.-4,85826265,932,00011,00,008Итого_поступило_рубли_группа569,4288,00030 - 50 тыс. руб.1,698,099293,2691,0005,46450 - 100 тыс. руб.1,663,086374,8821,0005,275100 - 200 тыс. руб.1,198,091171,6181,0003,313200 -500 тыс. руб.1,237,112122,2291,0003,4450.5 - 1 млн. руб.,765,14826,7621,0002,1491 - 5 млн. руб.,985,18229,2491,0002,6795 - 10 млн. руб.-17,1792136,380,0001,994,000Более 10 млн. руб.-17,9105207,945,0001,997,000Мужчины,210,04620,6321,0001,233Срок_договора_лет,084,01532,1161,0001,087Прирост_премии_доля,018,001163,3981,0001,019Tenure-,062,002984,0111,000,940Constant-,934,21718,5091,000,393

Приложение 6

Параметры предикторов в модели регрессии Кокса, предсказывающей расторжение договоров страхования по желанию

ПредикторСтд. ошибкаСтатист. ВальдаСт. св.ЗначимостьМужчины0,250,08620,6721,040,041,273Женат / Замужем0,040,0447,8123,040,040,04Разведенý/-на-0,0260,0871,991,040,2030,976Вдовец/ вдова0,8880,17738,6131,040,042,375Женат / Замужем-0,0420,2130,2661,040,6750,961Должность0,040,0440,8223,040,040,04Ведущие специалисты-0,1980,137,0051,040,0480,828Оперативное руководство-0,0660,0993,271,040,1120,939Стратегическое руководство0,2230,0913,2071,040,041,24Город0,040,0494,387,040,040,04Волгоград0,160,2030,5791,040,5031,167Москва0,0880,1290,3381,040,6251,09Н.Новгород0,7960,24313,9691,040,042,17Ростов-на-Дону0,1050,1780,2631,040,6771,107Самара0,1090,1810,2761,040,6671,111Санкт-Петербург-0,3110,13414,0441,040,040,744Уфа-0,0720,2460,3331,040,6290,934Страх_прод0,040,0491,3963,040,040,04Дети0,4640,09951,321,040,041,568Премиум0,4590,08780,2291,040,041,56Защита капитала-1,3132442,5670,041,041,040,298Валюта_договора0,040,04177,5412,040,040,04RUR1,2460,153114,5471,040,043,379USD-0,6170,11282,3991,040,040,559Периодичность_оплаты0,040,04426,0993,040,040,04Раз в полгода0,8290,118101,2791,040,042,241Ежеквартально1,1310,094410,0721,040,043,017Единовременно-19,053917,9260,041,041,0230,04Срок_договора_лет_группа0,040,0459,6884,040,040,0410-14 лет-0,0580,1550,7651,040,4350,94715-19 лет-0,510,2110,5151,040,0410,61720-24 лет-0,6730,26410,141,040,0410,5325 лет и более-1,7380,38127,2881,040,040,209Премия_первого_года_рубли_группа0,040,0434,2868,040,040,0430 - 50 тыс. руб.-0,6290,20117,3291,040,040,55250 - 100 тыс. руб.-0,4390,236,3841,040,0520,659100 - 200 тыс. руб.-0,170,2820,7941,040,4250,851200 -500 тыс. руб.0,0390,3350,041,041,0371,0390.5 - 1 млн. руб.-0,1240,4170,2291,040,7040,8891 - 5 млн. руб.-0,0320,5030,0641,040,9160,975 - 10 млн. руб.-16,4282508,4130,041,041,0350,04Более 10 млн. руб.0,19525821,6070,041,041,041,207Премия_первого_года_тыс_руб0,040,044,2251,040,0811,04Премия_текущая_рубли_группа0,040,0434,9638,040,040,0430 - 50 тыс. руб.-0,3050,2213,681,040,0960,74950 - 100 тыс. руб.-0,710,24213,8671,040,040,513100 - 200 тыс. руб.-1,1760,29223,351,040,040,337200 -500 тыс. руб.-1,3570,34720,7881,040,040,2870.5 - 1 млн. руб.-1,7520,40524,1481,040,040,2071 - 5 млн. руб.-2,150,48624,1521,040,040,1525 - 10 млн. руб.-3,1490,81317,0411,040,040,081Более 10 млн. руб.-4,81826265,9720,041,041,040,048Итого_поступило_рубли_группа0,040,04569,4688,040,040,0430 - 50 тыс. руб.1,7380,139293,3091,040,045,50450 - 100 тыс. руб.1,7030,126374,9221,040,045,315100 - 200 тыс. руб.1,2380,131171,6581,040,043,353200 -500 тыс. руб.1,2770,152122,2691,040,043,4850.5 - 1 млн. руб.0,8050,18826,8021,040,042,1891 - 5 млн. руб.1,0250,22229,2891,040,042,7195 - 10 млн. руб.-17,1392136,420,041,041,0340,04Более 10 млн. руб.-17,875207,9850,041,041,0370,04Мужчины0,250,08620,6721,040,041,273Срок_договора_лет0,1240,05532,1561,040,041,127Прирост_премии_доля0,0580,041163,4381,040,041,059

Приложение 7

Параметры предикторов в модели регрессии Кокса, предсказывающей расторжение договоров страхования из-за неуплаты

ПредикторСтд. ошибкаСтатист. ВальдаСт. св.ЗначимостьМужчины0,230,06620,6521,020,021,253Женат / Замужем0,020,0247,7923,020,020,02Разведенý/-на-0,0460,0671,971,020,1830,956Вдовец/ вдова0,8680,15738,5931,020,022,355Женат / Замужем-0,0620,1930,2461,020,6550,941Должность0,020,0240,8023,020,020,02Ведущие специалисты-0,2180,116,9851,020,0280,808Оперативное руководство-0,0860,0793,251,020,0920,919Стратегическое руководство0,2030,0713,1871,020,021,22Город0,020,0294,367,020,020,02Волгоград0,140,1830,5591,020,4831,147Москва0,0680,1090,3181,020,6051,07Н.Новгород0,7760,22313,9491,020,022,15Ростов-на-Дону0,0850,1580,2431,020,6571,087Самара0,0890,1610,2561,020,6471,091Санкт-Петербург-0,3310,11414,0241,020,020,724Уфа-0,0920,2260,3131,020,6090,914Страх_прод0,020,0291,3763,020,020,02Дети0,4440,07951,31,020,021,548Премиум0,4390,06780,2091,020,021,54Защита капитала-1,3332442,5470,021,021,020,278Валюта_договора0,020,02177,5212,020,020,02RUR1,2260,133114,5271,020,023,359USD-0,6370,09282,3791,020,020,539Периодичность_оплаты0,020,02426,0793,020,020,02Раз в полгода0,8090,098101,2591,020,022,221Ежеквартально1,1110,074410,0521,020,022,997Единовременно-19,073917,9060,021,021,0030,02Срок_договора_лет_группа0,020,0259,6684,020,020,0210-14 лет-0,0780,1350,7451,020,4150,92715-19 лет-0,530,1910,4951,020,0210,59720-24 лет-0,6930,24410,121,020,0210,5125 лет и более-1,7580,36127,2681,020,020,189Премия_первого_года_рубли_группа0,020,0234,2668,020,020,0230 - 50 тыс. руб.-0,6490,18117,3091,020,020,53250 - 100 тыс. руб.-0,4590,216,3641,020,0320,639100 - 200 тыс. руб.-0,190,2620,7741,020,4050,831200 -500 тыс. руб.0,0190,3150,021,021,0171,0190.5 - 1 млн. руб.-0,1440,3970,2091,020,6840,8691 - 5 млн. руб.-0,0520,4830,0441,020,8960,955 - 10 млн. руб.-16,4482508,3930,021,021,0150,02Более 10 млн. руб.0,17525821,590,021,021,021,187Премия_первого_года_тыс_руб0,020,024,2051,020,0611,02Премия_текущая_рубли_группа0,020,0234,9438,020,020,0230 - 50 тыс. руб.-0,3250,2013,661,020,0760,72950 - 100 тыс. руб.-0,730,22213,8471,020,020,493100 - 200 тыс. руб.-1,1960,27223,331,020,020,317200 -500 тыс. руб.-1,3770,32720,7681,020,020,2670.5 - 1 млн. руб.-1,7720,38524,1281,020,020,1871 - 5 млн. руб.-2,170,46624,1321,020,020,1325 - 10 млн. руб.-3,1690,79317,0211,020,020,061Более 10 млн. руб.-4,83826265,950,021,021,020,028Итого_поступило_рубли_группа0,020,02569,4488,020,020,0230 - 50 тыс. руб.1,7180,119293,2891,020,025,48450 - 100 тыс. руб.1,6830,106374,9021,020,025,295100 - 200 тыс. руб.1,2180,111171,6381,020,023,333200 -500 тыс. руб.1,2570,132122,2491,020,023,4650.5 - 1 млн. руб.0,7850,16826,7821,020,022,1691 - 5 млн. руб.1,0050,20229,2691,020,022,6995 - 10 млн. руб.-17,1592136,40,021,021,0140,02Более 10 млн. руб.-17,895207,9650,021,021,0170,02Мужчины0,230,06620,6521,020,021,253Срок_договора_лет0,1040,03532,1361,020,021,107Прирост_премии_доля0,0380,021163,4181,020,021,039Tenure-0,0420,022984,0311,020,020,96Constant-0,9140,23718,5291,020,020,413

Приложение 8

Параметры модели Random Forest для предсказания расторжения по желанию

Главные правила решений для 'Расторжение_по_желанию'Правило решенийНаиболее встречаемая категорияТочность правилаТочность лесаИндекс интересности(Итого_поступило_тыс_руб > 530.6563636363636) and (Tenure <= 30.0) and (Валюта_договора = {3.0}) and (Периодичность_оплаты = {1.0,90.0}) and (Премия_текущая_рубли_группа > 4.0)0.00,9780,9780,956(Возраст_начало_договора_группа = {1.0,2.0,4.0,5.0,6.0}) and (Tenure <= 30.0) and (Валюта_договора = {3.0}) and (Премия_текущая_тыс_руб > 297.42)0.00,9730,9840,943(Срок_договора_лет <= 20.0) and (Должность = {2.0,3.0,4.0}) and (Tenure <= 3.0) and (Tenure <= 30.0)0.00,9690,9840,938(Tenure <= 30.0) and (Периодичность_оплаты = {1.0,4.0,90.0}) and (Премия_первого_года_рубли_группа > 4.0) and (Валюта_договора = {3.0}) and (Премия_текущая_тыс_руб > 185.888)0.00,9450,9540,887(Премия_текущая_тыс_руб > 1040.971) and (Должность = {1.0,3.0,4.0}) and (Tenure <= 30.0) and (Премия_первого_года_тыс_руб > 200.00147572815538)0.00,9250,9720,857

Приложение 9

Параметры модели Random Forest для предсказания расторжения из-за неуплаты

Главные правила решений для 'Расторжение_неуплата'Правило решенийНаиболее встречаемая категорияТочность правилаТочность лесаИндекс интересности(Периодичность_оплаты = {90.0}) and (Периодичность_оплаты = {1.0,90.0}) and (Премия_текущая_рубли_группа > 5.0) and (Срок_договора_лет <= 7.0) and (Итого_поступило_тыс_руб > 159.9972)0.01,0001,0001,000(Периодичность_оплаты = {90.0}) and (Срок_договора_лет_группа = {1.0})0.01,0001,0001,000(Периодичность_оплаты = {90.0}) and (Премия_первого_года_рубли_группа > 5.0)0.01,0001,0001,000(Регулярность_платежей = {0.0}) and (Tenure <= 30.0) and (Итого_поступило_тыс_руб > 159.9972)0.01,0001,0001,000(Регулярность_платежей = {0.0})0.01,0001,0001,000

Похожие работы на - Прогнозирование преждевременного расторжения договоров страхования жизни

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!