Skip to content

На основании данных о поведении клиентов построить модель с максимально большим значением F1 для задачи классификации, которая будет определять клиентов, склонных к оттоку.

Notifications You must be signed in to change notification settings

ejay34/04_churn_forecast

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

Прогноз оттока клиентв

Условный заказчик исследования - «Бета-Банк» - предоставил исторические данные о поведении клиентов и расторжении договоров с банком. Необходимо построить модель с предельно большим значением F1-меры, но не менее 0.59. Дополнительно необходимо измерить AUC-ROC и сравнить её значение с F1-мерой.

Цель исследования:

Спрогнозировать, уйдёт ли в ближайшее время клиент из банка.

Этапы исследования:

  1. Подготовка данных
  2. Исследование задачи
  • Модель DecisionTree
  • Модель RandomForest
  • Модель LogisticRegression
  • ROC-кривая
  1. Борьба с дисбалансом
  • Добавление class_weight='balanced'
  • Увеличение выборки
  • Увеличение выборки с балансировкой классов
  • Уменьшение выборки с балансировкой классов
  1. Краткий вывод
  2. Тестирование модели
  3. Итоговый вывод

Итоговый вывод:

Прежде, чем резюмировать результаты исследования, нужно определить по каким параметрам мы выбирали лучшую модель. Метриками качества мы выбрали F1_score и AUC-ROC.

Оценка F1 – среднее гармоническое значение Точности измерений (Accuracy) и Отзыва (Recall) с Весами (Weight) при наличии. F1 обычно более полезна, чем точность измерений, особенно если распределение классов неравномерно.

Площадь под ROC-кривой (AUC-ROC) – это метрика оценки для задач Бинарной классификации. Площадь под кривой (AUC) является мерой способности классификатора различать классы и используется в качестве сводки кривой ROC. ROC-кривая помогает визуализировать, насколько хорошо работает классификатор машинного обучения.

В исследовании, мы рассмотрели 5 методов борьбы с дисбалансом в данных. Настройка весов признаков в моделях, увеличение и уменьшение выборок и совмещение их с настройкой весов.

Наилучший показатель дала модель Случайного леса при обучении её на выборке с увеличением положительных классов. Метрика F1 дала результат в 0.612, а значение AUC-ROC - 0.847 и модель Случайного леса с балансировкой класса аргументом class_weight='balanced' F1 = 0.611 и AUC-ROC = 0.854. Худшие показатель дали модели, обученные алгоритмом Линейная регрессия со всему методами балансировки. Метрики F1 лежат в пределах 0.480 - 0.491, а AUC-ROC - в пределах 0.694 - 0.702. Таким образом, самой качественной моделью была принята модель Случайный лес, обученная на выборке с увеличением положительных классов. Её мы и приняли за наилучшую.

После проведения финального тестирования на тестовой выборке были получены значения метрик F1 = 0.605 и AUC-ROC = 0.747. Результаты удовлетворяют условию, и даже превосходят его на 2.5%

About

На основании данных о поведении клиентов построить модель с максимально большим значением F1 для задачи классификации, которая будет определять клиентов, склонных к оттоку.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published