Прогноз оттока клиентв

Условный заказчик исследования - «Бета-Банк» - предоставил исторические данные о поведении клиентов и расторжении договоров с банком. Необходимо построить модель с предельно большим значением F1-меры, но не менее 0.59. Дополнительно необходимо измерить AUC-ROC и сравнить её значение с F1-мерой.

Цель исследования:

Спрогнозировать, уйдёт ли в ближайшее время клиент из банка.

Этапы исследования:

Подготовка данных
Исследование задачи

Модель DecisionTree
Модель RandomForest
Модель LogisticRegression
ROC-кривая

Борьба с дисбалансом

Добавление class_weight='balanced'
Увеличение выборки
Увеличение выборки с балансировкой классов
Уменьшение выборки с балансировкой классов

Краткий вывод
Тестирование модели
Итоговый вывод

Итоговый вывод:

Прежде, чем резюмировать результаты исследования, нужно определить по каким параметрам мы выбирали лучшую модель. Метриками качества мы выбрали F1_score и AUC-ROC.

Оценка F1 – среднее гармоническое значение Точности измерений (Accuracy) и Отзыва (Recall) с Весами (Weight) при наличии. F1 обычно более полезна, чем точность измерений, особенно если распределение классов неравномерно.

Площадь под ROC-кривой (AUC-ROC) – это метрика оценки для задач Бинарной классификации. Площадь под кривой (AUC) является мерой способности классификатора различать классы и используется в качестве сводки кривой ROC. ROC-кривая помогает визуализировать, насколько хорошо работает классификатор машинного обучения.

В исследовании, мы рассмотрели 5 методов борьбы с дисбалансом в данных. Настройка весов признаков в моделях, увеличение и уменьшение выборок и совмещение их с настройкой весов.

Наилучший показатель дала модель Случайного леса при обучении её на выборке с увеличением положительных классов. Метрика F1 дала результат в 0.612, а значение AUC-ROC - 0.847 и модель Случайного леса с балансировкой класса аргументом class_weight='balanced' F1 = 0.611 и AUC-ROC = 0.854. Худшие показатель дали модели, обученные алгоритмом Линейная регрессия со всему методами балансировки. Метрики F1 лежат в пределах 0.480 - 0.491, а AUC-ROC - в пределах 0.694 - 0.702. Таким образом, самой качественной моделью была принята модель Случайный лес, обученная на выборке с увеличением положительных классов. Её мы и приняли за наилучшую.

После проведения финального тестирования на тестовой выборке были получены значения метрик F1 = 0.605 и AUC-ROC = 0.747. Результаты удовлетворяют условию, и даже превосходят его на 2.5%

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
04_churn_forecast.ipynb		04_churn_forecast.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Прогноз оттока клиентв

Цель исследования:

Этапы исследования:

Итоговый вывод:

About

Releases

Packages

Languages

ejay34/04_churn_forecast

Folders and files

Latest commit

History

Repository files navigation

Прогноз оттока клиентв

Цель исследования:

Этапы исследования:

Итоговый вывод:

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages