Условный заказчик исследования - «Бета-Банк» - предоставил исторические данные о поведении клиентов и расторжении договоров с банком. Необходимо построить модель с предельно большим значением F1-меры, но не менее 0.59. Дополнительно необходимо измерить AUC-ROC и сравнить её значение с F1-мерой.
Спрогнозировать, уйдёт ли в ближайшее время клиент из банка.
- Подготовка данных
- Исследование задачи
- Модель DecisionTree
- Модель RandomForest
- Модель LogisticRegression
- ROC-кривая
- Борьба с дисбалансом
- Добавление class_weight='balanced'
- Увеличение выборки
- Увеличение выборки с балансировкой классов
- Уменьшение выборки с балансировкой классов
- Краткий вывод
- Тестирование модели
- Итоговый вывод
Прежде, чем резюмировать результаты исследования, нужно определить по каким параметрам мы выбирали лучшую модель. Метриками качества мы выбрали F1_score и AUC-ROC.
Оценка F1 – среднее гармоническое значение Точности измерений (Accuracy) и Отзыва (Recall) с Весами (Weight) при наличии. F1 обычно более полезна, чем точность измерений, особенно если распределение классов неравномерно.
Площадь под ROC-кривой (AUC-ROC) – это метрика оценки для задач Бинарной классификации. Площадь под кривой (AUC) является мерой способности классификатора различать классы и используется в качестве сводки кривой ROC. ROC-кривая помогает визуализировать, насколько хорошо работает классификатор машинного обучения.
В исследовании, мы рассмотрели 5 методов борьбы с дисбалансом в данных. Настройка весов признаков в моделях, увеличение и уменьшение выборок и совмещение их с настройкой весов.
Наилучший показатель дала модель Случайного леса при обучении её на выборке с увеличением положительных классов. Метрика F1 дала результат в 0.612, а значение AUC-ROC - 0.847 и модель Случайного леса с балансировкой класса аргументом class_weight='balanced' F1 = 0.611 и AUC-ROC = 0.854. Худшие показатель дали модели, обученные алгоритмом Линейная регрессия со всему методами балансировки. Метрики F1 лежат в пределах 0.480 - 0.491, а AUC-ROC - в пределах 0.694 - 0.702. Таким образом, самой качественной моделью была принята модель Случайный лес, обученная на выборке с увеличением положительных классов. Её мы и приняли за наилучшую.
После проведения финального тестирования на тестовой выборке были получены значения метрик F1 = 0.605 и AUC-ROC = 0.747. Результаты удовлетворяют условию, и даже превосходят его на 2.5%