Компании "Цифры", разрабатывающей решения для эффективной работы промышленных предприятий, требуется подготовить прототип модели машинного обучения.
Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды и оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
Построить прототип модели машинного обучения, которая сможет предсказывать коэффициент обогащения и поможет оптимизировать производство.
- Подготовка данных
- Исследовательский анализ данных
- Построение и обучение различных моделей
- Проверка лучшей модели на тестовой выборке
- Итоговый вывод
В ходе проведенного исследования нам были предоставлены обучающий, тестовый и полный датасеты от условной золотодобывающей компании для подготовки прототипа модели машинного обучения.
По окончании работы наша модель должна предсказывать коэффициент восстановления золота из золотодобывающей руды. В дальнейшем, модель должна оптимизировать производство.
- На первом этапе мы загрузили необходимые для работы библиотеки, а также сохранили в переменные данные, предоставленные компанией-заказчиком. Проверили правильность формулы расчета эффективности обогащения руды. Оптимизировали признаки в обучающей и тестовой выборках и произвели предобработку данных
- На втором этапе работы, мы исследовали изменение концентрации металлов на различных этапах очистки, выявили аномальные значения в данных и удалили их. Сравнили распределения размеров гранул, чтобы оценить будет ли модель правильно предсказывать.
- На третьем этапе определили функцию для подсчета метрики sMAPE (симметричное среднее абсолютное процентное отклонение). Обучили три разные модели на обучающей выборке с перебором гиперпараметров. Для каждой модели определили лучший результат. Затем, лучшую модель проверили на тестовой выборке и сопоставили с результатами на обучающей. А также проверили адекватность нашей модели с помощью сравнения с константной модели
Итог: Таким образом, мы выявили наиболее качественной модель Lasso для машинного обучения. Она дала нам результат метрики sMAPE, равный 8,66 на обучающей выборке, и 8,54 на тестовой. При этом константная модель показала результат 9,56