ссылка на проект https://colab.research.google.com/drive/1xwfnXUaP8w2dc-riTp5c_DDAJN0eKe_w?usp=sharing)
ссылка на датасет hotels_train.csv hotels_test.csv submission.csv
- Описание проекта
- Основная проблема проекта?
- Краткая информация о данных
- Этапы работы над проектом
- Результат
- Выводы
Представьте, что вы работаете датасаентистом в компании Booking. Одна из проблем компании — это нечестные отели, которые накручивают себе рейтинг. Одним из способов нахождения таких отелей является построение модели, которая предсказывает рейтинг отеля. Если предсказания модели сильно отличаются от фактического результата, то, возможно, отель играет нечестно, и его стоит проверить. Вам поставлена задача создать такую модель.
Необходимо подготовить имеющиеся данные путем их преобразования для дальнейшего их использования для обучения модели, которая будет предсказывать рейтинг отеля.
Условия выполнения проекта:
- Очистка данных.
- Исследование данных (качество визуализации, наличие идей, гипотез, комментариев).
- Генерация признаков.
- Отбор признаков.
- Преобразование признаков.
- Качество решения: результат метрики MAPE.
Оценка результатов: Результаты оцениваются согласно требованиям, указанным к проекту. Необходимо: подготовить данные и обучить модель (максимум 21 балл), сдать проект на проверку, загрузив ноутбук-шаблон со своим решением на GitHub и в Kaggle
Чему учимся: Учимся корректно писать код на Python для анализа и преобразовывать исходные данные, практикуем методы очистки данных, навыки по представлению проекта на GitHub и в Kaggle
В данном проекте первоначальные данные представлены в виде 2х датасетов размерами: hotel_train.csv - 386803 строк, 17 столбцов, типа object, int64, float64 и hotel_test.csv - 128935 строк, 16 столбцов типа object, int64, float64, в отдельных столбцах присутствуют пропуски. В связи с этим необходимо более детально проанализировать первоначальные данные, сделать выводы о дальнейших преобразованиях.
данные используемые в проекте:
- hotels_train.csv - набор данных для обучения
- hotels_test.csv - набор данных для оценки качества
- submission.csv - файл сабмишна в нужном формате
- Ознакомление с описанием задачи
- Базовый анализ исходных данных
- Преобразование данных
- Разведывательный анализ
- Очистка данных
- Проверка соответствия написанного кода стандарту PEP8
- Оформление проекта
- Загрузка проекта на GitHub и в Kaggle
Проект модели, которая будет предсказывать рейтинг отеля представлен в репозитории на GitHub и в Kaggle
В процессе выполнения проекта первоначальные данные были проанализированы, преобразованы, проведен разведывательный анализ данных с последующей визуализацией результатов с целью выявления взаимосвязей между признаками, данные были очищены от пропусков. Таким образом первоначальный датасет подготовлен для дальнейшего использования при обучении модели.