Skip to content

ElenaSaveleva/PROJECT-3.-EDA-Feature-Engineering

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 

Repository files navigation

PROJECT-3.-EDA-Feature-Engineering

ссылка на проект https://colab.research.google.com/drive/1xwfnXUaP8w2dc-riTp5c_DDAJN0eKe_w?usp=sharing)

ссылка на датасет hotels_train.csv hotels_test.csv submission.csv

Оглавление

  1. Описание проекта
  2. Основная проблема проекта?
  3. Краткая информация о данных
  4. Этапы работы над проектом
  5. Результат
  6. Выводы

Описание проекта

Представьте, что вы работаете датасаентистом в компании Booking. Одна из проблем компании — это нечестные отели, которые накручивают себе рейтинг. Одним из способов нахождения таких отелей является построение модели, которая предсказывает рейтинг отеля. Если предсказания модели сильно отличаются от фактического результата, то, возможно, отель играет нечестно, и его стоит проверить. Вам поставлена задача создать такую модель.

⬆️к оглавлению

Основная проблема проекта?

Необходимо подготовить имеющиеся данные путем их преобразования для дальнейшего их использования для обучения модели, которая будет предсказывать рейтинг отеля.

Условия выполнения проекта:

  • Очистка данных.
  • Исследование данных (качество визуализации, наличие идей, гипотез, комментариев).
  • Генерация признаков.
  • Отбор признаков.
  • Преобразование признаков.
  • Качество решения: результат метрики MAPE.

Оценка результатов: Результаты оцениваются согласно требованиям, указанным к проекту. Необходимо: подготовить данные и обучить модель (максимум 21 балл), сдать проект на проверку, загрузив ноутбук-шаблон со своим решением на GitHub и в Kaggle

Чему учимся: Учимся корректно писать код на Python для анализа и преобразовывать исходные данные, практикуем методы очистки данных, навыки по представлению проекта на GitHub и в Kaggle

⬆️к оглавлению

Краткая информация о данных

В данном проекте первоначальные данные представлены в виде 2х датасетов размерами: hotel_train.csv - 386803 строк, 17 столбцов, типа object, int64, float64 и hotel_test.csv - 128935 строк, 16 столбцов типа object, int64, float64, в отдельных столбцах присутствуют пропуски. В связи с этим необходимо более детально проанализировать первоначальные данные, сделать выводы о дальнейших преобразованиях.

данные используемые в проекте:

  • hotels_train.csv - набор данных для обучения
  • hotels_test.csv - набор данных для оценки качества
  • submission.csv - файл сабмишна в нужном формате

⬆️к оглавлению

Этапы работы над проектом

  • Ознакомление с описанием задачи
  • Базовый анализ исходных данных
  • Преобразование данных
  • Разведывательный анализ
  • Очистка данных
  • Проверка соответствия написанного кода стандарту PEP8
  • Оформление проекта
  • Загрузка проекта на GitHub и в Kaggle

⬆️к оглавлению

Результат

Проект модели, которая будет предсказывать рейтинг отеля представлен в репозитории на GitHub и в Kaggle

⬆️к оглавлению

Выводы

В процессе выполнения проекта первоначальные данные были проанализированы, преобразованы, проведен разведывательный анализ данных с последующей визуализацией результатов с целью выявления взаимосвязей между признаками, данные были очищены от пропусков. Таким образом первоначальный датасет подготовлен для дальнейшего использования при обучении модели.

⬆️к оглавлению

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published