(ссылка на проект https://colab.research.google.com/drive/1xwfnXUaP8w2dc-riTp5c_DDAJN0eKe_w?usp=sharing)
(ссылка на датасет https://drive.google.com/file/d/17ymUc_BW7Op-Xy1wfycFswszwE2-OQ0z/view?usp=sharing)
- Описание проекта
- Основная проблема проекта?
- Краткая информация о данных
- Этапы работы над проектом
- Результат
- Выводы
На основе датасета резюме с сайта поиска вакансий hh.ru, необходимо подготовить первичные данные для построения модели, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе.
Необходимо подготовить имеющиеся данные путем их преобразования с возможностью дальнейшего исследования и проведения очистки, это позволит в дальнейшем построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе в соем резюме.
Условия выполнения проекта:
- Осуществить базовый анализ структуры данных
- Выполнить преобразование данных
- Сделать разведывательный анализ
- Произвести очистка данных
Оценка результатов: Результаты оцениваются согласно требованиям, указанным к проекту. Необходимо: ответить на контрольные вопросы (максимум 30 баллов), сдать проект на проверку, загрузив ноутбук-шаблон со своим решением на GitHub (максимум 10 баллов)
Чему учимся: Учимся корректно писать код на Python для анализа и преобразовывать исходные данные, практикуем методы очистки данных, навыки по представлению проекта на GitHub
В данном проекте первоначальные данные представлены в виде датасета размером: 44744 строки, 12 столбцов, типа object, в отдельных столбцах присутствуют пропуски и дубликаты. В связи с этим необходимо более детально проанализировать первоначальные данные, сделать выводы о дальнейших преобразованиях.
данные используемые в проекте:
- dst-3.0_16_1_hh_database.csv - база резюме, выгруженная с сайта поиска вакансий hh.ru
- ExchangeRates.csv - курсы валют
- Ознакомление с описанием задачи
- Базовый анализ исходных данных
- Преобразование данных
- Разведывательный анализ
- Очистка данных
- Проверка соответствия написанного кода стандарту PEP8
- Оформление проекта
- Загрузка проекта на GitHub
Проект c "Анализ резюме из HeadHunter " представлен в репозитории на GitHub
В процессе выполнения проекта первоначальные данные были проанализированы, преобразованы, проведен разведывательный анализ данных с последующей визуализацией результатов с целью выявления взаимосвязей между признаками, данные были очищены от пропусков и дубликатов. Таким образом первоначальный датасет подготовлен для дальнейшего использования при построении требуемой модели.