-
Notifications
You must be signed in to change notification settings - Fork 6
/
crawler.py
54 lines (46 loc) · 1.7 KB
/
crawler.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
import csv
import json
import requests
from bs4 import BeautifulSoup
lista_de_vagas = []
linkedin_url = "https://www.linkedin.com/jobs/search"
response = requests.get(
linkedin_url,
params={
"keywords": "Desenvolvedor Junior",
"location": "Brazil",
"trk": "guest_homepage-basic_guest_nav_menu_jobs",
},
)
contexto = BeautifulSoup(response.content, "html.parser")
seleciona_vagas = contexto.select(".jobs-search__results-list li")
for vaga in seleciona_vagas:
titulo = vaga.select(".base-search-card__title")[0].text.strip()
empresa = vaga.select(".base-search-card__subtitle")[0].text.strip()
localidade = vaga.select(".job-search-card__location")[0].text.strip()
data_publicacao = vaga.find("time").get("datetime")
if len(vaga.select(".hidden-nested-link")) == 0:
link = vaga.select(".base-card")[0].get("href")
else:
link = vaga.select(".hidden-nested-link")[0].get("href")
print(f"Vaga: {titulo}")
print(f"Empresa: {empresa}")
print(f"Localidade: {localidade}")
print(f"Data de publicação: {data_publicacao}")
print(f"Link da vaga: {link}")
print("########\n\n\n")
info = {
"vaga": titulo,
"empresa": empresa,
"localidade": localidade,
"data_publicacao": data_publicacao,
"link": link,
}
lista_de_vagas.append(info)
with open("vagas.json", "w") as arquivo_json:
arquivo_json.write(json.dumps(lista_de_vagas))
with open("vagas.csv", mode="w") as arquivo_csv:
cabecalho = ["vaga", "empresa", "localidade", "data_publicacao", "link"]
gerador_csv = csv.DictWriter(arquivo_csv, fieldnames=cabecalho)
gerador_csv.writeheader()
gerador_csv.writerows(lista_de_vagas)