Skip to content

Web Scraping project written in Go, based on WebGlobal evaluation.

License

Notifications You must be signed in to change notification settings

lucaslimafernandes/WebScraping-Go

Repository files navigation

WebScraping-Go

Web Scraping project written in Go, based on WebGlobal evaluation.

About this project

This project is part of studies on the Go/Golang programming language.

Using Go1.22.2 linux/amd64 and go-colly, I crawl all product URLs and then scrape the data.

Saving URL's in txt file and product's name, SKU and price in CSV file.

Run

Usage go run main.go [OPTIONS]
or ./web-scraping-go [OPTIONS]

-crawler		Run the crawler to discover all products URLs!
-scrape		    Run the scraper to collect all products data!
-nthreads 100	Set threads number, optional, default 100

Author

Lucas Lima Fernandes

Benchmarks

Perfomance

  • 132.365 products - 100 nthreads
  • Iniciou: 21:59:21
  • Terminou: 22:22:22
  • Levou: 22m50.503719862s

Contributing

Feel free to open new issues and PR's.

About evaluation

📌 Avaliação Python

Avaliação de seleção de candidatos ao cargo de programador Python (Ago/2021)

🕷 Spider / Web Crawler

Um Web Crawler ou Spider, é uma programa de computador, ou robô, que navega por sites da internet de forma metódica e automatizada.

O principal propósito de um Web Crawler é fazer o rastreamento de novas páginas e indexá-las. Em geral, ele começa com uma lista de URLs para visitar (páginas-chave ou sementes), e à medida que o crawler visita essas URLs, ele identifica e extrai todos os links contidos da página e os armazena em uma lista.

O seu primeiro desafio consiste na construção de um web crawler implementando em Python, que seja capaz de identificar e indexar um mínimo de 75 URLs dos produtos ofertados pelo site da DrogaRaia:

http://www.drogaraia.com.br/

Sugestões de Páginas Chave:

https://www.drogaraia.com.br/medicamentos.html
https://www.drogaraia.com.br/beleza.html
https://www.drogaraia.com.br/cabelo.html
https://www.drogaraia.com.br/bem-estar.html
https://www.drogaraia.com.br/mamae-e-bebe.html

As URLs devem ser gravadas em um arquivo texto no seguinte formato:

https://www.drogaraia.com.br/raia-multi-50-60-capsulas.html
https://www.drogaraia.com.br/maracugina-90mg-ml-solucao-com-100ml.html
https://www.drogaraia.com.br/catarinense-cloreto-de-magnesio-com-100-comprimidos.html
https://www.drogaraia.com.br/fertisop-com-30-saches-4g-cada.html
https://www.drogaraia.com.br/colflex-complet-60-comprimidos.html
https://www.drogaraia.com.br/regenesis-pre-30-capsulas.html
https://www.drogaraia.com.br/zero-cal-adocante-po-sucralose-com-50-sache-600mg-cada.html
https://www.drogaraia.com.br/bio-c-vitamina-1g-30-comprimidos-efervecentes.html
https://www.drogaraia.com.br/omega-3-kit-catarinense-nutricacao-1000mg-2-fracos-com-120-capsulas-cada-1-frasco-com-60-capsulas-gratis.html

🕸 Web Scrapping

Web Scrapping, é uma forma de mineração de dados que permite a extração de dados de sites da web convertendo-os em informação estruturada. O tipo mais básico de coleta é o download manual das páginas, copiando e colando o conteúdo, e isso pode ser feito por qualquer pessoa. Contudo, essa técnica geralmente é feita através de um software que simula uma navegação humana e extraindo as informações de interesse.

Seu segundo desafio é construir um Web Scrapper em linguagem Python capaz de extrair a Descrição, o Preço e o código SKU de cada um dos produtos indexados no desafio anterior.

Exemplo de Saída Esperada:

Nome="Suplemento Alimentar Cloreto de Magnésio P.A. Catarinense Nutrição com 100 comprimidos" Preco=R$39.90 SKU=26602
Nome="Suplemento Vitamínico em Pó Myralis FertiSop com 30 sachês" Preco=R$127.99 SKU=33072
Nome="Colflex Complet 40mg Colágeno Tipo II Não Hidrolisado com 60 Comprimidos" Preco=R$159.99 SKU=72575
Nome="Adoçante em Pó Zero-Cal Sucralose com 50 sachês de 600mg cada" Preco=R$8.59 SKU=113154
Nome="Suplemento Alimentar ReGenesis Pré com 30 cápsulas" Preco=R$99.99 SKU=71533
Nome="Vitamina C Bio-C 1g Sabor Laranja com 30 comprimidos efervescentes" Preco=R$28.99 SKU=33285
Nome="Kit Complexo Vitamínico Ômega 3 1000mg " Preco=R$98.49 SKU=73113
Nome="Choco Soy Pops Banana Passa Coberta com Chocolate com 40g" Preco=R$8.05 SKU=33851

🍀 Boa Sorte! 🍀

About

Web Scraping project written in Go, based on WebGlobal evaluation.

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages