Durante o curso "Bancos de Dados e SQL para Ciência de Dados da IBM", desenvolvi um projeto abrangendo a análise exploratória de dados nutricionais do cardápio popular do McDonald's.
- IBM DB2 Warehouse: Banco de dados em nuvem utilizado para armazenar os dados nutricionais.
- Python: Linguagem de programação utilizada para análise e manipulação de dados.
- Jupyter Notebook: Ambiente interativo que facilitou a execução de códigos em Python e visualização dos resultados.
O carregamento de dados no Db2 Warehouse foi realizado em quatro etapas principais:
- Obter: Captura dos dados originais.
- Segmentar: Divisão dos dados em porções adequadas.
- Definir: Estabelecimento das estruturas e relações de dados.
- Finalizar: Confirmação e finalização do carregamento.
Posteriormente, os dados armazenados foram acessados usando scripts Python, permitindo recuperação e gravação no Db2. Estes scripts, executados no Jupyter Notebook, também possibilitaram a geração de modelos estatísticos e análises avançadas.
Focamos na identificação do item do menu do McDonald's com o maior teor de sódio. Para visualização e análise, foram empregados:
- Gráfico de dispersão.
- Gráfico de caixa (Box plot).
Este projeto proporcionou uma compreensão aprofundada sobre análise exploratória de dados e a utilização eficiente de ferramentas como o IBM DB2 Warehouse, Python e Jupyter Notebook, especialmente ao lidar com datasets volumosos.