Skip to content

weldermartins/airflow-spark

Repository files navigation

O contexto do projeto será normalizar os arquivos json que estão dentro da pasta Datalake, utilizando o Airflow como orquestrador e o Spark para ingestão.

Execute o comando para criar a imagem e container

docker-compose up -d --build 

Execute o comando para subir o container

docker-compose up -d 

O arquivo Dockerfile irá baixar e setar as variaveis:

  • Java
  • python
  • spark
    scheme

Criando a conexão Spark no Airflow

scheme

A primeira DAG irá fazer uma contagem de cada palavra de um texto

scheme

A primeira DAG irá fazer uma contagem de cada palavra de um texto

scheme

Retorno da DAG

scheme

Segunda Dag traz um exemplo de normalização de dados

scheme

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published