Colección de scripts de Python con PyArrow y Pandas para tratar ficheros parquet de manera rápida: ver el esquema del parquet, convertir a CSV, comprobar filas duplicadas y fusionar archivos parquet.
Asegúrate de tener las siguientes bibliotecas instaladas en tu entorno de Python:
- pandas
- pyarrow
Puedes instalar estas bibliotecas utilizando el siguiente comando:
pip install pandas pyarrow
Ejecuta el script para ver el esquema de un archivo Parquet:
python parquet_schema.py -f <filename.parquet>
Donde <filename.parquet>
es la ruta del archivo en formato Parquet.
Ejecuta el script para convertir un archivo Parquet a CSV de la siguiente manera:
python parquetcsv.py -f <filename.parquet>
Donde <filename.parquet>
es la ruta del archivo en formato Parquet que deseas convertir a CSV.
Además, el script verifica la presencia de filas duplicadas en el conjunto de datos y las muestra en la salida estándar si se encuentran.
Ejecuta el script de la siguiente manera para verificar y mostrar filas duplicadas:
python parquetcsv.py -f <filename.parquet>
El script parquet_merge.py
permite fusionar archivos Parquet. Puede combinar dos o más archivos Parquet en uno solo, utilizando una columna común para la unión. Aquí tienes un ejemplo de uso:
python parquet_merge.py -f file1.parquet file2.parquet [file3.parquet ...] -o merged_result.parquet
-f
: Especifica que los nombres de archivo Parquet seguirán a esta opción.-o
: Opcional. Especifica el nombre del archivo de salida. Si no se proporciona, el nombre predeterminado esmerged_result.parquet
.
Nota: Asegúrate de que las bibliotecas necesarias estén instaladas antes de ejecutar el script. En caso de que alguna biblioteca no esté instalada, el script imprimirá un mensaje indicando cuál biblioteca falta.
Si encuentras problemas o tienes sugerencias de mejora, no dudes en abrir un problema o enviar un mensaje.