You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
À vue de nez ça se passe par ici, du moins pour les fichiers SIRENE au format v2019 (ceux qui m'intéressent).
Je vois qu'à aucun moment les données CSV sont persistées sur le disque dans un format décompressé.
Naïvement je ferais un script Python qui ressemble à ça :
importpandasaspd# prend le premier argument de la commande comme chemin de dossier ou fichierdf=pd.read_csv("path/to/.gz") # pd.read_csv() gère les csv gzippés# je corrige les dtypes# ...df.to_parquet("path/to/.parquet)
Si le contenu du gzip tient en mémoire, ça devrait marcher.
Bonjour,
Afin de proposer un format de fichier
serait-il possible de proposer également les données au format Parquet ?
Je veux bien m'en charger si une personne bien informée me dit où cela doit être ajouté dans le flow de publication 😃
The text was updated successfully, but these errors were encountered: