Skip to main content
Solved

SIREN V3 - format Parquet corrompu

  • October 24, 2024
  • 8 replies
  • 191 views

Bonjour Ă  tous,

Je rencontre actuellement un problème avec l’un des exports de données au format Parquet. Lorsque je télécharge le fichier et tente de l’ouvrir ou de l’utiliser, j’obtiens une erreur indiquant que le fichier est corrompu.

Le dataset est le SIRENE V3 consolidée - France (https://public.opendatasoft.com/explore/dataset/economicref-france-sirene-v3/information/).
 

```
$ parquet meta economicref-france-sirene-v3.parquet
> Unknown error
java.lang.RuntimeException: file:/Users/utilisateur/Documents/code/data/economicref-france-sirene-v3.parquet is not a Parquet file. Expected magic number at tail, but found [2, 0, 0, 0]
```

Je voulais savoir si quelqu’un d’autre a déjà rencontré ce problème avec les fichiers Parquet exportés depuis Open Data Soft. Le fichier lorsque je le télécharge, ne fait jamais la même taille (500 à 610MB). Il va s’en dire que j’ai une connexion fibrée très stable.

 

Merci d’avance pour vos réponses et votre aide !

Auto-translation 🪄

Hello all,I am currently having an issue with one of the Parquet data exports. When I download the file and try to open or use it, I get an error that the file is corrupted. The dataset is the SIRENE V3 Consolidated - France (https://public.opendatasoft.com/explore/dataset/economicref-france-sirene-v3/information/). ```$ parquet meta economicref-france-sirene-v3.parquet> Unknown errorjava.lang.RuntimeException: file:/Users/user/Documents/code/data/economicref-france-sirene-v3.parquet is not a Parquet file. Expected magic number at tail, but found [2, 0, 0, 0]```I wanted to know if anyone else has had this issue with Parquet files exported from Open Data Soft. The file when I download it, is never the same size (500 to 610MB). It goes without saying that I have a very stable fiber connection. Thank you in advance for your answers and help!

Best answer by Benwa

Bonjour Ă  tous,

Merci pour les relances — et désolé que le problème traîne depuis aussi longtemps.

Quelques précisions sur la situation actuelle :

La génération d'un export Parquet complet sur les 40 millions d'entrées de SIRENE reste instable. Nous allons relancer nos équipes technique sur le sujet, mais nous ne pouvons pas nous engager sur une date de résolution.

Un point important à avoir en tête : Huwise est avant tout une plateforme d'exploration et de filtrage. Exporter l'intégralité d'un dataset de cette taille n'est pas le cas d'usage pour lequel elle est optimisée. Si votre besoin est d'avoir la base SIRENE complète en local, la source la plus fiable et directe reste l'INSEE, qui met à disposition les fichiers complets dans des formats adaptés à ce type d'usage.

Si en revanche vous travaillez sur un périmètre spécifique (par territoire, secteur, ou un sous-ensemble de champs), l'API Huwise avec filtres et clause select en ODSQL est bien adaptée — et plusieurs utilisateurs ont automatisé cette récupération par morceaux pour reconstituer ce dont ils ont besoin.

Si vous souhaitez être notifié en cas d'amélioration sur les exports, n'hésitez pas à contacter notre support en mentionnant ce fil.

8 replies

Benwa
Huwise Team
Forum|alt.badge.img
  • Huwise Team
  • October 24, 2024

Bonjour,

Nous avons effectivement un souci sur la génération de fichiers Parquet sur un grand nombre d’enregistrements comme c’est le cas sur le jeu de données SIRENE v3.

Nos équipes travaillent pour essayer de trouver une solution permettant que cette génération aboutisse.

Dans l’attente, nous vous invitons à :

  • Soit filter les donnĂ©es afin d’avoir un nombre d’enregistrements plus rĂ©duit
  • Soit tĂ©lĂ©charger l’export statique (en CSV Ă  ce jour) qui est prĂ©-gĂ©nĂ©rĂ© toutes les semaines (disponible en bas de l’onglet Export)

Nous vous prions de bien vouloir nous excuser des difficultés rencontrées.

Auto-translation 🪄

Hello,We do indeed have a problem with the generation of Parquet files on a large number of records as is the case on the SIRENE v3 dataset.Our teams are working to try to find a solution allowing this generation to succeed.In the meantime, we invite you to:Either filter the data in order to have a smaller number of recordsOr download the static export (in CSV to date) which is pre-generated every week (available at the bottom of the Export tab)We apologize for the difficulties encountered.

  • Author
  • Seeker
  • October 24, 2024

Merci pour votre réponse!
Je ne suis donc pas fou. :-)

Entendu, je vais faire ce que je peux avec le .csv!

Avez-vous une page dédiée pour suivre la résolution du problème?

Auto-translation 🪄

Thanks for your reply! So I'm not crazy. :-)Understood, I'll do what I can with the .csv!Do you have a dedicated page to track the resolution of the problem?

Benwa
Huwise Team
Forum|alt.badge.img
  • Huwise Team
  • October 24, 2024

Non vous n’êtes pas fou, ne vous inquiétez pas :-)

Nous avons une page dédiée à l’ensemble des changements de la plateforme Opendatasoft :

https://changes.opendatasoft.com/fr?all=

Sinon, vous avez la possibilité sinon d’écrire au support Opendatasoft, nous pouvons vous prévenir lorsque le problème sera corrigé en liant votre mail au ticket de correction correspondant.

Auto-translation 🪄

No, you're not crazy, don't worry :-) We have a page dedicated to all the changes to the Opendatasoft platform: https://changes.opendatasoft.com/fr?all= Otherwise, you have the option of writing to Opendatasoft support, we can let you know when the problem is corrected by linking your email to the corresponding correction ticket.

  • Author
  • Seeker
  • November 22, 2024

Bonjour,

Il semble que les exports statiques ne soient plus disponibles du tout pour ce dataset?

Également, le vitesse de DL dépasse à peine les 120kBs pour le format parquet...

 


  • Author
  • Seeker
  • January 3, 2025

Bonjour !
Avez-vous des nouvelles concernant les exports statiques de ce dataset?

Auto-translation 🪄

Hello! Do you have any news regarding the static exports of this dataset?

  • Observer
  • March 9, 2026

Bonjour,

Pour relance sur le sujet :

Export parquet ko : le fichier complet fait normalement entre 7 et 8 Go.

Le débit de téléchargement est très trop lent, et surtout n’aboutit jamais. 

J’ai parfois 300 Mo, 500 Mo, ect et le fichier est corrompu au final. La solution filtre et .csv ne me convient pas : l’intérêt est d’avoir la base complete, compressée et donc accessible en un temps correct (ce qui n’est pas le cas du .csv).

Pouvez vous svp vous attelez à la résolution du problème, qui est encore d’actualité plus d’un an après la création du topic ?

Merci


  • Observer
  • April 27, 2026

Bonjour,

Le téléchargement de la base au format Parquet n’est toujours pas disponible de manière exhaustive (cf mon dernier message)

Vous me précisiez il y a plus d’un mois avoir rencontré des problèmes dans la mise à disposition de l’export (cf mon dernier message).

Pourriez vous nous préciser quand l’export complet sera disponible au téléchargement, de manière stable et complète ?

Vous remerciant par avance pour votre aide.


Benwa
Huwise Team
Forum|alt.badge.img
  • Huwise Team
  • Answer
  • April 28, 2026

Bonjour Ă  tous,

Merci pour les relances — et désolé que le problème traîne depuis aussi longtemps.

Quelques précisions sur la situation actuelle :

La génération d'un export Parquet complet sur les 40 millions d'entrées de SIRENE reste instable. Nous allons relancer nos équipes technique sur le sujet, mais nous ne pouvons pas nous engager sur une date de résolution.

Un point important à avoir en tête : Huwise est avant tout une plateforme d'exploration et de filtrage. Exporter l'intégralité d'un dataset de cette taille n'est pas le cas d'usage pour lequel elle est optimisée. Si votre besoin est d'avoir la base SIRENE complète en local, la source la plus fiable et directe reste l'INSEE, qui met à disposition les fichiers complets dans des formats adaptés à ce type d'usage.

Si en revanche vous travaillez sur un périmètre spécifique (par territoire, secteur, ou un sous-ensemble de champs), l'API Huwise avec filtres et clause select en ODSQL est bien adaptée — et plusieurs utilisateurs ont automatisé cette récupération par morceaux pour reconstituer ce dont ils ont besoin.

Si vous souhaitez être notifié en cas d'amélioration sur les exports, n'hésitez pas à contacter notre support en mentionnant ce fil.