Sources de données
Dernière mise à jour : 2026-04-20
Transparence totale sur l'origine des données diffusées par Woxup Pro. Chaque champ d'une fiche est tracé (source + date d'extraction).
1. Catalogue des sources
Total : 27 sources cataloguées et documentées (snapshot 2026-04-20).
🇫🇷 Sources publiques officielles (État)
| Source | Catégorie | Licence | Fréquence | Référence |
|---|---|---|---|---|
| SIRENE (INSEE) | officiel_etat | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| RNE (Registre Nat. Entreprises - INPI) | officiel_etat | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| RGE (Reconnu Garant Environnement) | label_certif | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| Qualiopi (formation pro) | label_certif | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| BODACC (annonces legales) | officiel_etat | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| RNA (Repertoire Nat. Associations) | officiel_etat | Licence Ouverte Etalab 2.0 | trimestriel | Lien |
| Recherche-Entreprises API gouv | officiel_etat | Licence Ouverte Etalab 2.0 | ad_hoc | Lien |
| INPI Marques data.gouv | officiel_etat | Licence Ouverte Etalab 2.0 | trimestriel | Lien |
| Qualit'EnR (chauffagistes EnR) | label_certif | Public (scrape autorise) | trimestriel | Lien |
| Qualibat (BTP) | label_certif | Public (scrape autorise) | trimestriel | Lien |
| Qualifelec (electriciens) | label_certif | Public (scrape autorise) | trimestriel | Lien |
| DPE / Diagnostiqueurs ADEME | label_certif | Licence Ouverte Etalab 2.0 | mensuel | Lien |
| Marches publics BOAMP/PLACE | officiel_etat | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| Subventions data.gouv | officiel_etat | Licence Ouverte Etalab 2.0 | mensuel | Lien |
| Pole emploi (offres + entreprises) | officiel_etat | API publique gratuite | quotidien | Lien |
🏛️ Ordres professionnels
| Source | Catégorie | Licence | Fréquence | Référence |
|---|---|---|---|---|
| AMELI (pros sante) | ordre_pro | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| CNB Avocats | ordre_pro | Public | trimestriel | Lien |
| Notaires de France | ordre_pro | Public | trimestriel | Lien |
| Commissaires de justice (ex-huissiers) | ordre_pro | Public | trimestriel | Lien |
| Experts-comptables (OEC) | ordre_pro | Public | trimestriel | Lien |
| Conseil National Ordre Medecins | ordre_pro | Public | trimestriel | Lien |
| Ordre des Pharmaciens | ordre_pro | Public | trimestriel | Lien |
| Conseil National Ordre Architectes | ordre_pro | Public | trimestriel | Lien |
| Geometres-experts | ordre_pro | Public | trimestriel | Lien |
🌐 Données ouvertes tierces (licence open)
| Source | Catégorie | Licence | Fréquence | Référence |
|---|---|---|---|---|
| OpenStreetMap Overpass (geo + contacts) | tiers_geo | ODbL (share-alike) | mensuel | Lien |
| Wikidata SPARQL (entreprises notoires) | tiers_geo | CC0 | mensuel | Lien |
| Agence Bio (annuaire) | label_certif | Public scrape OK | ad_hoc | Lien |
2. Licences applicables
| Licence | Conditions de réutilisation |
|---|---|
| Licence Ouverte Etalab 2.0 | Réutilisation libre commerciale et non-commerciale, mention obligatoire de la source et de la date |
| ODbL (OpenStreetMap) | Share-alike : toute base dérivée doit être publiée sous ODbL. Attribution OSM obligatoire. |
| CC0 (Wikidata) | Domaine public, aucune restriction |
| Sources publiques scrapées | Données publiques rendues accessibles par leur propriétaire ; usage encadré par les CGU de la source d'origine |
| Données scrapées sur sites officiels d'entreprises | Information publiée par l'entreprise elle-même sur son propre site. Réutilisation à des fins légitimes (annuaire pro). |
3. Traçabilité par champ (field_evidence)
Chaque donnée affichée sur une fiche entreprise est accompagnée de :
- Le nom de la source exacte (ex: SIRENE, RGE ADEME, scrape site officiel)
- La date d'extraction
- L'URL d'origine quand disponible
- Le collecteur ayant injecté la donnée (script + version)
Cette information est visible en survol des champs sur les fiches publiques + accessible via l'API /api/v2/companies/{siren}?include_evidence=true.
4. Sources NON utilisées (par choix éthique ou juridique)
- Scraping de Pappers, Societe.com, Manageo, Verif (CGU restrictives)
- LinkedIn, Facebook, Instagram (CGU strictes + interdit de scraping)
- Avis Google Maps, TripAdvisor (CGU strictes)
- Données judiciaires non publiques
- Données de santé personnelles non agrégées
- Données fiscales non publiques
5. Mises à jour
La majorité des sources publiques officielles est rafraîchie chaque dimanche à 02h00 UTC. Les sources hebdomadaires apparaissent avec une date d'extraction de moins de 7 jours sur les fiches.
Pour signaler une donnée erronée ou demander un retrait : Droits RGPD · Signalement
Pour toute question ou demande, plusieurs canaux :
- Email : contact@woxup.fr
- DPO (délégué protection des données) : dpo@woxup.fr
- Formulaire dédié signalement / RGPD : /legal/signalement