← Freelance
Ingénieur Data & Cloud
Pipeline cloud-native GCP pour automatiser la production de fiches espèces scientifiquement fiables à partir de sources hétérogènes multi-formats issues de bases officielles (INPN, GBIF, MNHN).
- Conception et déploiement d'un pipeline d'ingestion multi-sources sur GCP : structuration, nettoyage, stockage analytique BigQuery - sources hétérogènes multi-formats (vidéos, images, JSON, texte)
- Architecture RAG pour validation factuelle automatisée entre sources scientifiques : LangChain + FAISS pour la recherche vectorielle, LLM pour le raisonnement et la détection de contradictions inter-sources
- Orchestration serverless Cloud Scheduler + Cloud Run, traitement batch des médias avec pipeline d'extraction de métadonnées
INPN · GBIF · MNHNbases de données scientifiques officielles
RAG + LLMvalidation factuelle inter-sources
GCP serverlessCloud Scheduler + Cloud Run + BigQuery
Stack