Ingénieur Data & Cloud

Apprenez-les-tousNature & ÉducationFreelanceJan. 2026 - PrésentEn développement

Pipeline cloud-native GCP pour automatiser la production de fiches espèces scientifiquement fiables à partir de sources hétérogènes multi-formats issues de bases officielles (INPN, GBIF, MNHN).

Conception et déploiement d'un pipeline d'ingestion multi-sources sur GCP : structuration, nettoyage, stockage analytique BigQuery - sources hétérogènes multi-formats (vidéos, images, JSON, texte)
Architecture RAG pour validation factuelle automatisée entre sources scientifiques : LangChain + FAISS pour la recherche vectorielle, LLM pour le raisonnement et la détection de contradictions inter-sources
Orchestration serverless Cloud Scheduler + Cloud Run, traitement batch des médias avec pipeline d'extraction de métadonnées

INPN · GBIF · MNHNbases de données scientifiques officielles

RAG + LLMvalidation factuelle inter-sources

GCP serverlessCloud Scheduler + Cloud Run + BigQuery

Stack