← Freelance

Ingénieur Data & Cloud

Apprenez-les-tousNature & ÉducationFreelanceJan. 2026 - PrésentEn développement

Pipeline cloud-native GCP pour automatiser la production de fiches espèces scientifiquement fiables à partir de sources hétérogènes multi-formats issues de bases officielles (INPN, GBIF, MNHN).

  • Conception et déploiement d'un pipeline d'ingestion multi-sources sur GCP : structuration, nettoyage, stockage analytique BigQuery - sources hétérogènes multi-formats (vidéos, images, JSON, texte)
  • Architecture RAG pour validation factuelle automatisée entre sources scientifiques : LangChain + FAISS pour la recherche vectorielle, LLM pour le raisonnement et la détection de contradictions inter-sources
  • Orchestration serverless Cloud Scheduler + Cloud Run, traitement batch des médias avec pipeline d'extraction de métadonnées
INPN · GBIF · MNHNbases de données scientifiques officielles
RAG + LLMvalidation factuelle inter-sources
GCP serverlessCloud Scheduler + Cloud Run + BigQuery

Stack

PythonPython
GCPGCP
BigQueryBigQuery
Cloud RunCloud Run
Cloud SchedulerCloud Scheduler
GCS
LangChainLangChain
FAISSFAISS
RAG
LLM
apprenezlestous.frOuvrir ↗