Hymaïa Datadictionary | Qu'est-ce que le Data Mesh ?

Partager la définition

Termes similaires

Le Data Mesh est un paradigme d'architecture et d'organisation des donnees propose par Zhamak Dehghani en 2019. Il remet en question le modele centralise dominant (data warehouse unique, equipe data centrale) en proposant une approche decentralisee ou chaque domaine metier est responsable de ses propres donnees.

Le probleme que le Data Mesh resout

Le modele centralise classique fonctionne bien a petite echelle, mais montre ses limites quand l'organisation grandit :

Goulot d'etranglement : une equipe data centrale recoit plus de demandes qu'elle ne peut en traiter. Les delais s'allongent, les priorites se multiplient, la frustration monte.
Deconnexion metier : l'equipe centrale maitrise les outils techniques mais manque de contexte metier. Les donnees produites sont techniquement correctes mais peu pertinentes pour les utilisateurs.
Architecture monolithique : le data warehouse ou le data lake central devient un systeme complexe, fragile et couteux a faire evoluer.
Propriete floue : quand les donnees sont "a tout le monde", elles ne sont a personne. La qualite se degrade faute de responsable clair.

Les 4 piliers du Data Mesh

#### 1. Domain Ownership (Propriete par domaine)

Chaque domaine metier (ventes, finance, produit, RH) est responsable de la production et de la qualite de ses propres donnees. L'equipe qui produit les donnees en est aussi la garante. Ce principe est directement inspire du Domain-Driven Design (DDD) d'Eric Evans, qui structure les systemes logiciels autour des domaines metier.

Concretement, cela signifie que l'equipe Finance ne demande plus a l'equipe Data centrale de construire un pipeline de revenus — elle le construit elle-meme, avec ses Data Engineers integres.

#### 2. Data as a Product

Les donnees ne sont pas un sous-produit des operations, mais un produit a part entiere. Chaque domaine publie ses donnees sous forme de Data Products avec des standards de qualite : documentation, SLA de fraicheur, schema versionne, interface d'acces standardisee. Le Data Product Manager ou le Data Steward du domaine joue le role de responsable produit.

Ce pilier est detaille dans l'article Data as a Product du datactionary.

#### 3. Self-Serve Data Platform

Pour que les domaines puissent etre autonomes sans que chacun reinvente la roue, une Data Platform en self-service fournit les briques techniques communes : stockage, orchestration, monitoring, catalogue de donnees, gestion des acces. L'equipe plateforme fournit les outils, les domaines les utilisent.

Cette plateforme est construite et maintenue par des Data Engineers dedies a l'infrastructure, distincts des Data Engineers qui travaillent au sein des domaines metier. Les technologies sous-jacentes reposent generalement sur le Cloud (AWS, GCP, Azure) et le Modern Data Stack.

#### 4. Federated Computational Governance

La Data Governance n'est plus centralisee mais federee : des standards globaux (conventions de nommage, politiques de securite, regles de qualite) sont definis collectivement et appliques de maniere automatisee sur l'ensemble des Data Products. Chaque domaine est responsable de l'application de ces standards sur ses propres donnees.

Le mot "computational" est important : les regles de gouvernance sont encodees dans le code et les pipelines, pas dans des documents PDF ignores. Les Data Contracts entre domaines formalisent ces engagements.

Conditions de succes

Le Data Mesh n'est pas une solution universelle. Certaines conditions favorisent son adoption :

Taille de l'organisation : le Data Mesh prend son sens a partir d'une certaine echelle (plusieurs equipes data, plusieurs domaines). Pour une startup de 20 personnes, une equipe data centralisee reste plus efficace.
Maturite data : les equipes de domaine doivent avoir les competences pour gerer leurs propres donnees, ou etre accompagnees dans cette montee en competence.
Sponsorship de la direction : le Data Mesh implique un changement organisationnel qui depasse le perimetre de la DSI.
Investissement plateforme : la plateforme en self-service est un prerequis — sans elle, la decentralisation mene au chaos.

Ce que le Data Mesh n'est pas

Ce n'est pas une technologie : c'est un paradigme organisationnel et architectural. Aucun outil ne "fait du Data Mesh" tout seul.
Ce n'est pas l'absence de gouvernance : la decentralisation ne signifie pas l'anarchie. La gouvernance federee est aussi structuree que la gouvernance centralisee, mais distribuee differemment.
Ce n'est pas incompatible avec un data warehouse : un domaine peut tres bien publier ses Data Products dans un data warehouse partage, a condition de respecter les standards globaux.

En pratique

Les organisations qui adoptent le Data Mesh procedent generalement de maniere incrementale : elles commencent par un ou deux domaines pilotes, mettent en place la plateforme self-service, definissent les premiers standards de gouvernance, puis etendent progressivement. La transition complete prend generalement 18 a 36 mois selon la taille de l'organisation.

Fait intéressant

Zhamak Dehghani presente le Data Mesh comme un "shift socio-technique" — a la fois technologique, organisationnel et culturel. Le terme est choisi deliberement pour souligner que le changement d'outils ne suffit pas : c'est la maniere dont les equipes travaillent ensemble autour des donnees qui doit evoluer.

Qu'est-ce que le Data Mesh ?