Datadictionary
Cette page recense de nombreuses thématiques et tendances Data pour bien comprendre ce qu'il y a derrière. À chaque thématique, nous y associons une définition ainsi que des liens utiles pour aller plus loin.
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
AI ACT
L’IA Act (Artificielle Intelligence Act) est un règlement qui vise à encadrer et favoriser le développement et la commercialisation des systèmes d’IA en Union européenne.
AWS
AWS est un provisionner de Cloud. Réputé pour sa pléthore de services managés (déjà plus de 90 en 2017), vous n’êtes pas prêt d’en avoir fait le tour.
Analyse des erreurs
Se dit d’une approche qui consiste à détecter les points faibles d’un modèle de Machine Learning puis à les réduire par l’ajout de nouvelles observations ou variables explicatives.
Analytics Engineer
Personne qui applique les bonnes pratiques du Software Engineering (CI/CD, tests, versionning) à la création de datasets et data pipelines, afin d’accélérer le Time to Insight. Permet de réduire l’écart entre un Data Engineer et un Data Analyst.
CRISP-ML
CRISP-ML (ou CRISP-ML(Q)) est une proposition de standardisation des processus de développement d’un modèle de Machine Learning tout au long de son cycle de vie. C’est une méthodologie structurée pour guider les différentes étapes de réalisation d’un modèle de Machine Learning, de la compréhension du problème à la mise en production. Le prisme de lecture de cette approche est celui du Quality Engineering (d’où le Q).
ChatGPT
ChatGPT est un outil de génération de langage naturel basé sur l’intelligence artificielle qui permet aux utilisateurs de simuler des conversations avec des humains.
Citizen Data Scientist
Se dit d’une personne en capacité d’utiliser des techniques issues de la Data Science afin de répondre à des enjeux business, sans avoir nécessairement une formation spécifique sur le sujet. Favorise la démocratisation de la Data Science et de l’IA au sein de l’entreprise.
Cloud
modèle de service informatique qui permet aux utilisateurs d'accéder à des ressources informatiques, telles que des serveurs, du stockage et des applications, via Internet
Data Analyst
Le rôle d'un Data Analyst est d'exploiter, fiabiliser et interpréter des données pour en tirer des KPI et préconisations utiles.Les rapports et tableaux de bords générés permettent la prise de décisions stratégiques par l'entreprise.
Data As A Product
Constitue l’un des 4 piliers du Data Mesh. Il consiste à considérer la Data d’un domaine métier comme un produit à part entière. Parmi ses propriétés : découvrabilité, facilité d’accès, fiabilité, non-ambiguïté, gouverné et sécurisé.
Data Business Model Canvas
Un support pour faciliter l’alignement lors de la phase de cadrage, qui constitue la première partie indispensable du cycle d’un projet Data.
Data Drift
Correspond à une situation où la distribution des données en entrée d’un modèle de Machine Learning change, ce qui peut avoir pour conséquence des dégradations de ses performances globales.
Data Engineer
En tant que Data Engineers, leur rôle est essentiel pour aider à concevoir et mettre en œuvre des solutions efficaces de pipeline de données.
Data Governance
La Data Governance est le cadre stratégique et opérationnel qui définit les politiques, les procédures et les bonnes pratiques pour gérer de manière efficace et responsable l'ensemble des données au sein d'une organisation.
Data Lineage
Se dit de l'historique des transformations effectuées sur un ensemble de données à travers le temps et les différentes sources et systèmes par lesquels elles sont passées.Permet de suivre la provenance et l'intégrité des données, ainsi que de comprendre comment elles ont été transformées au fil du temps.
Data Literacy
La Data Literacy (la littératie de données ou la culture des données en français) désigne la capacité à identifier, collecter, traiter, analyser et interpréter les données afin de pouvoir prendre les décisions en se basant dessus.
Data Mesh
Un shift technologique, organisationnel et culturel vers une vision décentralisée de l’exploitation de la data en entreprise. S’articule autour de 4 piliers : Data Ownership by Domain, Data As A Product, Self-Serve Data Platform et Federated Computational Governance.
Data Platform
Se dit d’un ensemble d’outils, services et fonctionnalités prêts à l’emploi et réutilisables permettant la construction de nouveaux produits data et d’accélérer la création de valeur.
Data Product Manager
En tant que Data Product Managers, leur rôle est essentiel pour s'assurer que la Data est utilisée efficacement afin de résoudre les problèmes des utilisateurs, améliorer les produits et aider l'entreprise à atteindre ses objectifs.
Data Steward
Se dit d’une personne qui a la responsabilité de la qualité des données et des processus qui garantissent son contrôle et son utilisation efficace. Elle est entre autres responsable du glossaire business et est le premier point d’entrée de tous les utilisateurs de données. Son outil favori est le Data Catalog.
Data Storytelling
Le Data Storytelling c’est la capacité de raconter une histoire à l’aide de données. L’objectif est de faciliter la compréhension des résultats d’analyses de données pour une audience spécifique.
Data Strategist
Le Data Strategist joue un rôle crucial dans l'élaboration et la mise en œuvre de la stratégie data d'une entreprise.
Dbt
DBT est un outil de transformation de données conçu pour simplifier le processus de création et de gestion des requêtes SQL
Ecueils Data
Rares sont les entreprises n’ayant aujourd’hui aucune exploitation de leurs données, mais rares aussi sont celles qui ont réussi à passer son exploitation à l’échelle de toute l’organisation et à mettre la Data au cœur de leur activité.
Feature Store
Un Feature Store est une plateforme qui stocke et gère les caractéristiques (features) utilisées pour entraîner des modèles de Machine Learning, avec l'objectif de les rendre facilement accessibles et réutilisables.
Fresque de la Data
Un atelier collaboratif conçu chez Hymaïa destiné à familiariser les participants aux concepts fondamentaux de la Data
IA Generative
L'IA Générative est une catégorie d'algorithmes d'Intelligence Artificielle ayant la capacité de générer du texte, des images ou d'autres médias.
IA Responsable
L'Intelligence Artificielle Responsable fait référence à l'utilisation éthique, équitable, transparente et respectueuse de l'intelligence artificielle (IA) dans le développement, le déploiement et l'utilisation des systèmes d'IA.
Ingestion Batch
Ingestion de données qui se fait qu’une seule fois ou de manière récurrente, mais lors d’un job qui a un temps d’exécution fini. L’exemple le plus classique est une ingestion de donnée quotidienne qui doit se lancer tous les jours à 4h du matin.
ML Engineer
Un Ingénieur en Machine Learning est spécialisé dans la conception, la construction et le déploiement de modèles de machine learning pour résoudre des problèmes complexes et automatiser des processus décisionnels.
MLOps
Le MLOps est le processus d’automatisation du Machine Learning en utilisant les méthodologies DevOps. Son but est de faciliter la création, le déploiement et la gestion en production de systèmes de Machine Learning sur l’ensemble de son cycle de vie.
MLOps Engineer
Les responsabilités d'un ingénieur MLOps chez Hymaia sont l'automatisation du Pipeline, l'intégration la livraison continues, la surveillance et le logging, la gestion de la qualité des données, la conformité et la sécurité.
Modern Data Stack
Se dit d’un ensemble d’outils et technologies cloud utilisé pour la collecte, le processing, le stockage et l’analyse de données.
Poetry Python
Poetry est un outil de gestion de dépendances et de packaging pour Python.
Product Manager
Le Product Manager est responsable de la conception, du développement et de l'amélioration des produits, veillant à ce que ceux-ci répondent efficacement aux besoins des utilisateurs et exploitent judicieusement la Data.
Spark
Apache Spark est un framework de calcul distribué