“Tu vas commencer en tant que data analyst et d’ici 1 ou 2 ans tu seras data scientist, vu que data analyst est le junior de data scientist” - 2019
“Mais je ne comprends pas, tu étais data scientist et tu es passée data analyste ? C’est pas l’inverse normalement?” - 2023
En 2023, après 7 ans en data science j’ai décidé de bifurquer vers la data analyse, et j’ai envie d’expliquer pourquoi c’est aussi un choix logique, que non, ce n’est pas le mauvais sens et que data analyst is a sexy job too même si ce n’est pas un gros titre de Harvard Business Review.(https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century)
Mon quotidien de data scientist
Être data scientist, qu’est ce que c’est ?
C’est construire un produit ou un outil constitué d’algorithmes de machine learning pour répondre à un problème métier. Les algorithmes sont là pour guider la machine à trouver d’elle même (apprentissage automatique) une logique dans les données pour produire un résultat comme une prédiction.
Les étapes classiques des projets de Data science
Pour chaque projet on commence par comprendre le besoin métier et prendre en main les données que l’on doit manipuler (les dimensions, qualité des données, liens entre variables…) pour s’assurer de la fiabilité de ce que l’on construit. S’en suit une partie recherche où l’on va tâtonner pour trouver une solution, essayer plusieurs possibilités, sans garantie au départ de trouver une solution qui va répondre au besoin.
Si l’essai est concluant et que l’on réussit à susciter l’intérêt des demandeurs métiers il faut industrialiser l’outil : s’occuper du passage à l’échelle (comment il fonctionne avec plus de données), être sûr de son fonctionnement dans le temps, le ré-entrainer … Toute cette phase (qui concerne davantage le Machine Learning Engineer) est indispensable si on ne veut pas créer des produits jetables, jamais utilisés et rester dans la sphère POC. Mais c’est aussi la phase qui m’intéressait le moins, une fois la solution imaginée, quand le problème réside dans la performance et le déploiement.
Pourquoi aller vers la data analyse ?
Ce que j’aime faire, c’est aider à la décision : fouiller dans les données, en trouver des infos utiles et les communiquer de façon simple et claire pour les décideurs.
Cela s’apparente à être une “traductrice des données” : rendre l’information contenue sous un format “indigeste” dans un état plus accessible pour tous. [Pour qu’ils en fassent bon usage bien sûr]. Telle une archéologue, il y a une petite partie de moi qui aimerait faire une découverte sensationnelle qui changerait la face du monde / de l’entreprise ou au moins de mon équipe. Plus l’information est partagée au plus grand nombre, plus il y a de chance pour que quelqu’un l’exploite de façon intelligente.
Et il se trouve que c’est plus proche de la data analyse et de la data viz que mon quotidien en data science.
Quelle serait ma définition de la data analyse alors ?
C’est l’analyse de la donnée (👍 captain obvious) : faire un constat de ce qu’il se passe au présent et dans le passé dans le but de générer une action de la part des demandeurs ou pour les informer sur l’état de leurs activités.
L’idée n’est pas de faire une analyse descriptive de tout ce qu’on peut déduire d’un jeu de données mais plutôt de faire le tri dans ce qui est important, de relever les principaux indicateurs nécessaires pour suivre une activité ou aider à prendre une décision. Cela consiste donc à trouver les infos intéressantes dans un jeu de données et les exposer sous forme de dashboard ou autre pour les rendre vite accessibles et compréhensibles.
Les différences et similitudes entre les deux métiers
Dans le cas de la data science, on a construit un outil qui repose sur la capacité de la machine à apprendre des règles basées sur des exemples de données et à tirer des conclusions pour faire une prédiction / une recommandation / générer du texte / autre.
En data analyse on fait un constat basé sur les données pour prendre des décisions business les plus éclairées possibles. C’est donner des infos pour aider à agir (vs construire un outil pour répondre à un besoin).
Voici un aperçu non exhaustif sur les compétences que j’ai apprises lors de mon parcours en data science qui m’ont été utiles pour la data analyse, celles que je n’utilise plus ou moins et enfin celles que j’ai du apprendre ou perfectionner.
Conclusion
Les deux métiers sont issus de la même famille, sans relation hiérarchique entre les deux. Ils reposent sur une base commune mais ils ont bifurqué chacun vers sa route, chacun vers son chemin, pour répondre à des besoins différents - comme deux cousins germains qui s’entendent bien.
Lorsque j’ai voulu changer de domaine, je ne me suis pas fiée au nom de poste. Ils changent très vite, sont sujets à beaucoup d’effets de mode et sont assez spécifiques à l’entreprise.
J’ai vu des offres pour lesquelles le rôle de data analyste n’était exclusivement lié qu’à la qualité de la donnée sans la partie aide à la décision, pour d’autres ce poste était nommé data owner.
Il y a aussi l’émergence du poste d’Analytics Engineer dont le rôle est de créer des datasets et datapipeline robustes (s’appuyant sur les bonnes pratiques du software engineering) afin de donner plus de possibilités aux équipes métiers de faire leurs propres analyses et leurs suivis.
Ma technique a donc été de lister les choses que je souhaitais faire dans mon prochain métier et de regarder les descriptions de poste qui s’y approchaient le plus, peu importe leur libellé.
Je me suis rendue compte que j’étais davantage intéressée par la mission finale que par les techniques à utiliser et je ne suis pas fermée à réemployer du machine learning (surtout le non supervisé !) si je vois que ça peut servir mon analyse !