À ce qu'il parait, pour être DataScientist, il faut être fort en mathématiques. Et c'est probablement vrai !
Est-ce qu'il faut un cerveau conçu d'une manière particulière pour entrainer des réseaux de neurones ?
Un DataScientist conçoit des modèles apprenants. Dans une entreprise, l'informatique sert beaucoup à planifier des ressources en tout genre. Et il y a beaucoup de données qui sont stockées sur le sujet. Et si on pouvait apprendre de toutes ces données pour prévoir de quoi demain sera fait ?
C'est le sujet ! Combien de personnes vont visiter le magasin demain ? Combien de paquets cet entreprôt va-t-il expédier ? Au lieu de regarder les chiffres d'hier, les Data Scientists construisent les indicateurs de demain directement.
Le modèle peut ressembler à beaucoup de choses ! On parle d'apprentissage machine à partir du moment où le programme est capable de s'améliorer tout seul en production (QCM Machine Learning).
Après avoir entrainé son modèle, le Data Scientist aura peut-être juste une régression linéaire pour modèle ou un polynome. S'il a fait un classeur, il aura sûrement un arbre de décision.
On distingue 3 grandes familles d'algorithmes :
Les réseaux de neurones ça existe depuis longtemps. Mais avant, on avait pas forcément assez de puissance informatique pour les utiliser. Le Deep Learning c'est tout ce qu'on a dit au dessus, mais avec des réseaux de neurones. Je vous recommande le QCM sur les bases du Deep Learning.
Si vous voulez écouter un DataScientist, je vous recommande d'écouter Guillaume de chez Voodoo. Vous serez dans son univers vraiment très rapidement !
Un DataScientist utilise pas mal d'outils. Son espace de travail sera sûrment dans R.
Il va sûrement coder en Python (QCM) parce qu'il utilise SciKit (QCM scikit-learn. Si son entreprise est dans le cloud de Google (GCP), il utilisera sûrement Tensorflow ! On a aussi un QCM Tensorflow.
Avant l'arrivée de l'intelligence artificielle, il y avait déjà la BI, la Business Intelligence, l'informatique décisionnelle en Français. Et on avait des développeurs d'intégration qui travaillaient sur des ETLs (Extract Transform Load), qui sont des pipelines de données et des entrepôts de données. Ceux qui transformaient ces données en informations ou en indicateurs et tableaux de bords, étaient appelés consultants BI ou consultants décisionnel.
Ces métiers existent toujours ! Le premier est devenu Data Engineer, le deuxième Data Analyst. Le premier est peut-être un développeur backend Java qui est devenu fan de Hadoop, Spark etc... Le deuxième a peut-être fait une école de commerce ou de management !