L’informatique, au travers d’algorithmes de plus en plus puissants, semble prendre le pas sur les autres méthodes d’analyse de données plus traditionnelles, dont l’inférence statistique. Un nouveau métier au nom encore aussi obscur que fascinant est également apparu : data scientist. Certains data scientists deviennent de véritables célébrités et sont payés une petite fortune tant leur profil est rare et précieux pour les grandes entreprises.

Présents dans presque tous les secteurs, les algorithmes sont devenus incontournables dans nos vies. Qu’il s’agisse de démarcher des consommateurs sur le point de passer à la concurrence, d’utiliser un moteur de recherche, de diagnostiquer des maladies, ou encore de prendre des positions sur les marchés financiers, ils prennent des décisions de plus en plus importantes.

Dans bons nombres de cas, il est difficile de contrôler ces décisions ou d’agir en temps réel. Toutefois, les implications peuvent être considérables, et parfois dramatiques. En témoignent les flash crashs survenus encore récemment sur les places financières. Selon certains experts, dans un monde idéal il faudrait prouver mathématiquement chaque algorithme avant de le lancer. Mais cette procédure n’est que très peu utilisée en pratique, car elle reviendrait rapidement à doubler les coûts de production de l’algorithme. Toutefois, les rares cas d’algorithmes prouvés mathématiquement, comme celui de la ligne 14 du métro de Paris, semblent avoir une fiabilité proche de la perfection. L’habituel trade-off entre qualité (coût d’opportunité de ne pas prouver) et prix (coût de prouver mathématiquement) apparaît alors.

Le grand oublié semble être la statistique dans son approche traditionnelle. Certains statisticiens voient et redoutent l’évolution vers les méthodes plus intuitives de data mining. L’American Statistical Association Leadership s’inquiète par exemple de la perte de vitesse de la statistique. Ces dernières années ont vu émerger de nouveaux termes tels que data mining, big data ou encore computer science. Est-ce encore de la statistique au sens traditionnel du terme ? Qu’est-ce que la statistique et quelle est son utilité aujourd’hui?

Pour nous éclairer sur la question,  Prof. Catherine Dehon, spécialiste en statistiques descriptives et inférence statistique, et Prof. Hugues Bersini, spécialiste en data mining et intelligence artificielle, ont accepté de confronter leurs avis. Sébastien Deletaille, CEO de Real Impact Analytics, société spécialisée dans l’analyse des données dans le secteur des télécommunications en Afrique, nous donnera son point de vue dans le monde des affaires et son sentiment personnel en tant qu’alumnus Solvay.

12042204_10153757866364683_657375820_n
Christopher Bruffaerts

Mais avant de comparer les opinions, prenons le temps de définir ce qu’est un data scientist par rapport à un statisticien. Selon Christopher Bruffaerts, data scientist chez BNP Paribas Fortis, un data scientist est très concerné par le pouvoir prédictif d’une méthode et utilisera à cette fin une méthodologie bien rodée qui peut dans certains cas être même computationnellement complexe. “Il voit les données comme étant un simple asset, un simple input qui va rentrer dans un programme. Il ne se demande pas spécialement d’où les données peuvent provenir, comment celles-ci ont pu être générées. Le mécanisme permettant de comprendre un phénomène va être directement découvert en utilisant les données. Le statisticien va faire beaucoup plus attention aux hypothèses sous-jacentes, à la qualité de son inférence, à la validité du modèle (interne et externe) ou encore à la présence de données aberrantes.”

La différence résiderait donc dans les objectifs fixés. Un data scientist cherchera à prédire au mieux, quelle que soit la méthode utilisée, alors que le statisticien sera en quête permanente de vérité mathématique, de véracité pour son modèle. “Supposons que nous faisons une régression linéaire multiple (la variable dépendante est continue), poursuit Christopher Bruffaerts. Le data scientist va tout faire pour augmenter au maximum le pouvoir prédictif de sa régression (disons, avoir le R carré le plus grand possible). Sa seule contrainte sera de ne pas faire du surapprentissage (“overfitting”), c’est-à-dire de garder ce même pouvoir prédictif lorsqu’on applique ce modèle sur une autre partition de l’échantillon. Les variables présentes dans le modèle et l’estimation des coefficients ne sont pas fondamentales aux yeux du data scientist.

A contrario, le statisticien va lui chercher à montrer une relation de causalité entre les variables indépendantes et la variable dépendante. Pour ce faire, il va s’appuyer sur des statistiques descriptives, une inférence bien fondée, une rigueur dans ses analyses, un point de vue critique par rapport à ses résultats mais surtout du bon sens! Il est vrai que s’il y a beaucoup de variables à prendre en compte dans le modèle la tâche du statisticien peut s’annoncer plus ardue, mais celle-ci reste tout à fait possible!”

Et c’est bien là tout l’enjeu! On ne traite plus les données comme avant. La puissance des ordinateurs a augmenté, ainsi que le volume de données collectées. On parle alors de Big Data: “Le monde du big data gagne du terrain étant donné l’explosion de données dans la vie de tous les jours. Avec un bagage en statistique, on est plus critique et également plus prudent par rapport aux avancées du “big data.” Christopher Bruffaerts termine en nuançant ses propos, expliquant que sa formation de statisticien lui donne un point vue très tranché sur la question. Pour lui, il ne s’agit pas simplement de savoir coder et d’avoir vite appris quelques “recettes de stats”. Il faut au contraire maîtriser chaque élément théorique en profondeur et surtout être capable d’interpréter les résultats pour en comprendre le sens véritable.

Entretien avec Prof. Hugues Bersini

Hugues Bersini, prifesseur d'informatique, ULBPouvez-vous nous donner votre définition de data mining ?

Il s’agit de l’extraction, à partir de données, essentiellement des capacités prédictives. Cette extraction se fait soit à partir d’un modèle, soit à partir de « boîtes noires », c’est-à-dire de modèles beaucoup plus complexes et très difficiles à expliquer. C’est donc l’inférence de capacité prédictives sur des données à venir.

Êtes-vous donc d’accord pour dire que l’inférence statistique est opposée à data mining ?

Très long débat ! Ce qui se passe actuellement, c’est que certains bureaux de statistique ont cherché à aller plus loin que ce qu’offraient les méthodes d’inférence statistique. Ils avaient des statisticiens, mais imaginaient pouvoir trouver des méthodes plus automatiques pour détecter des outliers, c’est-à-dire des individus avec un comportement très différent de la majorité des données. Le problème des statisticiens réside dans leur utilisation de modèles pré-formatés, là où l’informaticien va plutôt « bricoler », se débrouiller pour construire un algorithme qui permettra d’obtenir la capacité prédictive souhaitée. Ils demeurent bien sûr complémentaires, car ces informaticiens calculent ensuite des statistiques, comme les queue values, etc.

Ils restent donc dans le schéma traditionnel d’analyse statistique, mais en tenant compte de plus d’aspects, comme les relations non linéaires, que les statisticiens seraient incapables de trouver par eux-mêmes. La statistique est un passage obligé, mais les statisticiens ne sont pas aussi à l’aise avec les outils de base.

Cette partie d’inférence statistique est-elle à chaque fois présente ?

Non, elle manque en effet régulièrement dans le data mining actuellement. Aucune hypothèse n’est faite, et aucun niveau de certitude n’est donné. On se contente de créer une grosse boîte noire qui tente de prédire au mieux les données futures. Mais le modèle n’est donc pas solide comme c’eût été le cas avec un modèle d’inférence statistique, où les hypothèses sous-jacentes garantissent le résultat dans un certain intervalle de confiance. Il faut bien se représenter cette boîte noire comme un modèle très complexe que les statisticiens auront du mal à expliquer complètement. Les startups qui ont été créées ces dernières années utilisent typiquement ces méthodes.

Cela représente donc un danger de se passer de l’inférence statistique ?

Tout dépend du coût de l’erreur. Les algorithmes peuvent être tellement complexes qu’ils constituent tout le travail, et la partie statistique est alors laissée pour compte. Mais si le coût d’une erreur est négligeable, il n’y a pas vraiment de problème. Par exemple, une compagnie de télécommunications qui enverrait des messages spécifiques aux clients identifiés comme susceptibles de passer à la concurrence (cf. churn), n’aurait pas peur d’envoyer un message à une personne qui ne comptait pas résilier son contrat. C’est encore plus vrai pour le big data.

Et comment établir l’efficacité des différentes méthodes possibles dans ce cas ?

Puisqu’on ne peut plus se référer à la fiabilité d’un point de vue statistique, on va simplement utiliser un benchmark. On donne un échantillon de données où l’algorithme doit prédire le résultat, qui est connu par ailleurs. On compare alors le taux de réussite des différents modèles de data mining proposés et on choisit le meilleur prédicteur. Un statisticien pourrait sans doute y arriver également, mais actuellement les clients pour ce genre de modèles préfèrent faire appel à un informaticien. Leur raisonnement est qu’il est plus simple pour un informaticien d’apprendre les quelques bases en statistique, plutôt que de demander à un statisticien de développer en parallèle des compétences en informatique.

On touche là à notre question centrale : a-t-on appris les statistiques pour ne pas les utiliser et passer au data mining ?

La culture statistique est extrêment utile, c’est un bagage à conserver si on l’a déjà acquis. Mais elle est minimisée aujourd’hui par rapport aux autres compétences qu’il est devenu nécessaire de développer pour jouer avec les données de manière utile pour la société. Par exemple, on est passé du modèle relationnel (e.g. SQL) au modèle big data (e.g. Mongo DB). Ce changement n’a rien à voir avec les statistiques mais il faut s’y adapter. C’est pareil pour le passage au real time.

Ceci nous amène à notre sous-question : les étudiants des business schools, comme la SBS-EM, sont-ils bien équipés avec leur formation pour entrer dans le monde du travail ?

La formation en informatique est clairement insuffisante à la SBS-EM, et nous travaillons à mettre plus de cours obligatoires d’informatique et de programmation, dès la première année. L’accent devrait aussi être mis davantage sur les projets. D’autres formations d’ingénieur commercial en Belgique le font déjà. On s’est apperçu que les étudiants ne se rendent compte de l’importance de ces compétences qu’après leurs études, lorsqu’ils sont directement confrontés au problème. Ils ont tendance à fuire ces cours pour privilégier les modules de marketing ou de finance. Aujourd’hui le profil de data scientist est très recherché, et il comprend principalement des compétences en informatique.

Pour pallier ce problème, recommandez-vous un apprentissage plus autodidacte, par exemple via des MOOCs (Massive Open Online Courses) ?

Oui, absolument ! Je suis convaincu qu’il faut se jeter sur ce genre d’opportunités, d’autant que beaucoup de MOOCs sont extraordinaires. Les premiers MOOCs portaient d’ailleurs sur des cours de machine learning et ont surpris par leur succès (des centaines de milliers d’apprenants inscrits sur la plateforme). Le seul bémol dans ce genre d’apprentissage est le manque d’apprentissage intensif, une semaine intensive par exemple. Ça permet d’apprendre beaucoup sur une courte période.

Entretien avec Catherine Dehon

catherine dehon

Soyons un peu provocateur : avons-nous appris les statistiques pour rien ?

Non évidemment !

Mais le data mining semble échapper aux contraintes et à toutes les hypothèses des statistiques. Pourquoi ne pas juste compter sur les algorithmes qu’on peut développer ?

Le data mining, c’est essentiellement de la statistique descriptive. Quand on lance un algorithme sur des données, on ne fait qu’exploiter l’échantillon dont on dispose. L’algorithme donnera toujours un résultat, ce n’est qu’une méthode de calcul. Si l’échantillon est biaisé, l’algorithme présentera un modèle qui représentera l’échantillon, mais pas forcément la réalité. L’inférence statistique est donc absolument nécessaire pour vérifier les résultats obtenus. En particulier, les méthodes statistiques dites robustes, par opposition aux méthodes classiques, offrent une meilleure fiabilité.

Comment expliquer un tel engouement alors ?

C’est essentiellement lié à la simplicité de la technique. Faire tourner directement un algorithme qui donnera toujours une prédiction précise, par exemple un nombre, est plus attirant pour une entreprise qu’un statisticien qui établit un intervalle de valeur (intervalle de confiance) pour un certain niveau de certitude et en posant certaines hypothèses, parfois très contraignantes. L’inférence statistique peut paraître plus complexe, mais elle est plus nuancée.

La formation en statistique reste plus que jamais essentielle pour comprendre ce qui se cache derrière les formules et les prédictions. Nombreux sont ceux qui aujourd’hui encore se contentent d’employer comme des recettes de cuisine des formules qu’ils ne comprennent pas.  Les résultats sont alors potentiellement complètement faux !

Faudrait-il malgré tout mettre plus l’accent sur les cours d’informatique ?

Nous en discutons actuellement. Il y a en effet un débat à avoir sur ce sujet, et il se pourrait que dans les prochaines années il y ait plus de cours de programmation. Il faudra pour cela consulter notamment les étudiants pour connaître leur avis sur la question.

Entretien avec Sébastien Deletaille, alumnus Solvay et CEO de Real Impact Analytics

Sebastien Deletaille, CEO de Real Impact AnalyticsNous avons jusqu’à présent deux avis assez opposés. Qu’en est-il dans le monde de l’entreprise ?

Le monde de l’entreprise fonctionne sur ce qui impacte la rentabilité, sans prêter un réel intérêt à la véracité. Par exemple, à défaut d’un modèle plus sophistiqué, faire du spam aléatoire peut être toujours mieux que rien, car le taux de conversion est alors par exemple de 0,5% et le coût est nul.

Il faut comprendre que les objectifs sont différents : le statisticien veut un modèle efficace et descriptif. Les avis de Hugues et Catherine ne sont pas faux, mais décrivent des réalités différentes. Hugues est plus axé entreprise, où on se fout du modèle pourvu qu’il soit rentable, et Catherine secteur public, où on veut une vue précise de la situation.

Quelque chose à ajouter sur ce qui a été dit précédemment et qui s’observe dans le milieu plus corporate? Ou quelque chose que tu aurais aimé savoir quand tu étais encore étudiant ?

La première chose est de démystifier la capacité à collecter et analyser les données. L’entreprise fonctionne dans un écosystème qui n’est pas parfait, sans information incomplète. Par exemple, Belgacom n’a accès qu’aux données de sa base de clients, et non à celle de Base et vice versa. À cela s’ajoute l’urgence dans laquelle les décisions doivent être prises. On a plus besoin d’un résultat à court terme que d’une analyse approfondie.

Ensuite, je me dois d’insister sur le fait qu’un statisticien n’est pas un informaticien. Un informaticien aura plus facile à apprendre les quelques statistiques indispensables pour coder un algorithme que l’inverse. Par contre, il y a bien moins de statisticiens que d’informaticiens qui sortent chaque année des écoles. C’est un profil bien plus précieux. S’il est vrai que la demande est sans doute plus importante pour les informaticiens, l’offre l’est également.

Ma dernière remarque serait, pour répondre à la question principale, que data mining et statistique ne diffèrent pas vraiment, ils sont très liés. Cette question provocatrice de qui domine l’autre n’a pas vraiment lieu d’être. De plus, avec le big data il y a tellement de données que les erreurs finissent par disparaître. C’est une manière de réconcilier data mining et statistique.

On code un algorithme mais on réalise des tests pour le vérifier. Il est vrai qu’on prend très rarement la peine de faire cette vérification/preuve ex ante, mais par exemple chez Real Impact Analytics on fait systématiquement des tests post mortem, une fois la campagne terminée, pour vérifier son efficacité. On utilise beaucoup le test Champion-Challenger : on relance des modèles challengers pour voir si leur efficacité est plus grande que le champion. Un algorithme a une durée de vie, car les réalités changent et donc il est essentiel de le mettre à jour pour capturer la dynamique du marché.

On dirait qu’il s’agit surtout d’informatique. Apprendre les statistiques est-il un bon investissement en tant qu’étudiant?

Apprendre les stats ? Évidemment oui ! mais essentiellement les choses simples comme les régressions linéaires et multivariées. On les utilise dans les présentations clients, etc. Même si ce n’est pas moi qui le fais, je suis très à l’aise avec ça, car je connais les bases. Est-ce que j’ai du faire une fois dans ma vie un t-test ou un Fisher test ? Non ! Mais je sais les lire. Et ce que je dis aux étudiants, c’est que si vous voulez en apprendre plus, il y a Codecademy, DataCamp etc. Développez vos compétences là !

Ne faudrait-il pas alors aussi plus de cours d’informatique ?

Il y a un besoin clair. C’est déjà imposé dans la plupart des grandes universités. A Harvard, python c’est non négociable. Stanford propose ça gratuitement au travers d’un MOOC. Cet effort brille littérallement sur le cv. Quand j’étais étudiant, j’avais appris des bases d’Excel, et ça m’a permis de lire jusqu’à du Sequal basic. Les étudiants doivent avoir des bases en informatique mais il faut revoir la façon dont on travaille.

LEAVE A REPLY