Salut Quoicoubaka déjanté, j’espère que tes révisions de SPDDM

se passent bien.
Merci pour ta question.
Je tiens à préciser que c’est un point de cours sur lequel le professeur Guillon ne posera pas de questions au concours. Cependant afin que tu comprennes pourquoi elle évoque cela dans le cours sur le Big Data je vais répondre à ta question, mais il n’est pas nécessaire de t’attarder sur ce point de cours.
Tout d’abord, le R2 est également appelé le coefficient de corrélation. Son rôle est d’étudier le lien de corrélation entre deux variables, dans le sens où l’évolution d’une variable est associée à une autre variable.
L’inférence statistique évoquée par le Pr. Guillon renvoi à une
évaluation de l’incertitude associée aux données recueillies. En effet, les données sont recueillies sur un
échantillon censé être représentatif d’une population cible. Les conclusions tirées à partir de cet échantillon vont ensuite être extrapolées à la population cible, raison pour laquelle il est important de vérifier que l’échantillon permet des estimations fiables et représentatives de la population étudiée.
Un écart est dit
significatif quand on réalise une comparaison avec des conditions différentes entre deux échantillons et que les
résultats obtenus différent entre les deux groupes. Par exemple pour mesurer l’effet d’un traitement on prend deux groupes et on administre à un des groupes le traitement et au second un placebo. Si les résultats entre les deux groupes sont différents, alors on parle d’écart significatif entre le groupe ayant reçu le traitement et le groupe ayant reçu le placebo.
Or, la logique d’échantillonnage ne s’applique pas au Big Data car un échantillon correspond à un groupe restreint de personnes ou de données. Dans le Big Data, les
données sont très massives ce qui fait que nous ne pouvons ni utiliser l’inférence statistique, ni le R2, pour vérifier si les résultats obtenus sont significatifs ou non et établir un lien de corrélation puisque
tous les résultats obtenus seraient significatifs.
En conclusion, et c’est ce qu’il est nécessaire que tu retiennes, dans le contexte du Big Data on ne peut pas utiliser les outils statistiques habituels comme le modèle d’inférence statistique car les données sont trop massives puisque nous ne sommes pas sur un échantillon donc tout va être significatifs. Ainsi, des modèles reposant sur l’Intelligence Artificielle sont utilisés.
J’espère avoir répondu à ta question.
L’équipe SPDDM te souhaite bon courage dans tes révisions !!! C’est la dernière ligne droite continue comme ça
Raphaël