6.3 Acquisition de données

Dans le module 5, vous avez pris connaissance des types de variable et venez d’apprendre comment encoder différents types de tableaux de données et de leurs associer les indispensables métadonnées. Cependant, la première étape avant d’acquérir des données est de planifier correctement son expérience. La Science des Données est intimement liée à la démarche scientifique et intervient dans toutes les étapes depuis la caractérisation de la question et le planning de l’expérience jusqu’à la diffusion des résultats. Plus en détails, cela correspond à :

  • Définir une question (objectif)
  • Réaliser une recherche bibliographique sur la thématique
  • Définir le protocole de l’expérience à partir de l’objectif
    • Définir la population étudiée et l’échantillonnage
    • Définir les variables à mesurer
      • Définir les unité des mesures
      • Définir la précision des mesures
      • Définir les instruments de mesure nécessaires
  • Définir les conventions d’encodage
    • Codifier l’identification des individus
    • Définir les niveaux des variables facteurs et leurs labels
  • Acquérir et encoder les données
  • Traiter les données
    • Importer des données
    • Remanier des données
    • Visualiser et décrire des données
    • Analyser les données (traitements statistiques, modélisation,…).
  • Produire des supports de présentation pour répondant à la question de départ et diffuser l’information dans la communauté scientifique

Nous traitons ici des premières étapes qui visent à acquérir les données.

6.3.1 Précision et exactitude

Les erreurs de mesures sont inévitables lors de l’acquisition de nos données. Cependant, il est possible de les minimiser en choisissant un instrument plus précis (“precise” en anglais) et plus exact (“accurate” en anglais). La figure ci-dessous illustre de manière visuelle la différence qu’il y a entre précision et exactitude.

6.3.2 Codification des données

Afin d’éviter que divers collaborateurs encodent différemment la même information, vous allez devoir préciser très clairement comment encoder les différentes variables de votre jeu de données. Par exemple pour une variable genre, est-ce que vous indiquez homme ou femme, ou h / f, ou encore H / F ?

De même, vous allez devoir attribuer un code unique à chaque individu mesuré. Enfin, vous devez vous assurer que toutes les mesures sont réalisées de la même manière et avec des instruments qui, s’ils sont différents, seront cependant intercalibrés. Comment faire ? Réfléchissez à cette question sur base d’une mesure de la masse des individus à l’aide de pèse-personnes différents !

6.3.2.1 Respect de la vie privée

Lors d’expérience sur des personnes, le respect de la vie privée doit être pris en compte26. Le nom et le prénom, ou toute autre information permettant de retrouver les individus étudiés (adresse mail, numéro de sécurité sociale, etc.) ne peut pas apparaître dans la base de données consolidée. En outre, il vous faudra un accord explicite des personnes que vous voulez mesurer, et il faudra leur expliquer ce que vous faites, et comment les données seront ensuite utilisées. Une question se pose : comment pouvoir revenir vers les enregistrements liés à un individu en particulier (en cas d’erreur d’encodage, par exemple) si les informations relatives directement à ces individus ne sont pas consignées dans le tableau final ? Réfléchissez à la façon dont vous vous y prendriez avant de lire la suite…

Voici un petit tableau qui correspond à ce que vous ne pourrez pas faire (nom et prénom explicitement mentionnés dans le tableau) :

(biometry_marvel <- as_dataframe(tribble(
  ~id,                 ~sex ,~weight, ~height,
   "Banner Bruce",     "M",  95,      1.91,
   "Stark Tonny",      "M",  80,      1.79,
   "Fury Nicholas",    "M",  82,      1.93,
   "Romanoff Natasha", "F",  53,      1.70
)))
# # A tibble: 4 x 4
#   id               sex   weight height
#   <chr>            <chr>  <dbl>  <dbl>
# 1 Banner Bruce     M         95   1.91
# 2 Stark Tonny      M         80   1.79
# 3 Fury Nicholas    M         82   1.93
# 4 Romanoff Natasha F         53   1.7

Vous devez fournir un code permettant de garder l’anonymat des sondés à l’ensemble des personnes étudiées vis à vis des analystes qui vont utiliser ces données. Cependant, le code doit permettre au chercheur ayant pris ces mesures de les retrouver dans son cahier de laboratoire, si besoin. Une façon de procéder consiste à attribuer un numéro au hasard par tirage dans une urne à chacune des personnes chargées des mesures. Ensuite, chaque expérimentateur attribue lui-même un second numéro aux différentes personnes qu’il mesure. Prenons par exemple le scientifique n°24 (seul lui sait qu’il porte ce numéro). Il attribue un code de 1 à n à chaque personne étudiée. En combinant le code secret de l’expérimentateur et le code individu, cela donne un identifiant unique de la forme 24_1, 24_2, etc. Il pourra alors encoder sa partie comme suit :

(biometry_marvel1 <- as_dataframe(tribble(
  ~id,     ~sex , ~weight, ~height,
   "24_1",  "M",  95,      1.91,
   "24_2",  "M",  80,      1.79,
   "24_3",  "M",  82,      1.93,
   "24_4",  "F",  53,      1.70
)))
# # A tibble: 4 x 4
#   id    sex   weight height
#   <chr> <chr>  <dbl>  <dbl>
# 1 24_1  M         95   1.91
# 2 24_2  M         80   1.79
# 3 24_3  M         82   1.93
# 4 24_4  F         53   1.7

Il garde néanmoins les correspondances dans son carnet de laboratoire, au cas où il faudrait faire des vérifications ou revenir à la donnée originale.

(biometrie_correspondance <- data_frame(
  name = biometry_marvel$id,
  id   = biometry_marvel1$id
))
# Warning: `data_frame()` is deprecated, use `tibble()`.
# This warning is displayed once per session.
# # A tibble: 4 x 2
#   name             id   
#   <chr>            <chr>
# 1 Banner Bruce     24_1 
# 2 Stark Tonny      24_2 
# 3 Fury Nicholas    24_3 
# 4 Romanoff Natasha 24_4

A partir des données du tableau général consolidé, personne à part lui ne peut revenir sur ces données d’origine et mettre un nom sur les individus mesurés. Et lui-même n’a pas la possibilité de déterminer qui se cache derrière les autres identifiants tels 3_1, 12_4, 21_2, etc.

A vous de jouer

Votre objectif est d’acquérir des données pour étudier la prévalence de l’obésité dans la population. En classe, vous allez réfléchir par équipes aux données qu’il vous faudra mesurer : quoi ? pourquoi ? comment ? Les résultats de votre réflexion seront ensuite consolidées pour arriver à un consensus général. Ensuite, le fruit de cette réflexion ainsi que l’analyse que vous réaliserez seront à ajouter dans le projet sdd1_biometry. Une feuille Google Sheets sera mise à disposition pour encoder vos données de manière collaborative sur base des spécifications que vous aurez formulées.

Attention, veuillez à respectez les conventions que vous aurez édifiées ensemble lors de l’encodage… et n’oubliez pas de préciser également les métadonnées !


  1. En Europe, les données numériques concernant les personnes sont soumises à des règles strictes édictées dans le Règlement Général pour la Protection des Données ou RGPD en abrégé, en vigueur depuis le 25 mai 2018. Vous devez vous assurer de respecter ce règlement lors de la collecte et de l’utilisation de données relatives à des personnes. Pour les autres type de données, le droit d’auteur ou des copyrights peuvent aussi limiter votre champ d’action. Renseignez-vous !