[Dessinetaville] Qu’est-ce qu’une donnée ?

Jean-Christophe Becquet jcb at apitux.com
Mar 2 Fév 07:10:54 CET 2021


Bonjour,

Je vous propose ce matin la lecture d'un article de Pascal Rivière, chef
de l’Inspection générale à l'Insee paru dans le Courrier des
statistiques du 31/12/2020.

Cet article nous amène à revisiter les fondamentaux théoriques autour de
la donnée. On fera quelques détours par la théorie de l'information de
Claude Shannon et la cybernétique de Norbert Wiener. On parlera de
métadonnées, de qualité et de conformité de la donnée ; des formats de
stockage et des protocoles d'échange : fichier structuré, base de
données, XML, JSON ; d'entrepôts, de lacs et de flux de données...

Morceaux choisis :

« À l’instar de l’ébéniste, du forgeron ou du tailleur de pierre, le
statisticien se confronte à un matériau brut, imparfait, traversé de
nœuds et de failles. Mobilisant des outils et méthodes qui lui sont
propres, il le polit, l’assemble et le met en forme. Ce matériau qu’il
travaille, et qu’il contribue à créer, ce sont les données. »

« Caractériser le concept de donnée est d’autant plus délicat que nombre
d’ouvrages sur le sujet data éludent tout simplement la question de la
définition. L’étymologie fournit un point de départ original, le verbe
donner n’étant pas neutre ; en anglais, datum et son pluriel data sont
issus du latin dare qui signifie... donner. Pour Howard Becker, ce choix
est un accident de l’histoire (Becker, 1952) : on aurait dû pointer non
pas "ce qui a été donné" au scientifique par la nature, mais plutôt ce
qu’il a choisi de prendre, les sélections qu’il a opérées parmi
l’ensemble des données potentielles. Pour évoquer le caractère partiel
et sélectif inhérent aux données, il eût fallu choisir captum plutôt que
datum. »

« on peut constituer une pyramide données > information > connaissance >
sagesse (figure 1), où chaque couche précède l’autre, et se déduit de la
précédente par un "processus de distillation" (abstraire, organiser,
analyser, interpréter, etc.), qui ajoute du sens, de l’organisation, et
révèle des liens. »

« Il n’existe pas de donnée dans la nature. Pas la moindre. Pour
l’exprimer en d’autres termes, les données ne sont pas données, il faut
les construire, les prendre (captum vs datum). Elles requièrent en amont
un travail de modélisation, d’abstraction, de spécification des
concepts, puis des domaines, avant d’imaginer produire des valeurs.
Elles sont dépendantes de choix eux-mêmes liés à des usages. »


Qu’est-ce qu’une donnée ?
https://www.insee.fr/fr/information/5008707

Bonne journée

JCB
-- 
OpenDay : matinée en visioconférence
sur le thème du logiciel libre ce mercredi 3 février
https://www.april.org/openday-matinee-en-visioconference-sur-le-theme-du-logiciel-libre-3-fevrier-2021

Jean-Christophe Becquet
APITUX - le choix du logiciel libre
06 25 86 07 92 - jcb at apitux.com - http://www.apitux.com


Plus d'informations sur la liste de diffusion Dessinetaville