En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour vous proposer des services et offres adaptés à vos centres d'intérêt.

En savoir plus
Excellence

Faculty Newsletter #8 - Library

01 juillet 2018
Les données de la recherche - De quoi parle-t-on ?

La définition la plus communément utilisée pour définir les données de la recherche (ou data research) est celle de l’OCDE (2007).

« Enregistrements factuels (chiffres, textes, images, sons) utilisés comme source principale pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche ».  

Les données de la recherche peuvent revêtir des formes différentes (données chiffrées, texte, son, image, questionnaire d’enquête, logiciel…). On distingue 5 types de données :

  • Les données d’observation comme des relevés de température ou de précipitations, les données de télédétection, les photos d’un événement ou encore les données d’enquêtes. Elles sont uniques et impossibles à reproduire d’où la nécessité de les conserver indéfiniment.
  • Les données expérimentales comme celles générées par un équipement en laboratoire ou les mesures de performance d’une machine. Ces données sont supposées être reproductibles mais il peut être difficile de reproduire les mêmes conditions de l’expérience ou reproduire la manipulation peut être tellement coûteux que cela en devient prohibitif. Par conséquent, il est recommandé d’archiver avec soin les données recueillies dans de telles situations.
  • Les données de simulation numérique produites par des logiciels comme pour des modèles climatiques ou économiques. Ces données sont reproductibles et s’il n’est pas nécessaire d’archiver toutes les données ainsi produites, il est en revanche indispensable de décrire le modèle, le logiciel associé et d’en archiver toutes les informations qui permettront sa ré-exploitation.
  • Les données dérivées ou compilées comme celles obtenues par de la fouille de textes ou de données d’une base. Il s’agit de données brutes qui ont fait l’objet de traitements et d’analyses successifs. Il est fortement recommandé de les archiver avec soin. 
  • Le code informatique : les enjeux liés à l'Open Data, aux infrastructures de diffusion ou au contexte juridique le rapprochent des données.

Pourquoi partager ses données ?

  • Permettre de répliquer des résultats et de les valider et ainsi améliorer la qualité de la science
  • Eviter de refaire ce qui a déjà été validé
  • Pouvoir retrouver facilement les données (y compris les siennes). Une étude a montré en 2013 que la disponibilité des données d’articles scientifiques diminuait au fil du temps jusqu’à atteindre seulement 20% pour les articles publiés il y a 20 ans.
  • Permettre la création de nouvelles connaissances
  • Initier des collaborations
  • Augmenter sa visibilité (CV, demandes de financement).

Cela veut dire suivre les données tout au long de leur cycle de vie (création, traitement, analyse, partage et réutilisation). Afin d’y arriver, un plan de gestion des données est indispensable.

Où rechercher des données ?

Il existe des moteurs de recherche d’entrepôts comme re3data.org et de jeux de données. C’est le meilleur moyen pour repérer où votre communauté partage ses données.

 

anne.barbier@audencia.com - médiathèque Audencia


Vous aimerez aussi

Catégories
Excellence