doc: sif-2021: Tweak wording.

* doc/sif-2021/article-1024.org: Tweak wording as suggested by Denis
Pallez.
This commit is contained in:
Ludovic Courtès 2021-08-03 15:23:35 +02:00
parent 223759e173
commit 05f0227167
No known key found for this signature in database
GPG Key ID: 090B11993D9AEBB5
1 changed files with 20 additions and 20 deletions

View File

@ -30,7 +30,7 @@
de recherche reproductible — un pléonasme ! — doit intégrer le
logiciel. Mais de quelle manière au juste ?
Le Deuxième Plan national pour la science ouverte
Le deuxième Plan national pour la science ouverte
[[cite:mesri2021planscienceouverte]], publié en juillet 2021, « soutient »
la diffusion du code source des logiciels de recherche sous licence
libre permettant la diffusion sans restriction, mais aussi la
@ -39,15 +39,15 @@
critique ne peut se faire correctement que si les pairs peuvent
étudier le code source et faire leurs propres expériences. Le Plan
insiste aussi sur la conservation des codes sources grâce à Software
Heritage sans laquelle ce travail devient vite impossible.
Heritage, sans quoi ce travail devient vite impossible.
Que le code source soit disponible est une condition nécessaire mais
pas suffisante. Les sociétés savantes ont mis en place un système de
badges pour évaluer le niveau de reproductibilité des résultats
décrits dans leurs publications. Celui de l'/Association for Computer
Machinery/ (ACM) dispose de trois niveaux selon que le code soit
disponible (premier niveau), utilisable (deuxième niveau), ou que les
résultats aient été reproduits indépendamment en faisant tourner le
Machinery/ (ACM) dispose de trois niveaux selon que le code est
disponible (premier niveau), est utilisable (deuxième niveau), ou que les
résultats ont été reproduits indépendamment en faisant tourner le
code[fn:2]. La reproduction des environnements logiciels — le fait de
pouvoir déployer précisément lensemble logiciel qui a servi à une
production scientifique — est un aspect quon relègue volontiers au
@ -69,14 +69,14 @@
Malheureusement, ces outils ont deux limitations : ils requièrent les
droits dadministration système, et ils ne permettent de déployer
quun seul environnement logiciel à la fois. Pour cette raison, en
particulier dans le domaine du calcul intensif (ou HPC, pour
/high-performance computing/), on a développé dautres outils de
gestions de paquets destinés à être utilisés /par dessus/ celui du
système, avec lavantage dêtre utilisable sans les droits
particulier dans le domaine du calcul intensif (/high-performance
computing/ ou HPC), on a développé dautres outils de
gestion de paquets destinés à être utilisés /au dessus/ celui du
système, avec lavantage dêtre utilisables sans les droits
dadministration, par chaque utilisateur·ice, qui peut ainsi déployer
son ou ses environnements logiciels. Les outils populaires dans cette
ses environnements logiciels. Les outils populaires dans cette
catégorie incluent CONDA, Spack et EasyBuild, ainsi que des outils
propres à un langage de programmation (pour Python, Julia, R, etc.).
dédiés à un langage de programmation (pour Python, Julia, R, etc.).
Lexpérience a rapidement montré que cet empilement doutils de
déploiement devient vite préjudiciable à la reproductibilité, car
@ -103,7 +103,7 @@
Lapproche est séduisante : puisquon a tous les octets des logiciels,
la reproductibilité est totale ; on a la garantie de pouvoir relancer
les logiciels, et donc, de reproduire lexpérience scientifique. Mais
linconvénient est de taille : puisque lon a /que/ les octets des
linconvénient est de taille : puisque lon na /que/ les octets des
logiciels, comment savoir si ces octets correspondent vraiment au code
source que lon croit exécuter ? Comment expérimenter avec cet
environnement logiciel, dans le cadre dune démarche scientifique,
@ -161,8 +161,8 @@
* Déclarer et reproduire un environnement logiciel
Guix peut sutiliser comme une distribution à part entière, Guix
System, ou alors comme un outil de déploiement par dessus une
Guix peut sutiliser comme une distribution à part entière avec Guix
System ou alors comme un outil de déploiement par dessus une
distribution existante et donnant accès à plus de 18 000 logiciels
libres. Il fournit une interface en ligne de commande similaire à
celle des outils de gestion de paquets : la commande =guix install
@ -177,7 +177,7 @@
Voyons maintenant comment on peut concrètement, en tant que
scientifique, utiliser cet outil pour que ses expériences
calculatoires soient reproductibles. On peut commencer par lister
dans un /manifeste/ les logiciels à déployer ; ce fichier peut être
dans un /manifeste/ les logiciels à déployer ; ce manifeste peut être
partagé avec ses pairs et stocké en gestion de version. Lexemple
ci-dessous nous montre un manifeste pour les logiciels Python, SciPy
et NumPy :
@ -212,7 +212,7 @@
version Git, lidentifiant de révision désigne de manière non ambiguë
/lensemble du graphe de dépendance des logiciels/ — aussi bien la
version de Python, que ses options des compilations, ses dépendances,
et ce récursivement jusquau compilateur du compilateur. Cest la
et ceci récursivement jusquau compilateur du compilateur. Cest la
commande ~guix describe~ qui donne la révision actuellement utilisée :
#+begin_src sh
@ -275,7 +275,7 @@
possible.
Et si le code source de ces logiciels venait à disparaître ? On peut
compter sur Software Heritage (abrégé SWH), qui a pour mission rien de
compter sur Software Heritage (SWH en abrégé), qui a pour mission rien de
moins que darchiver tout le code source public disponible[fn:6].
Depuis quelques années, Guix est intégré à SWH de deux manières :
dune part Guix va automatiquement chercher le code source sur SWH
@ -330,13 +330,13 @@
* Adapter les pratiques scientifiques
La place croissante prise par le logiciel dans les travaux
scientifiques avait, paradoxalement, probablement été une des causes
scientifiques, paradoxalement, avait probablement été une des causes
de la « crise » de la reproductibilité en sciences expérimentales que
beaucoup ont observée — par la perte de bonnes pratiques anciennes
telles que les cahiers de laboratoire. Notre souhait est quelle
puisse maintenant, au contraire, permettre une /meilleure/
reproductibilité des résultats expérimentaux, en refusant de mettre de
côté la rigueur scientifique quand on arrive dans le terrain logiciel.
reproductibilité des résultats expérimentaux, en maintenant à tout
prix la rigueur scientifique quand on arrive dans le terrain logiciel.
De même que les outils de gestion de version sont progressivement
entrés dans la boîte à outils des scientifiques comme un moyen