-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathindex.Rmd
executable file
·163 lines (115 loc) · 9.46 KB
/
index.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
---
title: "Science des données biologiques"
author: "Philippe Grosjean & Guyliann Engels"
date: "`r Sys.Date()`"
site: bookdown::bookdown_site
output:
bookdown::gitbook:
includes:
after_body: disqus.html
documentclass: book
bibliography: [book.bib, packages.bib]
biblio-style: apalike
link-citations: yes
github-repo: 'biodatascience-course/sdd-umons-2018'
url: 'http\://biodatascience-course.sciviews.org/sdd-umons-2018/'
description: "Tutoriel interactif pour la science des données avec R & SciViews-R."
cover-image: "images/front-cover.png"
---
# Préambule {-}
```{r setup, include=FALSE}
knitr::opts_chunk$set(comment = "#", fig.align = "center")
# Automatically create a bib database for R packages
knitr::write_bib(c(.packages(), 'bookdown', 'knitr', 'rmarkdown'), 'packages.bib')
```
```{block, type='info'}
Cet ouvrage a été écrit pour le cours de science des données I : inférence et visualisation de l'année académique 2018-2019. Afin de trouver la dernière version disponible de cet ouvrage suivez le lien suivant :
- <https://wp.sciviews.org/sdd-umons>
```
Cet ouvrage interactif est le premier volume d'une série de trois ouvrages traitant de la science des données biologiques. La matière sera complétée progressivement à partir du premier cours prévu pour l'année académique 2018-2019, et deux autres tomes viendront la compléter en 2019-2020 (partie 2) et 2020-2021 (partie 3)..
Cet ouvrage est conçu pour être utilisé de manière interactive en ligne. En effet, nous prévoyons d'y adjoindre des capsules (unités d'enseignement ciblant un et un seul concept) sous forme de vidéos, des démonstrations interactives, et des exercices sous forme de questionnaires interactifs également. **Ces différents éléments ne sont, bien évidemment, utilisables qu'en ligne.**
![](images/front-cover.png)
## Vue générale du cours {-}
Le premier cours intitulé **Science des données I: visualisation et inférence** qui est dispensé aux biologistes de second Bachelier en Faculté des Sciences de l'Université de Mons à partir de l'année académique 2018-2019 contient 25h de cours et 50h d'exercices en presentiel. Il nécessitera environ un tiers de ce temps (voir plus, en fonction de votre rythme et de votre technique d'apprentissage) en travail à domicile.
Cette matière est divisée en 12 modules de sessions de 6h chacune en présentiel. **Une première séance de 2h précèdera ces 12 modules afin d'installer les logiciels (SciViews Box, R, RStudio, Github Desktop), et de se familiariser avec eux.**
```{r diagram-sddI, out.width = '80%', fig.asp = .75, fig.align = 'center', echo = FALSE, warning = FALSE, cache = TRUE}
DiagrammeR::grViz("
digraph general_flow {
graph [rankdir = \"TB\", overlap = true, compount = true, fontsize = 10]
node [shape = box,
fontname = Helvetica,
style = filled,
fillcolor = LightSteelBlue,
fixedsize = true,
width = 2]
'1 Introduction'; '12 Design/critique'
subgraph cluster_0 {
style = filled;
color = lightgrey;
node [style = filled, color = red];
'2 Visualisation I'->'3 Visualisation II'
'2 Visualisation I'->'4 Visualisation III'
label = \"Visualisation & description des données\";
color = lightgray
}
subgraph cluster_1 {
style = filled;
color = lightgrey;
node [style = filled, color = blue];
'5 Quantitatif'->'6 Qualitatif'
label = \"Importation & transformation des données\";
color = lightgray
}
subgraph cluster_2 {
style = filled;
color = lightgrey;
node [style = filled, color = green];
'7 Probabilités'->'8 Test Chi2'
'7 Probabilités'->'9 IC/t-test'
'8 Test Chi2'->'9 IC/t-test'
'9 IC/t-test'->'10 ANOVA'
'10 ANOVA'->'11 Correlation'
label = \"Inférence & hypothèses\";
color = lightgray
}
'1 Introduction'->'2 Visualisation I' [lhead = cluster_0]
'2 Visualisation I'->'5 Quantitatif' [lhead = cluster_1]
'3 Visualisation II'->'7 Probabilités' [lhead = cluster_2]
'4 Visualisation III'->'7 Probabilités' [lhead = cluster_2]
'6 Qualitatif'->'7 Probabilités' [lhead = cluster_2]
'11 Correlation'->'12 Design/critique'
}
", width = 600, height = 600)
```
## Matériel pédagogique {-}
Le matériel pédagogique, rassemblé dans ce syllabus interactif est aussi varié que possible. Vous pourrez ainsi piocher dans l'offre en fonction de vos envies et de votre profil d'apprenant pour optimiser votre travail. Vous trouverez:
- le présent ouvrage en ligne,
- des capsules, essentiellement sous forme de vidéos < 10 min qui ciblent chacune un concept particulier (en cours de développement),
- des tutoriaux interactifs (réalisés avec un logiciel appelé `learnr`). Vous pourrez exécuter ces tutoriaux directement sur votre ordinateur, et vous aurez alors accès à des pages Web réactives contenant des explications, des exercices et des quizzs en ligne,
- des slides de présentations,
- des dépôts Github Classroom dans la section `BioDataScience-Course` (vous apprendrez ce que c'est très rapidement dès le premier module) pour réaliser et documenter vos travaux personnels.
- des renvois vers des documents externes en ligne, types vidéos youtube ou vimeo, des ouvrages en ligne en anglais ou en français, des blogs, des tutoriaux, des parties gratuites de cours Datacamp ou équivalents, des questions sur des sites comme "Stackoverflow" ou issues des "mailing lists" R, ...
```{block, type='info'}
Tout ce matériel est accessible à partir du [site Web du cours](http://biodatascience-course.sciviews.org), du présent syllabus interactif (et de Moodle pour les étudiants de l'UMONS). Ces derniers ont aussi accès au dossier ` SDD` sur `StudentTemp` en Intranet à l'UMONS. Les aspects pratiques seront à réaliser en utilisant la **'SciViews Box'**, une machine virtuelle préconfigurée que nous installerons ensemble lors du premier cours^[Il est donc très important que vous soyez présent à ce cours, et vous pouvez venir aussi si vous le souhaitez avec votre propre ordinateur portable.]. Il vous faudra donc avoir accès à un ordinateur (sous Windows, MacOS, ou Linux peu importe, suffisamment puissant et connecté à Internet ou à l'Intranet UMONS). Enfin, vous pourrez poser vos questions par mail à l'adresse `sdd@sciviews.org`.
```
## Comment apprendre? {-}
```{r}
fortunes::fortune("brain surgery")
```
Version courte: **en pratiquant, en faisant des erreurs !**
Version longue: aujourd'hui --et encore plus à l'avenir-- les données sont complexes et ne se manipulent plus simplement avec un tableur comme Microsoft Excel. Vous allez apprendre à maitriser des outils professionnels, ce qui sous-entend qu'ils sont très puissants mais aussi relativement complexes. La méthode d'apprentissage que nous vous proposons a pour objectif prioritaire de vous faciliter la tâche, quelles que soient vos aptitudes au départ. Envisagez votre voyage en science des données comme l'apprentissage d'une nouvelle langue. **C'est en pratiquant, et en pratiquant encore sur le long terme que vous allez progresser.** La formation s'étale sur quatre années, et est répartie en cinq cours de difficulté croissante pour vous aider dans cet apprentissage progressif et sur la durée. N'hésitez pas à expérimenter, tester, essayer des nouvelles idées (même au delà de ce qui sera demandé dans les exercices) et **n'ayez pas peur de faire des erreurs**. Vous en ferez, ... beaucoup ... _nous vous le souhaitons!_ En fait, la meilleure manière d'apprendre, c'est justement en faisant des erreurs, et puis en mettant tout en oeuvre pour les comprendre et les corriger. Donc, si un message d'erreur, ou un "warning" apparait, ne soyez pas intimidé. Prenez une bonne respiration, lisez-le attentivement, essayez de le comprendre, et au besoin faites-vous aider: la solution est sur le Net, 'Google^[Il existe tout de même des outils plus pointus pour obtenir de l'aide sur le logiciel R comme [rseek.org](https://rseek.org), [rdocumentation.org](https://www.rdocumentation.org) ou [rdrr.io](https://rdrr.io). Rien ne sert de chercher 'R' dans Goggle.] est votre ami'!
## Evaluation {-}
L'évaluation sera basée sur une somme de petites contributions qui matérialiseront votre progression sur le long terme. Avec cette évaluation, nous souhaitons vous gratifier chaque fois que vous franchirez des étapes, plutôt que de vous sanctionner lorsque vous bloquez. Donc, pour une note finale sur 20:
<!-- - 2 points pour la progression sur base des exercices que vous réaliserez en classe inversée (donc, chez vous). -->
- 3 points pour la restitution des capsules et votre participation en présentiel. Au début de chaque séance, nous discuterons des notions que vous aurez à préparer par avance, et votre participation sera évaluée.
- 6 points pour un quizz final.
<!-- : vous aurez à répondre à cinq questions au hasard (set différent pour chaque étudiant sur base de 20 questions au total). -->
- 11 points pour l’évaluation d’un des rapports d'analyse de données (choisi au hasard en fin de cours).
- Enfin, vous pourrez éventuellement encore gagner un point bonus pour une participation remarquable, ou tout autre élément à valoriser (site web personnel et/ou blog exceptionnel, aide des autres étudiants, etc.). Ceci étant à l'appréciation des enseignants.
----
_Le matériel dans cet ouvrage est distribué sous licence [CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.fr)._
----
##### System information {-}
```{r}
sessioninfo::session_info()
```