Formation en logiciel statistique : R commander

Formation en logiciel statistique : R commander
Ce petit guide pratique a été écrit pour faciliter l’utilisation de R Commander. A partir de courts exercices et de questions de recherche simples, il permet d’apprendre à décrire des données univariées et bivariées et à les analyser avec ce logiciel simple, puissant et gratuit. La plupart des chapitres portent sur un test en particulier et peuvent donc être travaillés indépendamment les uns des autres. Mais tous nécessitent de connaître l’interface de R Commander (chapitre Prise en main) et de savoir comment construire ou importer un tableau de données (chapitre Construire un tableau de données…) avec R Commander. Ce guide a été écrit en utilisant la version 2.2.3 de R Commander pour Windows. Mais compte tenu des faibles différences entre les versions pour Mac, LINUX (Ubuntu) et Windows (le chapitre Prise en main présente l’interface de R Commander sous les trois environnements), il peut être utilisé pour les trois. A ce titre, les annexes présentent les procédures de chargement et d’installation de R et de R Commander sous Windows, Mac et Ubuntu. Enfin et surtout, ce petit guide pratique n’a pas vocation à se substituer à un manuel d’introduction à la statistique. Au contraire, il part de principe que les lecteurs et lectrices connaissent les statistiques descriptives ainsi que les tests d’inférence statistique usuels, leurs conditions d’utilisation et surtout leur pertinence par rapport aux questions de recherche posées. Ce document est protégé par les droits d’auteur. Il peut être téléchargé et utilisé gratuitement. Toute modification, même partielle, n’est autorisée qu’avec l’accord écrit de l’auteur.
1. R Commander : découverte et prise en main
R Commander (Fox, 2005), ou encore Rcmdr est une interface graphique (Graphical User Interface, GUI) du logiciel libre R. R Commander permet de calculer des statistiques de base descriptives et inférentielles à partir de menus déroulants, sans avoir donc à écrire les commandes et maîtriser le langage R. R Commander repose sur la souplesse et la puissance de calcul de R et permet de construire des graphiques, autre point fort de R. Mais R Commander n’est que la partie visible de l’iceberg R, c’est à dire que c’est un paquet (package) parmi les centaines de paquets élaborés et offerts par la communauté des chercheurs pour enrichir les fonctionnalités de R, ou pour proposer des méthodes particulières. Pour autant, sa simplicité et son aspect intuitif permettent aux chercheur.e.s de répondre à nombre de questions quantitatives qu’elles et ils se posent ; et petit à petit, de découvrir les potentialités de R.
1.1 Démarrer R Commander
Pour démarrer R Commander, il faut tout d’abord démarrer R en double cliquant sur l’icône R se trouvant sur le bureau. La fenêtre R s’ouvre avec plusieurs paragraphes en bleu donnant quelques informations sur R (voir ci-dessous). Sous le texte, il y a le symbole rouge >, appelé prompt. C’est après ce symbole qu’il faut taper les lignes de commande de R qui s'affichent également en rouge. Pour lancer R Commander, après le > il faut taper library(Rcmdr) et entrer.
Si la commande est incomplète, le symbole > est remplacé par + Si la commande est fausse (par exemple, la majuscule de Rcmdr a été oubliée), un message erreur s’affiche. R distingue donc majuscules et minuscules. Ajoutons que les é, è, î,… posent problème : il faut éviter tous les accents, même dans les noms des colonnes des fichiers importés. Dernière précision typographique : les décimales étant en anglais, il faut mettre des points à la place des virgules. Lorsque R Commander est chargé, la fenêtre s’affiche à l’écran. Comme toute fenêtre, elle reproduit le graphique habituel de l’environnement de l’ordinateur, Windows, Mac ou Ubuntu (Linux). Pour autant, l’arborescence des menus est identique (il y a les mêmes options, les mêmes commandes) et les algorithmes de calculs sont les mêmes. Par la suite, nous utiliserons le graphique de Windows, mais on aura compris que les procédures, les étapes sont identiques sous Mac ou sous Ubuntu. Ci-dessous sont présentées les fenêtres R Commander sous les différents environnements.
Examinons la fenêtre R Commander On peut l’agrandir en glissant la souris à partir des bords ou en cliquant le bouton d’agrandissement. Tout en haut, le nom du programme R Commander et les 3 icônes pour masquer, agrandir/réduire, ou fermer. En dessous, la barre « menu », avec Fichier, Edition, Données… En cliquant sur un mot, apparaît un menu déroulant à partir duquel on choisit les actions ou les analyses, on le verra plus loin. Sous la barre des menus, quatre touches : Pas de données (lorsque l’on travaillera avec un jeu de données, son titre apparaîtra là ; Editer ; Visualiser ; Pas de Modèle. Ce sont des touches raccourcis et que l’on retrouve dans les menus déroulants Une première petite fenêtre blanche sous les deux onglets, script R et Markdown : c’est la fenêtre des commandes dans le langage de programmation de R, appelées scripts. Chaque clic de la souris sur une icône ou une commande d’un menu déroulant correspond à une programmation et y fera apparaître un script. On trouve d’ailleurs le même principe dans certains logiciels de statistiques tel SPSS avec la possibilité de visualiser le langage de programmation dans une fenêtre spécifique appelée Editeur de syntaxe. Simplement, dans R Commander, ‘l’éditeur de syntaxe’ est sous les yeux en permanence, ce qui est une bonne façon de connaître le langage de R. D’ailleurs, lorsque nous souhaiterons programmer une analyse un peu spécifique, il suffira d’écrire le script dans la fenêtre, le sélectionner (le surligner avec la souris), puis de cliquer sur Soumettre. Et parfois, pour aller plus vite lorsqu’il s’agira de procéder à des traitements répétitifs, il suffira de reprendre le script, de le modifier à sa guise, de le sélectionner et de soumettre.
Notons que la fenêtre des scripts de R Commander est équivalente à la fenêtre de R : une commande lancée sous R Commander est reconnue par R et inversement. La grande fenêtre en dessous est la fenêtre des sorties : c’est là que nous lirons les statistiques demandées (les commandes sont en rouge), c’est-à-dire les résultats (qui sont en bleu). Tout en bas, une troisième petite fenêtre pour des messages, qui peuvent apparaître sous la forme d’avis (en vert), de notes (en bleu) ou d’erreurs (en rouge).
1.2 Faire des calculs avec R
R est avant tout un calculateur, donc R Commander aussi puisque les deux fenêtres sont équivalentes. Le tableau ci-dessous présente quelques opérations élémentaires possibles. Il suffit écrire l’opération dans la fenêtre commande, de surligner et de soumettre (dans R, il suffit d’écrire l’opération après le > et entrer) :
…
1.3 Copier, enregistrer les résultats et fermer R Commander
On peut rapidement copier ce qui apparaît dans la fenêtre des sorties, tout simplement en sélectionnant l’extrait que l’on souhaite copier avec la souris, puis Copier (bouton droit). Dans le traitement de texte, cliquer Coller : les résultats sont là. Pour les graphiques, les images, l’option Copier les images est proposée dans le menu Editer ou en cliquant sur bouton droit de la souris. Il suffit ensuite de coller là où l’on souhaite, ou encore de l’enregistrer comme fichier Avant de fermer R Commander, il ne faut pas oublier d’enregistrer le fichier actif au risque de perdre des modifications apportées. Pour fermer R Commander, à moins de passer par le menu déroulant, Fichier à Sortir, il suffit de cliquer sur la croix rouge en haut à droite de la fenêtre de R Commander :
Quatre fenêtres se suivent, demandant la confirmation de la fermeture et l’enregistrement ou non le fichier script (pour réutiliser une autre fois les commandes utilisées), les scripts avec R Mardown, enfin les sorties (pour les conserver).
…
2 Construire un tableau de données, spécifier les variables et modifier les valeurs
Si l’on utilise des statistiques pour résoudre des problèmes, c’est que l’on dispose d’un grand nombre de données numériques. Pour effectuer les statistiques souhaitées, il est obligatoire de présenter ces données sous la forme d’un tableau dans lequel chaque colonne est une variable et chaque ligne un individu (individu au sens statistique du terme, c’est-à-dire une personne, une chose, une famille, un phénomène…, bref, tout ce à quoi s’intéresse la statistique). Chaque case, appelée cellule, est la valeur donnée à un individu (ou sa réponse s’il s’agit par exemple d’un questionnaire) à une variable (par exemple à une question). Dans ce genre de tableau, la toute première ligne est réservée aux noms des colonnes, c’est à dire au nom des variables (ne pas mettre d’accent et d’espace). La première colonne est généralement réservée aux noms des lignes, c’est à dire les noms des individus qui sont souvent les numéros attribués aux individus, aux protocoles. Un tel tableau des données peut-être très grand puisqu’il comporte autant de colonnes que de variables (dans un sondage, chaque question est a minima une variable) et autant de lignes que d’individus ayant participé. R Commander permet de construire des tableaux comportant moins de 10 000 valeurs. On peut aussi importer un tableau de données élaboré dans un tableur (Open Office, Excell…) ou dans d’autres logiciels de statistiques tels SPSS, SAS. Ces tableaux peuvent avoir plus de 10 000 valeurs.
Une pratique qui accélère la saisie consiste à remplacer les mots des modalités d’une variable par un chiffre (par exemple 1 pour les filles et 2 pour les garçons, ou encore les chiffres associés aux catégories socio-professionnelles, aux années d’études…). Ces chiffres ne font que nommer ces modalités. Nous verrons ci-dessous comment leur attribuer de nouveau leur nom (coder les variables). Enfin, pour éviter les erreurs de saisie et pour aller plus vite, on entre les valeurs telles qu’elles apparaissent dans les protocoles. S’il faut faire la somme à plusieurs réponses, nous le ferons plus tard ; s’il faut inverser les réponses à une question négative, nous le ferons pareillement plus tard ; plus tard également s’il faut regrouper des scores en deux ou trois classes. En fait, ce sont des fonctions ou des calculs que permet de faire automatiquement R Commander lorsque que l’on souhaite modifier une variable, ce que nous verrons bientôt (modifier les variables).
2.1 Construire un tableau de données avec R Commander
Construire un tableau de données avec R Commander se fait avec l’éditeur de données. Cet éditeur de données présente des fonctions semblables à celles des tableurs : il permet de créer un nouveau tableau de données, de modifier les données d’un tableau existant, d’ajouter ou de supprimer des lignes (row) et des colonnes (column) au tableau, de copier (copy), coller (paste) ou couper (cut) le contenu des cellules (cell). Cependant, il est moins ergonomique, moins rapide pour la saisie des données, il offre moins de possibilités qu’un vrai tableur et il est limité à 10 000 valeurs rappelons-le. Bref, il s’avère pratique pour de petits jeux de données et de petits exercices, sans plus. Voici à titre d’exercice un petit jeu de données recueillies par une enseignante qui a relevé les notes à une évaluation passée par 6 élèves, trois filles et trois garçons. Comme il a été précisé plus haut, pour effectuer des statistiques, il est nécessaire de présenter les données sous la forme d’un tableau dans lequel chaque colonne est une variable et chaque ligne un individu et le nom des variables en haut des colonnes. Il y ici trois variables, les élèves, leur sexe (codé ici 1 pour les filles et 2 pour les garçons) et leur note. Et il y a 6 individus, ici 6 élèves : 6 lignes donc, plus la première ligne pour les noms des variables.
…
Lorsque les colonnes sont prêtes, on peut passer aux lignes, c’est-à-dire que l’on remplit le tableau individu par individu, c’est-à-dire ligne par ligne. Pour remplir le tableau, il suffit de cliquer dans une cellule et de mettre la valeur correspondante qui s’affiche à la place de NA. NA signifie valeur manquante : s’il y en a, il suffira de sauter la cellule. Comme on le verra au cours des différentes parties, R Commander gère ces valeurs manquantes en proposant par exemple d’en tenir compte, ou pas, dans certains calculs ; ou encore en proposant une option dans laquelle, les lignes comportant des valeurs manquantes sont supprimées lors de la création de nouveaux fichiers avec une partie des données. On passe d’une cellule à l’autre à l’aide des flèches du clavier. Arrivé au bout de la première ligne, on ajoute une seconde ligne en cliquant sur l’onglet Ajouter une ligne etc. Attention, rappelons que dans la numérotation anglaise, les décimales s’écrivent avec un point à la place de la virgule : par exemple ici, à la place de 12,5, il faut entrer 12.5.
…
Comme il n’y a pas de donnée manquante, le tableau final ne comporte aucune cellule avec NA. Lorsque la saisie est terminée, appuyez sur OK. La fenêtre ‘Editeur de données’ disparaît et laisse place à la fenêtre R Commander. En haut, après ‘Données’, le nom du tableau ‘Dataset’ apparaît : c’est le jeu de données actif. Tout en bas, une note bleue signale qu’un jeu de données est actif, avec son nom (Dataset) et les nombres de lignes et de colonnes.
…
2.3 Importer un jeu de données
Comme beaucoup de logiciels de statistiques, R Commander peut travailler à partir de tableaux construits sur des tableurs (Excel, Open Office…) ou d’autres logiciels (SPSS, SAS, Minitab et STATA…). Il offre à ce titre une très grande souplesse et certains paquets (packages) sont dédiés à cela. On peut ainsi choisir le logiciel parmi une liste proposée et on se laisse ensuite guider et répondre aux questions posées quand il y en a. Ainsi, si l’on a un tableau construit dans l’un de ces logiciels, il suffit d’aller sur Données dans la barre de menu, puis Importer un jeu de données et de choisir le logiciel utilisé. Si l’on a un jeu de données dans une autre logiciel que ceux proposés, ou si la démarche cidessus n’aboutit pas (ce qui arrive pour les nouvelles versions de ces logiciels qui ne sont pas encore intégrées dans la version présente de R Commander), la procédure reste néanmoins extrêmement simple, ce que nous allons faire ci-dessous.
Table des matières
1. R Commander : découverte et prise en main ............ 5
1.1 Démarrer R Commander ................. 5
1.2 Faire des calculs avec R................... 8
1.3 Copier, enregistrer les résultats et fermer R Commander...... 9
2 Construire un tableau de données, spécifier les variables et modifier les valeurs ........... 10
2.1 Construire un tableau de données avec R Commander ....... 10
2.2 Enregistrer un tableau de données.................... 13
2.3 Importer un jeu de données ........... 14
2.4 Ouvrir un fichier de données déjà enregistré sous R........... 19
2.5 Coder les variables......................... 20
2.6 Calculer de nouvelles variables........................ 22
2.7 Découper une variable numérique en classes...................... 23
2.8 Générer des jeux de données partiels ............... 24
3 Statistiques descriptives ....................... 27
3.1 Statistiques descriptives numériques................ 28
3.1.1 Statistiques descriptives par variable ........ 28
3.1.2 Statistiques descriptives par modalité de variable (sous-groupes).. 30
3.2 Construire des graphiques pour décrire des données........... 33
3.2.1 Dessiner un histogramme .......................... 33
3.2.2 Dessiner un graphe Tiges et feuilles ......... 34
3.2.3 Dessiner un graphe quantile-quantile :...... 36
3.2.4 Dessiner une boîte à moustaches............... 37
3.2.5 Dessiner un graphe des moyennes ............ 39
3.2.6 Dessiner un graphe en camembert ............ 41
3.2.7 Dessiner un graphe en barres .................... 42
4 Tableaux croisés et Chi-deux d’indépendance (Chi-square test of independance) ......... 44
4.1 Calculer un Chi-deux à partir d’un tableau croisé............... 44
4.2 Calculer un Chi-deux sur un jeu de données....................... 46
5 La corrélation avec le r de Bravais-Pearson (correlation with Pearson’s r).................... 48
5.1 Vérifier la nature linéaire de la relation entre les deux observations Avant et Après49
5.2 Vérifier que les variables Avant et Après se distribuent normalement .. 50
5.3 Calculer la corrélation entre les deux variables................... 52
5.4 Calcul de la corrélation pour sous-groupes ...... 52
5.4.1 Vérifier la nature linéaire de la relation entre Avant et Après pour le sousgroupe des filles ................ 53
5.4.2 Vérifier la normalité des deux distributions des scores Avant et Après pour ce sous-groupe des filles........................... 54
5.4.3 Calcul de la corrélation pour un sous-groupe............... 57
6 La corrélation avec le rho de Spearman (correlational analysis : Spearman’s rho)....... 60
6.1 Vérifier la nature linéaire de la relation en observant le nuage de points ................. 61
6.2 Vérifier que les variables Temps et Performance se distribuent normalement ......... 62
6.3 Calculer la corrélation entre les deux variables Temps et Performance.................... 63
7 Le test t de Student pour un échantillon ou test t univarié (one sample t-test) ................ 64
8 Le test t de Student pour groupes indépendants (independant sample t-test).................. 66
8.1 Vérifier la normalité des groupes ..................... 67
8.2 Apprécier l’égalité des variances des 2 groupes.................. 69
8.3 Calcul du t de Student pour groupes indépendants.............. 70
9 Le test U de Mann-Withney (ou test de la somme des rangs de Wilcoxon) pour groupes indépendants (Mann-Withney U-test or Wilcoxon sum rank test)...... 71
10 Le test t de Student pour groupes appariés (paired sample, ou related t-test)................. 73
10.1 Vérifier la normalité des 2 groupes............... 73
10.2 Calcul du test t pour groupes appariés.......... 75
10.3 Calcul du test t de Student pour sous-groupes appariés...................... 76
10.3.1 Vérifier la normalité d’un sous-groupe ........................ 76
10.3.2 Calcul du test t pour deux sous-groupes appariés........ 79
11 Le test du signe de Wilcoxon pour groupes appariés (Wilcoxon signed ranks test)........ 81
12 ANOVA pour groupes indépendants (One-Way between-groups)............... 83
12.1 Tester la normalité des groupes .................... 84
12.2 Tester l’égalité des variances des 3 groupes.................... 86
12.3 Calcul de l’ANOVA pour groupes indépendants ............ 87
12.4 Comparaisons a posteriori......... 88
13 La régression linéaire simple (Simple Regression) .................... 89
13.1 Vérifier la nature linéaire de la relation entre X et Y en observant le nuage de points 90
13.2 Calculer la corrélation entre les deux variables Temps et Performance ................ 91
13.3 La droite de regression............... 92
13.4 Les tests d’hypothèse :............... 93
13.4.1 Vérifier les conditions d’homogénéité des variances et de normalité dans les vecteurs en observant les graphiques...................... 94
Petit guide pratique R Commander Table des matières
13.4.2 Pour aller plus loin ................. 95
14 Références......................... 98
15 Annexes............................. 99
15.1 Installer R et R Commander sous Windows.................. 100
15.2 Installer R et R Commander sous Mac ....... 108
15.3 Installer R et R Commander sous Ubuntu (Linux)........ 124