Cours sur la statistique appliquee a la biologie

Participez au vote ☆☆☆☆☆★★★★★

Cours sur lastatistique appliquée à la biologie

1. Les diﬀérents types de variable

Une variable est dite aléatoire si l’on ne peut pas prédire à coup sûr la valeur que prendra un individu. Il existe deux types de variable aléatoire :

quantitatives : elles ont en général une infinité de valeurs numériques possibles et peuvent être :

– continues (ex : masse, temps, distance, volume)

– discrètes (ex : dénombrement)

qualitatives : elles sont en général non numériques (mais pas toujours) et sont appelées facteurs. Leur valeur est appelée classe, niveau ou modalité. Ces variables peuvent être :

– ordinales, lorsque les classes peuvent être ordonnées (ex : classement)

– nominales, lorsque les classes ne peuvent pas être ordonnées (ex : sexe).

Les classes d’une variable qualitative sont dites exclusives si un individu ne peut pas appartenir à plusieurs classes en même temps. Beaucoup de tests statistiques exigent que les classes soient exclusives. Dans tous les cas, le caractère d’exclusivité doit être déterminé avant toute analyse statistique.

Il existe deux types de facteur :

– fixe : un facteur est fixe si ses classes ont été délibérément choisies, et si le but de l’étude est de les comparer. Par exemple, si l’on veut comparer la taille des individus entre trois espèces, le facteur « espèce » est fixe (à trois classes)

– aléatoire : un facteur est aléatoire si ses classes ont été choisies parmi un grand nombre de classes possibles, et si le but de l’étude n’est pas de les comparer mais simplement de prendre en compte la variabilité qu’il existe entre elles. Par exemple, si les mesures de taille des trois espèces sont réalisées par deux personnes diﬀérentes (qui ont chacune mesuré la moitié des individus), on peut considérer un facteur « expérimentateur », aléatoire. L’objectif ici n’est en eﬀet pas de comparer les mesures réalisées par les deux personnes, mais de prendre en compte le fait que la façon de réaliser les mesures peut varier entre les deux.

Il y a deux choses à bien garder à l’esprit : (i) la décision de déclarer un facteur comme fixe ou aléatoire est fondamentale pour l’analyse des données, car ce ne sont pas les mêmes analyses qui sont réalisées dans les deux cas ; (ii) cette décision doit être prise selon l’objectif de l’étude, i.e. la question à laquelle l’étude doit répondre. Il est donc indispensable de bien se poser la question avant de déclarer un facteur fixe ou aléatoire, car aucune décision de peut être prise dans l’absolu.

Que ce soit pour des variables qualitatives ou quantitatives, si certaines mesures ne sont pas indépendantes entre elles, elles constituent des sériesappariées. Le cas le plus simple est celui où plusieurs mesures sont réalisées surun même individu (par exemple avant et après un traitement). Mais d’autres cas plus subtils peuvent se présenter : si des mesures sont réalisées sur des individus apparentés (ces mesures ne sont pas indépendantes car il existe une corrélation d’origine génétique entre elles), si des séries de mesures sont réalisées à des localisations diﬀérentes (ces mesures ne sont pas indépendantes car chaque série est influencée par l’environnement local) ou encore si des séries de mesures sont réalisées à des temps diﬀérents (ces mesures ne sont pas indépendantes car chaque série est influencée par ce qu’il a pu se passer avant). Il est très important d’identifier les séries appariées lorsqu’elles existent, car ce ne sont pas les mêmes analyses statistiques qui doivent alors être utilisées.

Dans les modèles statistiques, les séries appariées sont identifiées par l’introduction d’un facteur aléatoire. Pour les exemples précédents, on a donc respectivement un facteur « individu », un facteur « famille », un facteur « localisation » et un facteur « moment ».

2. Le plan d’échantillonnage

On utilise un plan d’échantillonnage lorsque l’on réalise une étude par enquête, i.e. lorsque l’on collecte des informations sur un groupe d’individus dans leur milieu habituel, mais que tous les individus ne sont pas accessibles (par choix ou par contrainte).

Les principales méthodes d’échantillonnage peuvent être regroupées en deux ensembles :

l’échantillonnage aléatoire : tous les individus (au sens statistique) ont la même probabilité d’être choisis, et le choix de l’un n’influence pas celui des autres. Diﬀérentes méthodes d’échantillonnage aléatoire existent :

– l’échantillonnage aléatoire et simple : le choix se fait parmi tous les individus de la population (au sens statistique), qui ne forme qu’un grand ensemble

– l’échantillonnage stratifié : si la population est très hétérogène, elle peut être divisée en sous - ensembles exclusifs (ou strates). Au sein de ces strates l’échantillonnage est ensuite aléatoire et simple

– l’échantillonnage en grappes : si les strates sont très nombreuses, on en choisit certaines au hasard (les grappes). Au sein de ces grappes l’échantillonnage est ensuite aléatoire et simple

– l’échantillonnage par degrés : il est une généralisation de l’échantillon-nage en grappes (qui est en fait un échantillonnage du premier degré). Au sein de la population on choisit des grappes « primaires », puis à l’intérieur de celles-ci des grappes « secondaires » (toujours au hasard), et ainsi du suite. . . Au dernier niveau l’échantillonnage est aléatoire et simple

l’échantillonnage systématique : un premier individu est choisi aléatoire-

ment, puis les autres sont choisis de façon régulière à partir du précédent (dans le temps ou l’espace). L’analyse de ce type d’échantillonnage, qui fait appel à la statistique spatiale ou à l’analyse des séries chronologiques, n’est pas abordée dans cet ouvrage.

Il est important d’identifier la méthode mise en œuvre car les analyses statistiques doivent être adaptées. Seule l’analyse de plans d’échantillonnage aléatoires est abordée dans cet ouvrage.

3. Le plan d’expérience

On utilise un plan d’expérience lorsque l’on réaliste une étude par ex-périmentation, i.e. lorsque l’on provoque volontairement les faits à étudier. Le plan d’expérience comprend notamment le(s) facteur(s) à faire varier, le nombre de répétitions à réaliser et le dispositif expérimental à mettre en place. L’association des classes de plusieurs facteurs constitue un traitement.

Il existe de nombreux types de dispositif expérimental, dont les principaux sont :

– le plan d’expérience complètement aléatoire : chaque individu (au sens statistique) est aﬀecté à un traitement aléatoirement

– le plan d’expérience en blocs aléatoires complets : s’il y a (ou s’il peut y avoir) une grande hétérogénéité entre les individus, ils sont réunis en groupes aussi homogènes que possibles (ou blocs). Au sein de ces blocs chaque individu est ensuite aﬀecté aléatoirement à un traitement, de manière à ce que tous les traitements soient présents dans chacun des blocs

– le plan d’expérience en blocs aléatoires incomplets : dans ce cas tous les traitements ne sont pas présents dans chacun des blocs

– le plan d’expérience en split - plot : le principe du split - plot est le plus souvent associé à celui des blocs aléatoires complets. Dans ce cas, dans chacun des blocs sont créés autant de sous - blocs qu’il y a de classes au premier facteur étudié. A chacun de ces sous - blocs est associée une classe. Puis chaque sous - bloc est divisé en autant d’unités qu’il y a de classes au second facteur étudié. A chacun de ces « sous - sous - blocs » est asso-ciée une classe. Pour plus de deux facteurs, la situation est plus complexe.

Quelle que soit la méthode employée, elle doit être clairement définie car elle doit être prise en compte dans les analyses statistiques.

4. La détermination de la taille de l’échantillon

Il existe un lien entre le seuil de rejet α du test statistique utilisé (voir fiches 29 et 30), la puissance de ce test (voir fiche 32), la diﬀérence entre les échantillons pour le paramètre mesuré et la taille des échantillons. Déterminer la taille de l’échantillon à constituer passe donc par fixer les autres paramètres. Ceci implique deux choses importantes :

– choisir avant de démarrer l’étude les types de test qui vont être utilisés (ce qui oblige à bien identifier les questions auxquelles l’étude doit répondre) et leur précision

– avoir une idée de la variabilité naturelle du paramètre mesuré et / ou de la diﬀérence minimale à détecter. Ceci passe soit par une étude de la bibliographie, soit par la consultation de spécialistes, soit par la réalisa-tion d’un pré - échantillonnage ou d’une pré - expérience.

Dans R, les fonctions power() et pwr() (la seconde étant contenue dans le package pwr) déterminent le paramètre souhaité quand les autres sont fixés, pour plusieurs tests.

Toutes les fonctions décrites sont basées sur le même principe : le paramètre à déterminer doit avoir comme valeur NULL tandis que tous les autres doivent être fixés.

Comparaison de deux moyennes (test t de Student)

power.t.test(n,delta,sd,sig.level,power,type) avec :

n : eﬀectif (identique pour les deux échantillons)

delta : diﬀérence minimale à détecter entre les deux moyennes sd : écart-type (identique pour les deux échantillons) sig.level : seuil de rejet α (généralement 0,05)

power : puissance minimale du test (généralement 80 ou 90 %)

type : type de test ("two.sample" pour deux moyennes observées, "one.sam-ple" pour une moyenne observée à comparer avec une théorique, "paired" pour deux moyennes observées en séries appariées).

pwr.t.test(n,d,sig.level,power,type) avec :

d : ^µA⁻^µB (diﬀérence des moyennes sur écart - type).σ

Utiliser pwr.t2n.test(n1,n2,d,sig.level,power) pour deux échantillons de taille diﬀérente (la fonction ne gère pas les séries appariées).

Comparaison de plus de deux moyennes (ANOVA)

power.anova.test(groups,n,between.var,within.var,sig.level,po-wer)

avec :

groups : nombre de modalités à comparer between.var : variance intergroupe minimale à détecter

within.var : variance intragroupe (identique pour toutes les modalités). La fonction ne gère pas les séries appariées.

pwr.anova.test(k,n,f,sig.level,power) avec :

k : nombre de modalités à comparer

f : taille minimale de l’eﬀet à détecter.

La fonction ne gère pas les séries appariées.

Comparaison de deux proportions

power.prop.test(n,p1,p2,sig.level,power)

avec p1, p2 : proportion observée dans chaque échantillon.

pwr.2p.test(h,n,sig.level,power)

avec h : taille minimale de l’eﬀet à détecter (en proportion).

Utiliser pwr.2p2n.test(h,n1,n2,sig.level,power) pour deux échan-tillons de taille diﬀérente.

Corrélation linéaire entre deux séries de données

pwr.r.test(n,r,sig.level,power)

avec r : coeﬃcient de corrélation linéaire de Pearson minimum à mettre en évidence.

5. Construction du tableau de données

La construction d’un tableau de données correctement structuré est une étape importante de l’étude, car si elle est mal réalisée elle peut mener à des résultats faux, ou le plus souvent à des erreurs une fois dans R.

Cette construction nécessite de se poser une question essentielle : quelles sont les variables prises en compte dans l’étude ? Y répondre implique d’identi-fier les variables quantitatives et les facteurs, ainsi que les classes des facteurs. Si les choses sont claires, l’analyse statistique le sera également.

D’une manière générale, il est conseillé de toujours construire son tableau de données dans un tableur. Cela permet d’enregistrer le jeu de données dans un fichier externe à R, et donc de toujours pouvoir y revenir puisque R ne modifie pas les fichiers externes (sauf si on lui demande explicitement).

Une fois dans le tableur, la règle est simple : les individus doivent être placés en lignes et les variables en colonnes.

Il est conseillé de donner un titre à chaque colonne, qui deviendra le nom de la variable dans R. Il est indispensable cependant de respecter certaines règles : les noms de variable ne doivent contenir ni espace, ni caractère accentué, ni symbole (ceci est une règle pour tous les noms d’objet dans R). Si un nom de variable doit contenir deux mots, ils peuvent être séparés par un point (.) ou un tiret bas (_). Mieux vaut également privilégier les noms courts mais clairs, car une fois dans R taper sans cesse des noms de variable longs est vite fastidieux.

Le tableau de données doit absolument obéir à une autre règle : aucunecase ne doit être vide. S’il manque une donnée pour un individu, il faut sedemander d’où elle vient :

– si c’est une donnée inutilisable (mesure ratée, mal retranscrite. . .), c’est normal. On dit alors qu’on a une « donnée manquante », que l’on doit noter NA (pour Not Available, i.e. donnée manquante). Le tableur comme R reconnaissent leNA, qu’ils interprètent correctement

– si la situation est autre, c’est que le tableau est mal construit et qu’en particulier les variables n’ont pas été bien définies. La réflexion s’impose donc pour identifier les variables et reconstruire un tableau de données.

Si des analyses dans R doivent se faire uniquement sur un sous - ensemble du tableau de données, ou si pour certaines analyses le tableau de données serait plus facile à utiliser s’il était construit autrement, il est conseillé de construire plusieurs tableaux de données. Il est toujours possible de manipuler le tableau initial dans R pour en extraire une partie ou pour le transformer, mais il est clairement plus facile (et surtout moins source d’erreur) de le faire en amont, dans le tableur.

6. Importation du tableau de données dans R

Il existe de nombreuses méthodes pour importer ses données dans R. Une seule est présentée ici, qui est à la fois très simple, fonctionne dans la plupart des situations et peut être utilisée sur toutes les plates - formes.

La procédure se fait en trois étapes :

dans le tableur, sélectionner toutes les cases constituant le tableau de données
copier ce tableau dans le bloc - notes et enregistrer le fichier en .txt

dans R, charger le tableau de données grâce à la fonction read.table() et le stocker dans un objet : tableau<-read.table(fichier,dec=",") où fichier est le nom du fichier texte (et éventuellement du chemin qui y mène), entre guillemets.

R étant un logiciel anglo - saxon, le séparateur décimal qu’il utilise est lepoint. Or dans les tableurs français (et donc dans le fichier texte) le séparateur décimal est la virgule. Il est donc nécessaire de préciser à R qu’il interprète la virgule comme séparateur décimal, d’où l’argument dec=",".

Si les colonnes du tableau de données ont un titre, qui doit donc être interprété comme le nom de la variable, ajouter l’argument header=TRUE.

Une fois le tableau importé, il est indispensable de vérifier qu’il n’y a pas eu d’erreur pendant son chargement. Pour cela appeler le résumé du tableau via summary(tableau).Rrenvoie un résumé de chaque variable :

– pour une variable numérique, R donne des indications sur sa distribution : minimum, 1^er quartile, médiane, moyenne, 3^ème quartile et maximum

– pour un facteur, R donne le nombre d’individus par classe.

Si un facteur est codé numériquement (par exemple un facteur binaire ou un facteur ordinal), R l’interprète comme une variable numérique. Pour transfor-mer la variable en facteur : tableau$variable<-factor(tableau$variable) où variable est le nom de la variable.

7. i Installer et charger un package

Installer un package

Il est nécessaire d’être connecté à internet pour installer un package, car celui - ci doit être téléchargé. L’installation ne se fait qu’une seule fois.

Si R est utilisé depuis la console R, utiliser : install.packages("packag-e") où package est le nom du package désiré, entre guillemets. Il est demandé ensuite de choisir un serveur, Lyon1 est bien réputé en France.

Si R est utilisé depuis la console système, la procédure se fait en deux étapes :

télécharger les sources du package à partir de son site de dépôt, le site principal étant le CRAN (installer le package en tapant R CMD INSTALL package où package est le nom du fichier tar.gz contenant les sources.

Charger un package

Le chargement d’un package doit se faire à chaque session où il doit être utilisé. La commande est simple : library(package) où package est le nom du package, sans guillemets.

Mettre à jours les packages installés

Pour mettre à jour automatiquement tous les packages installés (chargés ou non), utiliser : update.packages(). R demande une confirmation pour chaque package dont une mise à jour est disponible, puis télécharge toutes les mises à jour demandées.

8. i Citer R et ses packages

Lors de l’écriture d’un document scientifique, il est une évidence de citer ses sources bibliographiques. Il doit également en être une de citer les logiciels utilisés lors de la réalisation de l’étude. R est certes gratuit, mais il n’en reste pas moins que des dizaines de personnes s’impliquent dans son développement, et qu’il est normal de faire honneur à leur travail en les citant.

R doit être cité dès lors qu’il est utilisé. Pour savoir comment le citer, ilsuﬃt de taper citation() et de recopier ce qui figure après To cite R in publications use:.

Concernant les packages, la règle est de citer tous ceux qui ne sont pas chargés au démarrage de R. Cela comprend les packages installés avec R mais non chargés automatiquement, ainsi que ceux installés par l’utilisateur. Pour savoir comment les citer, utiliser : citation("package") où package est le nom du package, entre guillemets. Recopier ce qui figure après To cite the xxx package in publications use:.

9. Graphiques de dispersion : la fonction stripchart()

Le graphique tracé représente toutes les données individuelles d’un vecteur, d’une matrice ou d’un tableau. Il permet donc d’avoir un aperçu de la variabi-lité des données et d’identifier les observations aberrantes.

Pour représenter un vecteur : stripchart(vecteur).

Pour représenter plusieurs vecteurs : stripchart(list(vecteur1,vect-eur2,...)).

Pour donner un nom aux vecteurs sur le graphe, ajouter l’argument group.names=c("Nom1","Nom2",...).

Pour représenter des données en fonction d’un facteur : stripchart(don-nees~facteur) où les deux objets sont des vecteurs contenant la valeur de chaque individu (dans le même ordre).

Pour représenter les données verticalement, ajouter l’argument vertical= TRUE.

Pour que les valeurs identiques ne se superposent pas, ajouter l’argument method="jitter" (par défaut method="overplot").

10. Histogrammes : la fonction hist()

Le graphique tracé divise les données contenues dans un vecteur en classes, et représente chaque classe en eﬀectif ou densité. Il permet donc d’avoir un aperçu de la distribution des données.

Pour représenter les classes en eﬀectifs : hist(vecteur).

Pour représenter les classes en densités : hist(vecteur,freq=FALSE) (freq=TRUE par défaut, ce qui représente les eﬀectifs).

Pour ajouter une courbe de densité : lines(density(vecteur)).

Pour ajouter une courbe de distribution : lines(seq2(vecteur),dloi(se-q2(vecteur),par)) où loi est la loi de probabilité choisie et par ses para-mètres séparés par une virgule (calculés à partir des données ; voir fiches 19 à 28). La fonctionseq2()est contenue dans le packageRVAideMemoire.

Pour modifier le nombre de classes, ajouter l’argument breaks=n où n est le nombre de coupures souhaitées (il y a donc n + 1 classes).

La fonction considère par défaut qu’une valeur égale à la borne inférieure d’une classe appartient à la classe précédente, et qu’une valeur égale à la borne supérieure appartient à cette classe. Pour inverser cette exclusivité ajouter l’argument right=FALSE (par défaut right=TRUE).

Sommaire

L’ouvrage est divisé en quatre parties :

La préparation de l’étude : souvent trop peu d’importance y est at-tachée. Pourtant, cette phase est au moins aussi cruciale que l’analyse des résultats puisqu’elle détermine la façon dont ceux - ci vont pouvoir être analy-sés. Une étude bien préparée facilite grandement l’exploitation des résultats, tandis qu’une étude mal préparée entraîne généralement des complications au moment de l’analyse et de l’interprétation.

La préparation et l’importation des données : cette étape apparem-ment simple peut poser problème par manque d’expérience. Elle est pourtant cruciale, puisque des données mal structurées ou mal importées dans R peuvent conduire à une analyse complètement faussée.

L’analyse descriptive des résultats : ce type d’analyse est toujoursindispensable, et selon l’objectif de l’étude il peut être suﬃsant. L’analyse descriptive est souvent négligée pour « foncer sur les tests », ce qui conduit à oublier la réalité des données (et par conséquent à compliquer voire fausser l’interprétation des résultats).

L’analyse inférentielle des résultats : ce type d’analyse regroupe ladétermination des intervalles de confiance et la réalisation des tests statistiques. L’analyse inférentielle est la seule phase de l’étude qui est facultative. Dans tous les cas elle doit passer après l’analyse descriptive.

PREPARATION DE L’ETUDE

Les diﬀérents types de variable

Le plan d’échantillonnage

Le plan d’expérience

La détermination de la taille de l’échantillon

PREPARATION ET IMPORTATION DES DONNEES

Construction du tableau de données

Importation du tableau de données dans R

i Installer et charger un package

i Citer R et ses packages

ANALYSE DESCRIPTIVE DES RESULTATS

3.1. Statistique univariée

Graphiques de dispersion : la fonction stripchart()

Histogrammes : la fonction hist()

Boîtes à moustaches : la fonction boxplot()

La réduction des données à une dimension

3.2. Statistique bivariée

Nuages de points : la fonction plot()

La réduction des données à deux dimensions

3.3. Statistique multivariée

Choisir son analyse multivariée

Ce choix dépend de la nature des variables étudiées :

– toutes quantitatives : ACP

– toutes qualitatives :

– deux variables : AFC

– plus de deux variables : ACM

– à la fois quantitatives et qualitatives : Analyse mixte.

L’Analyse en Composantes Principales (ACP)

L’Analyse Factorielle des Correspondances (AFC)

L’Analyse des Correspondances Multiples (ACM)

L’Analyse mixte de Hill et Smith

ANALYSE INFERENTIELLE DES RESULTATS

4.1. Quelques bases théoriques

4.1.1. Lois de probabilité

4.1.1.1. Lois de probabilité discontinues

Lois de probabilité discontinues – généralité

La loi binomiale

La loi de Poisson

La loi binomiale négative

4.1.1.2. Lois de probabilité continues

Lois de probabilité continues – généralités

La loi normale

La loi exponentielle

La loi de χ²
La loi de Fisher - Snedecor

La loi de Student

4.1.2. Risques et puissance associés aux tests statistiques

Principe des tests statistiques et risques associés à la conclusion

Le risque ou seuil de rejet α

La correction du seuil de rejet α

Le risque β et la puissance du test

4.2. Identification des données aberrantes

L’identification des données aberrantes

4.3. Intervalles de confiance et erreur standard

Intervalle de confiance et erreur standard

i Tracer un diagramme en barres avec barres d’erreur

4.4. Tests d’hypothèses

Les diﬀérents types de test statistique

4.4.1. Conditions préalables à l’utilisation des tests

Ces conditions ne sont pas toujours à remplir, cela dépend du test que l’on souhaite utiliser.

Caractère aléatoire et simple d’une série de données

Ajustement à une distribution théorique

Egalité des variances de plusieurs séries de données

Les transformations de variable

4.4.2. Réalisation des tests

Souvent, plusieurs tests peuvent être utilisés pour répondre à la même ques-tion. Les conditions de leur emploi sont cependant plus ou moins restrictives, et leur puissance plus ou moins grande (un test plus restrictif étant généralement plus puissant). Lorsque plusieurs tests sont disponibles ils sont présentés du plus au moins restrictif, du plus « pointu » au plus « passe - partout ».

4.4.2.1. Statistique univariée

Tests sur des probabilités de réponse (variables binaires 0 / 1)

Le test de conformité d’une ou de plusieurs probabilité(s) de réponse avec une ou plusieurs valeur(s) théorique(s) est une démarche identique à celle du test de conformité de proportion(s).

Comparaison de plusieurs probabilités de réponse – un facteur

Comparaison de plusieurs probabilités de réponse – deux facteurs

Tests sur des eﬀectifs

Conformité de plusieurs eﬀectifs avec des valeurs théoriques

Comparaison de plusieurs eﬀectifs – sans facteur (eﬀectifs bruts)

Comparaison de plusieurs eﬀectifs – un facteur

Comparaison de plusieurs eﬀectifs – deux facteurs

Tests sur des proportions

Conformité d’une proportion avec une valeur théorique

Conformité de plusieurs proportions avec des valeurs théoriques

Comparaison de deux proportions – sans répétition

Comparaison de plusieurs proportions – sans répétition

Comparaison de plusieurs proportions – avec répétitions et un facteur

Comparaison de plusieurs proportions – avec répétitions et deux facteurs

Régression, analyse de variance / déviance ou analyse de la covariance ?

Dans tous les cas la variable à expliquer est unique et quantitative. Le choix dépend de la nature des variables explicatives :

– toutes quantitatives : régression

– toutes qualitatives : analyse de variance / déviance

– à la fois quantitatives et qualitatives : analyse de la covariance. Le cas des variables à expliquer qualitatives n’est abordé ici que pour des variables binaires.

Tests sur des moyennes

Conformité d’une moyenne avec une valeur théorique

Comparaison de deux moyenne

Comparaison de plusieurs moyennes – un facteur

Comparaison de plusieurs moyennes – deux facteurs

Tests sur des temps de survie

Ces tests sont traditionnellement utilisés pour comparer des temps de survie, mais ils peuvent être appliqués à n’importe quelle variable représentant un temps avant la survenue d’un évènement.

Comparaison de plusieurs temps de survie

i Tracer des courbes de survie

4.4.2.2. Statistique bivariée

Tests autour de la liaison entre deux variables

Indépendance de deux variables qualitatives

Corrélation entre deux variables

Conformité d’un coeﬃcient de corrélation linéaire avec une valeur théorique

Comparaison de plusieurs coeﬃcients de corrélation linéaire

Tests autour de la régression

La régression linéaire simple au sens des moindres carrés

La régression linéaire simple au sens des moindres rectangles

Comparaison de plusieurs droites de régression linéaire simple

La régression logistique binaire simple

La régression non linéaire simple

i Tracer une droite ou une courbe de régression simple

Analyse de la covariance

L’analyse de la covariance – un facteur

4.4.2.3. Statistique multivariée

La régression linéaire multiple

4.4.3. Outils pour l’utilisation des modèles statistiques

Construction de la formule d’un modèle

Sélection de modèle

Vérification de la validité d’un modèle

La méthode des contrastes

ANNEXES

Index des packages externes

Bibliographie et ouvrages / documents / liens recommandés

Télécharger