Les bases de la probabilite et statistique formation complet

Les bases de la probabilité et statistique formation complet
Les statistiques et les probabilités occupent une place importante dans l’enseignement de certaines classes préparatoires. Les principales fonctions nécessaires pour travailler dans ce domaine se trouvent dans les applications Calculs et Tableur & listes. L’application Données & statistiques permet d’effectuer des représentations graphiques de données statistiques, l’application Graphiques & géométrie ne permettant que la représentation de nuages de points. Des fonctions définies dans ce chapitre vous permettront d’étendre les possibilités de votre unité nomade.
1. Les fonctions disponibles
1.1 Où trouver ces fonctions
Vous aurez accès aux fonctions utilisables dans le catalogue (k) page 2, dans les rubriques : Probabilité, Statistiques mais aussi dans Listes. On peut y accéder aussi directement page 1 (taper lapremière lettre de la fonction cherchée).
F La syntaxe de la fonction sélectionnée se trouve affichée au bas gauche de l’écran.
Dans l’application Calculs, on accède à ces fonctions dans les menus Probabilité et Statistiques (touches b5 ou 6) :
F Le symbole ! permettant le calcul des factorielles est disponible à l’aide du raccourci clavier /* et également dans la palette de symboles(/k)ligne 4.
…
Vous trouverez d’autres fonctions utiles : calcul de la moyenne (mean), du maximum, du minimum, de la variance, ou encore de l’écart type des éléments d’une liste dans le menu Liste Maths accessible à partir du menu Statistiques (b63).
Certaines fonctions statistiques sont également utilisables à partir de l’application Tableur & listes, on accède à ces fonctions dans le menu Statistiques/Calculs statistiques (touches b41).
1.2 Remarque importante concernant le calcul de la variance et de l’écart type
Attention, il existe deux fonctions pour le calcul de l’écart type : stdDevPop et stdDevSamp et deuxfonctions pour le calcul de la variance varPop et varSamp. L’une des deux ne donnant pas le résultat classiquement attendu en classes préparatoires.
La formule “usuelle” de calcul de la variance de la liste {x1 , x2 , , xn } est :
nå( xi - x )2v= i=1n
…
Prenons par exemple la liste {1,2,3,4,5} . La moyenne est 3. La variance est la moyenne des valeurs
(-2 )2 ,(-1)2 ,0,12 ,22 | , c'est à dire 10 / 5 = 2 . L’écart type est égal à | 2 . |
La situation est identique dans l’application Tableur & listes. La valeur affichée Sx correspond à la valeur 10 / 2 , et la valeur de x correspond à la valeur 2 . Ajoutez une page (/I), choisissez l’application Tableur & listes (b3). Entrez ensuite la liste dans la première colonne, puis ouvrez le menu Statistiques à une variable (b411)
Validez en cliquant sur OK.
Validez en cliquant sur OK, les résultats s’affichent.
Il est possible de redimensionner les colonnes afin de les rendre plus lisibles. Sélectionnez une cellule de la colonne à élargir, puis choisissez Redimensionner, Largeur des colonnes dans le menu contextuel accessible par /b. Déplacez ensuite la limite droite à l’aide du curseur validez par ·.
Les fonctions statistiques travaillent ici en mode approché, alors que les fonctions varPop, stdDevPop, varSamp, stdDevSamp font des calculs “exacts”.
2. L’écriture de quelques fonctions utiles
2.1 Tableau de calcul, espérance, variance, écart type d’une variable aléatoire discrète
…
Nous allons placer les éléments définissant cette variable aléatoire dans une matrice x. La première colonne contiendra les valeurs xi , la seconde les probabilités pi .
L’utilisation de sum (b635) faite dans le deuxième écran montre que la somme des probabilités est égale à 1. Jusque-là, tout va bien. Construisons à présent la matrice contenant
également la colonne formée par les pixi et celle formée par les pixi2 .
Pour cela on peut utiliser une fonction tab dont vous trouverez la définition page 6 :
Une ligne contenant la somme des termes de chaque colonne a été ajoutée à la matrice. Cela peut faciliter la construction du tableau de calcul de l’espérance et de la variance.
On peut, par exemple, y lire que E ( X ) = 316 et E ( X2 )= 2236 .
Pour calculer ces deux dernières, il suffit d’utiliser la fonction espvar, que vous trouverez également au paragraphe suivant, qui utilise la fonction précédente pour retourner une liste formée par l’espérance, la variance, et l’écart type. Vous pouvez retrouver ces résultats à l’aide de l’application
Tableur & listes, entrez dans la colonne A la liste {1,3,6,10} , dans la colonne B, la liste ìï1,1,1,1üï .
í ýïî 6 3 4 4ïþ
b411, nombre de listes : 1, Liste des x1 : a[ ], Liste des fréquences : b[ ], on valide (voirécran ci-dessous à gauche).
2.2 Texte des fonctions tab et espvar
L’écriture de ces deux fonctions utilise des fonctions de calcul matriciel, ce qui en fait l’intérêt. Si vous n’êtes pas familiarisé avec ces dernières, cela risque de vous paraître un peu mystérieux. Voici quelques explications permettant d’en suivre le fonctionnement. Ces explications sont beaucoup plus longues que la fonction tab !
F Ces calculs peuvent être également faits de façon très simple dans l’application Tableur & listes.
1. x [ i ] forme le vecteur ligne obtenu à partir deargument. Cette matrice comporte les valeurs de xi seconde.
la i-ième colonne de la matrice x passée en sur la première colonne, et celle de pi dans la
- La fonction mat▶ list permet de convertir ce vecteur ligne en liste. On obtient les listes l x et l p des valeurs et probabilités à utiliser pour les calculs suivants.
- À partir des quatre listes, l x , l p , l x * l p , l x ^ 2 * l p , il est possible de construire une matrice de quatre
lignes contenant les valeurs de xi , de pi , de pixi et de pixi2 .
- En la transposant, on obtient la matrice m représentant le tableau dans sa présentation classique avec ses quatre colonnes.
- La fonction sum permet de faire la somme de chacune de ces colonnes et d’obtenir la matrice
é | n | n | n |
êê | å xi | å pi | å pixi |
ë | i =1 | i =1 | |
ê i =1 |
n | ù |
å pixi2 | úú . |
i=1 | û |
ú |
On “empile” ensuite cette matrice et la matrice m pour former le tableau dont la dernière ligne comporte les sommes de chaque colonne. Cela se fait en utilisant la fonction colAugment.
- Enfin, on modifie le terme situé sur la première colonne de la dernière ligne. Il correspond au cumul des valeurs de xi , et n'est pas utile pour la suite. On utilise la fonction rowDim pour connaître le nombre de lignes de la matrice.
F L’opérateur de transpositions’obtient dans le menuk2Matrice.
Define LibPub tab(mat)=Func ©mat:tableau de calcul proba/stat Local lx,lp,u,v,m
m:=colAugment(m,sum(m)) m[rowDim(m),1]:=" - " [2]) m:=({lx,lp,lx*lp,lx^2*lp}) [1]) lp:=mat ▶ list(mat lx:=mat ▶ list(mat
m EndFunc
F L’utilisation de la syntaxe
Define LibPub … =
permet de faire apparaître cette fonction dans le catalogue,
La fonction espvar est beaucoup plus simple à comprendre.
On pourrait l’écrire directement, mais on peut aussi utiliser la fonction tab précédente. Il suffit de construire la matrice précédente et d’aller y chercher les informations utiles, c’est-à-dire les valeurs de
n | n |
å pixi | et de å pixi2 , désignées par e x et e x 2 dans cette fonction. |
i=1 | i=1 |
Define LibPub espvar(x)=Func ©mat:calcul de esp et var Local m,k,ex,ex2,v
m:= tab(x) k:=rowDim(m) ex:=m[k,3] ex2:=m[k,4] v:=ex2 - ex^2 {ex,v, √ (v)} EndFunc
3. Utilisation en Statistique : régression linéaire
La statistique suivante donne l’évolution des stocks d’une entreprise :
Année | 2000 | 2001 | 2002 | 2003 | 2004 | 2005 |
Stock Qi | 6 400 | 7 200 | 8 700 | 10 400 | 12 600 | 15 000 |
Effectuer un ajustement à l’aide d’une régression linéaire, puis un ajustement à l’aide d’une fonction exponentielle. Que peut-on en conclure ? Donner une estimation du stock en 2009.
Solution
On entre dans l’éditeur la liste des numéros des années et la liste des Qi. lx = {1,2,3,4,5,6} , ly = {6400,7200,8700,10400,12600,15000} .
Pour représenter le nuage de points, on peut le faire sur la même page à l’aide de Graphe rapide que vous trouverez dans le menu contextuel accessible par /b.
On peut aussi ajouter une page Graphiques & géométrie en utilisant c2, puis sélectionner Nuagede points dans le menu contextuel. Il suffit ensuite d’entrer les deux listes : appuyer sur ·, choisir laliste et valider, e pour passer à l’autre liste.
On valide, d, pour sortir de la ligne de saisie, /b49 pour choisir un zoom adapté aux données. Effectuons une régression linéaire, /¡ pour revenir à la page précédente, puis
b413.
L’ajustement linéaire donne un coefficient de corrélation r 0,987 .
F La troisième rubrique Enregistrer RegEqn dans : permet d’indiquer le nom de la variable dans laquelle sera mémorisée l’équation de la fonction servant à effectuer l’ajustement (f1 pour l’ajustement linéaire et f2 pour l’exponentiel).
b41A. L’ajustement par une fonction de la formeQ=a*btdonne un meilleur résultatcomme l’indique la représentation graphique et le coefficient de corrélation r 0,998 .
Pour avoir l’estimation du stock en 2009, il suffit de calculer f2(10), ce qui donne approximativement 29 926, alors que l’ajustement linéaire aurait donné 21 360 (f1(10)).
4. Lois discrètes usuelles
4.1 Les différentes fonctions présentes sur la TI-Nspire
Les lois discrètes usuelles : loi binomiale, loi géométrique, loi de Poisson sont directement intégrées. Il sera de plus très simple de définir d’autres lois lorsque vous en aurez l’utilité, voir par exemple la loi hypergéométrique.
Vous trouverez les fonctions correspondantes dans le menu Distributions du menu Statistiques (touches b65) de l’application Calculs, et dans le menu Distributions du menu Statistiques (touches b42) de l’application Tableur & listes.
Vous aurez aussi accès à ces fonctions dans le catalogue (k) page 2, dans les rubriques : Probabilité,
et Statistiques sous-menu Distributions.
On peut soit utiliser l’assistant (voir écrans ci-dessous), soit entrer directement les paramètres.
syntaxe : binomPdf(n, p [, k])1donne P( X = k)
1 Si k est omis, binomPdf(n, p) (resp. binomCdf(n, p)) donne la liste des probabilités P X k (resp. P X k ) pour k Î0, n .
fonction de répartition : binomCdf(n, p [, k]) donne P( X £ k) et binomCdf (n, p, a, b) donne
P( a £ X £ b).
Il est possible de calculer par exemple la probabilité d’avoir 4 “pile” lorsqu’on lance 10 fois une pièce de monnaie, et de vérifier que la somme des probabilités lorsque k varie de 0 à n est bien égale à 1. Dans le second écran, on calcule la probabilité d’obtenir au plus 57 “pile” au cours de 100 lancers ( 0,93 ) et la probabilité d’obtenir au moins 57 “pile” au cours de 100 lancers ( 0, 097 ).
Loi géométrique de paramètre p ( p Î ]0,1[ )
Soit une expérience élémentaire dont l’issue est un succès ou un échec avec des probabilités respectives p et q = 1- p . On renouvelle cette expérience jusqu'à l’obtention d’un succès.
Cette loi caractérise le nombre d’expériences nécessaires pour obtenir le premier succès.
P ( X = k )= p (1- p)k-1, k Î *
E( X )=1pet V ( X )=pq2
syntaxe : geomPdf(p, k)
fonction de répartition : geomCdf(p,[ a,] b) donne P(a £ X £ b) , (par défaut a est égal à 1).
La fonction geomPdf permet par exemple de calculer la probabilité d’obtenir un “6” ou bout de 3 lancers d’un dé (non pipé). La fonction geomCdf permet dans l’exemple ci-dessous de calculer la probabilité d’obtenir un “6” en au plus 10 lancers, puis en au plus 20 lancers et au moins 10.
Remarque : pour calculer la probabilité P( X > k ), on peut utiliser la formule :
P( X > k)=1- P( X £ k)=1-geomCdf( p, k).
Le deuxième écran montre le calcul de l’espérance mathématique de la loi géométrique de paramètre p, l’utilisation degeomPdfne permet pas ici d’obtenir le résultat, les valeurs données par cette fonctionsont des valeurs approchées, il faut donc entrer la valeur formelle de la probabilité et de
plus préciser que 0 < p <1 à l’aide de l’opérateur “sachant que” *. On peut calculer de même E(X 2)et en déduire la variance :
E ( X )=1p et V ( X )= 1-p2p .
Loi de Poisson de paramètre l Î *+
k! , pour k | ||
syntaxe : poissPdf( , k) donne | P ( X = k )=e |
fonction de répartition : poissCdf( ,[ a,] b) donne P (a £ X
Î £ b). Par défaut a est égal à 0.
On peut vérifier que l’espérance mathématique et la variance sont égales au paramètre .
4.2 Ajout de fonctions
Comme on l’a vu dans les exemples ci-dessus les fonctions considérées donnent des résultats en valeur approchée. Si vous avez besoin de résultats formels sur une TI-Nspire CAS, comme on le voit dans les deux derniers exemples, vous pouvez réécrire ces fonctions comme ci-dessous pour la loi hypergéométrique. Vous retrouverez ces fonctions dans la bibliothèque proba,
Loi hypergéométrique N, n et p :
Define LibPub lhyp(m,n,p,k)=nCr(m*p,k)*nCr(m*(1 - p),n - k)/nCr(m,n)
Define LibPub fhyp(m,n,p,k)= ∑ (nCr(m*p,i)*nCr(m*(1 - p),n - i),i,0,k)/nCr(m,n)
F On a utilisé m car N et n sont interprétés de la même façon par l’unité nomade TI-Nspire. De plus, dans la définition des fonctions de répartition, on a “manuellement” fait la mise en facteurs nécessaire pour diminuer le temps nécessaire au calcul.
Voici les définitions des fonctions donnant la loi de probabilité (l ) et la fonction de répartition (f) des trois lois usuelles précédentes : binomiale, géométrique et Poisson :
Define LibPub lbinom(n,p,k)=nCr(n,k)*p^k*(1 - p)^(n - k)
Define LibPub fbinom(n,p,k)= ∑ (lbinom(n,p,i),i,0,k)
Define LibPub lgeom(p,k)=p*(1 - p)^(k - 1)
Define LibPub fgeom(p,k)= ∑ (lgeom(p,i),i,1,k)
Define LibPub lPoisson( λ ,k)= ^( − λ )* λ ^k/(k!)
Define LibPub fPoisson( λ ,k)= ∑ ( λ ^i/(i!),i,0,k)* ^( − λ )
4.3 Exemple de calcul utilisant les lois géométriques
On considère une variable aléatoire X suivant une loi géométrique de paramètre p =1/10 .
Nous allons calculer les probabilités P ( X = 2) et P (X > 3) , puis calculer l’espérance et la variance. Cela ne pose aucun problème en utilisant les fonctions décrites dans ce chapitre.
1. Calcul de P ( X = 2) et de P ( X > 3) = 1- P (X £ 3) (avec vérification).
F (On a également fait un calcul direct de cette probabilité :X > 3 , ou encore X ³ 4 signifie queles trois premiers essais ont été des échecs.)
3. Calcul de l’espérance.
4. Calcul de la variance et vérification.
5. Lois continues usuelles
5.1 Utilisation directe de l’unité nomade TI-Nspire
Rappelons pour commencer la définition de deux lois continues classiques, non existantes dans les menus, mais facilement programmables.
La détermination des fonctions de répartition des deux premières ne pose pas de problème :
ìï0ïïï t - a
1. La loi uniforme sur [a ,b] : F(t) = ïí
ïïb - aïïïî1
2. La loi exponentielle de paramètre a > 0 :
t Î]-¥, a]
t Î[ a ,b] .
t Î[ b,+ ¥[
ìï0 t Î]-¥,0]
F (t )=ïí .
ïïî1- e-a tt Î [ 0,+¥[
On peut vérifier ce dernier résultat avec la calculatrice. On peut de la même façon calculer l’espérance et la variance de cette loi, à condition de bien préciser le signe de a (écran de droite).
Des calculs de ce type pourront être faits de la même façon avec d’autres lois que vous rencontrerez dans des exercices.
Vous retrouverez les fonctions concernant la loi uniforme et la loi exponentielle dans la bibliothèque
5.2 Lois continues présentes sur la TI-Nspire
Loi normale de moyenne et d’écart type normPdf (densité de probabilité de la loi normale)
calcule la valeur de la densité de probabilité de la loi normale de moyenne et d’écart type , en un réel x spécifié. Les valeurs par défaut sont m = 0 et s =1. La densité de probabilité est définie par :
syntaxe : normPdf(x [, , ])
fonction de répartition : normCdf(a, b, [, , ]) donne la probabilité P( a £ X £ b).
InvNorm permet de calculer la valeurxtelle queP(X£x)=a,aÎ[0,1], lorsqueXsuit la loi normale
de moyenne et d’écart type . Syntaxe : invNorm( [, , ]).
Loi de Student à df degrés de liberté ( df Î * ). tPdf (densité d’une loi de Student) calcule la densité de probabilité de la loi de Student à df degrés de liberté en en un réel x spécifié. La densité de probabilité est définie par :
…
syntaxe : tPdf(x, df)
fonction de répartition : tCdf(a, b, df) donne la probabilité P( a £ X £ b).
Loi de Fisher à df1 et df2 degrés de liberté ( (df1 , df2 ) Î *2 ) FPdf (densité d’une loi de Fisher)
calcule la densité de probabilité de la distribution de Fisher en un réel x Î *+ spécifié. La densité de probabilité s’exprime sous la forme :
…
fonction de répartition : FCdf(a, b, df1 , df2 ) donne la probabilité P( a £ X £ b).
Loi du Khi 2 ( c2 ) (ou de Pearson) à df degrés de liberté ( df Î * ) chi2Pdf (densité de probabilité d’une loi du Khi 2)
calcule la densité de probabilité de la loi du Khi 2, en une valeur spécifiée x Î *+ . La densité de probabilité est définie par :
1 | df | 2 | xdf 2-1e-x 2,x>0 | |
f (x)= | (1 2) | |||
G( df 2) |
E( X )= df et V ( X )=2 df
syntaxe : chi2Pdf(x, df)
fonction de répartition : chi2Cdf(a, b, df) donne la probabilité P( a £ X £ b) .
Exemple : représentation de la loi normale centrée réduite (trait épais) et des lois de Student de,respectivement, 1 (trait fin) et 10 (en pointillés gras) degrés de liberté.
5.3 Quelques résultats classiques sur les lois normales
On considère une loi normale de paramètres m et .
- On demande de calculer P( m - s £ X £ m + s) et P( m - 2s £ X £ m + 2s).
- On demande également de déterminer, en fonction de , la valeur de a telle que P( m - a £ X £ m + a)=85/100 .
Pour la question 1, il suffit d’utiliser les fonctions normCdf, avec les bornes -1, 1 puis -2 , 2 et les paramètres m = 0 et s =1, car :
æ | X - m | ö |
ç | ÷ | |
P( m - a.s £ X £ m + a.s)= P -a £ | £ a÷ | |
ç | s | ÷ |
è | ø |
….
Deuxième question.
où F est la fonction de répartition de la loi normale centrée réduite. La fonction invNorm permet d’obtenir le résultat : a 1.44s .
5.4 Approximations usuelles
On peut visualiser à l’aide de la calculatrice les approximations usuelles des diverses lois.
ìï n ³ 30ï
Si ïínp³15 la loi binomiale B(n,p) peut être approximée par la loi normale N (np , npq ) .
ïïïînpq >5
ìïp £ 0,1ï
Si ïín³ 30 la loi binomiale B(n , p) peut être approximée par la loi de Poisson P(np) .
ïïïînp <15
Si l ³15 la loi de Poisson P(l) peut être approximée par la loi normale N (l , l ) .
Si df ³ 30 la loi de Student à df degrés de liberté peut être approximée par la loi normale centrée réduite (voir représentation graphique page.
Les graphiques suivants illustrent ces problèmes d’approximation. On travaille avec l’application Tableur & listes, dans la colonne A on place les entiers de 0 à 100 (= seq(i,i,0,100)), on la nomme x. Dans la colonne B, on place les probabilités de la loi binomiale de paramètres n =100 et p = 0,4 ,
B(100;0,4) (=binomPdf(100,0.4)), on la nomme p, et dans la colonne C les probabilités de la loi dePoisson de paramètre 40, P(40) (= poissPdf(40,a[])), on la nomme q.
Sommaire
1. Les fonctions disponibles ........... 2
1.1 Où trouver ces fonctions............................. 2
1.2 Remarque importante sur les calculs de variance et d’écart type........ 3
2. L’écriture de quelques fonctions utiles ............. 5
2.1 Tableau de calcul, espérance, variance, écart type d’une variable aléatoire discrète................ 5
2.2 Texte des fonctions tab et espvar................ 6
3. Utilisation en Statistiques : régression linéaire ....................... 7
4. Lois discrètes usuelles................ 9
4.1 Les différentes fonctions présentes sur la TI-Nspire...... 9
4.2 Ajout de fonctions .............. 11
4.3 Exemple de calcul utilisant les lois géométriques......... 12
5. Lois continues usuelles............. 13
5.1 Utilisation directe de l’unité nomade TI-Nspire.............. 13
5.2 Lois continues présentes sur la TI-Nspire...................... 14
5.3 Quelques résultats classiques sur les lois normales.... 15
5.4 Approximations usuelles........................... 16
5.5 Estimations et intervalles de confiance .......................... 20
5.6 Tests ............ 24