Cours de statistique psychologie [Eng]


Télécharger Cours de statistique psychologie [Eng]

★★★★★★★★★★3.5 étoiles sur 5 basé sur 1 votes.
Votez ce document:

Télécharger aussi :


Cours de statistique psychologie [Eng]

Calendrier des cours / informations

Diapositives (sur le site avant chaque conférence) Notes de cours (un peu plus détaillées que les diapositives) Feuilles d'exercices (les tuteurs peuvent ou ne peuvent pas les utiliser) Livrets de formules et livret de définitions

Liens vers des documents d'examen passés sur le Web

VEUILLEZ PARTICIPER AU THÉÂTRE DE LA CONFÉRENCE RAPIDEMENT!

Conférence 1: Aperçu

Pourquoi avons-nous besoin de statistiques?

- Le processus scientifique Différents types de données

- Discret / Continu

- Méthodes quantitatives / qualitatives de recherche de données

- Graphiques à barres, Histogrammes, Tracés, Scatter, Tracés

Calcul des mesures sommaires des données

- Emplacement - Moyenne, Médiane, Mode

- Dispersion - SIQR, MAD, variance de l'échantillon, écart type de l'échantillon

Le rôle des statistiques dans le processus scientifique

Examiner les résultats du test statistique

Nous commençons par une question / hypothèse sur une population donnée d'objets / événements

Proposer une étude / expérimentation qui vise à fournir des données pour aider à tester notre hypothèse

Étudier le design

(Comment pouvons-nous concevoir notre étude pour obtenir le plus d'informations sur notre hypothèse)

STATISTIQUES

Un exemple

Depuis longtemps, les psychologues s'intéressent à la relation entre le stress et la santé.

Une question ciblée pourrait impliquer l'étude d'un symptôme psychologique spécifique et son impact sur la santé de la population.

Pour évaluer si le symptôme est un bon indicateur de stress, nous devons mesurer les symptômes et les niveaux de stress dans un échantillon d'individus de la population.

Il n'est pas immédiatement clair comment nous devrions aller sur la collecte de cet échantillon, c'est à dire comment nous devrions concevoir l'étude.

Nous n'avons pas obtenu beaucoup avant que nous ayons besoin des statistiques!

L'orientation générale de ce cours

Nous commençons par une question / hypothèse sur une population donnée d'objets / événements

Proposer une étude / expérimentation qui vise à fournir des données pour aider à tester notre hypothèse

Étudier le design

(Comment pouvons-nous concevoir notre étude pour obtenir le plus d'informations sur notre hypothèse)

Examiner les résultats du test statistique

STATISTIQUES

Les ensembles de données sont constitués de variables mesurées

Les ensembles de données que les psychologues et les spécialistes des sciences humaines recueillent consisteront habituellement en une autre observation sur une ou plusieurs "variables".

Une variable est une propriété d'un objet ou d'un événement pouvant prendre différentes valeurs.

Exemple Supposons que nous recueillions un ensemble de données en mesurant la couleur des cheveux, le rythme cardiaque au repos et le score sur un test de QI de chaque élève d'une classe. Les variables de cet ensemble de données seraient simplement la couleur des cheveux, le rythme cardiaque au repos et le score sur un test de QI, c'est-à-dire que les variables sont les propriétés que nous avons mesurées / observées.

2 principaux types de variable

1 Mesure (quantitative) Les données se produisent lorsque nous «mesurons» des choses, par ex.

La hauteur ou le poids.

2 Les données qualitatives (catégoriques) se produisent lorsque nous assignons des objets à des groupes ou catégories marqués, par ex. Quand on groupe les gens en fonction de la couleur des cheveux ou de la race.

1. Les variables ordinales ont un ordre naturel, par ex. Médaille or / argent / bronze

(I) Les variables nominales n'ont pas un ordre naturel, par ex. le genre

Variables discrètes et continues

Données discrètes

Nombre d'étudiants en retard pour une conférence

0 1 2 ............................................... 8

Il y a seulement un ensemble limité de valeurs / catégories distinctes

C'est-à-dire que nous ne pouvons pas avoir exactement 2.23 étudiants en retard, seulement les valeurs entières sont autorisées.

Données continues

Temps passé à étudier les statistiques (h)

En théorie, il existe un ensemble illimité de valeurs possibles!

Il n'y a pas de sauts discrets entre les valeurs possibles.

Résumé des types de données

Types de données

Quantitative

Qualitative

(Measurement)

(Categorical)

Tracer des données

Une des étapes les plus importantes dans une analyse statistique peut être simplement de regarder vos données dès le début.

Ce faisant, vous serez en mesure de repérer les caractéristiques caractéristiques, les tendances et les observations extérieures qui vous permettent de mener une analyse statistique appropriée.

En outre, il est une bonne idée de regarder les résultats de votre analyse en utilisant une intrigue. Cela peut aider à identifier si vous avez fait quelque chose qui n'était pas une bonne idée!

RAPPEL Les données sont sales! Pas de deux ensembles de données identiques

TOUJOURS REGARDER VOS DONNÉES

Le jeu de données Baby-Boom

Quarante-quatre bébés (un nouveau record) sont nés en une période de 24 heures au Mater Mothers 'Hospital à Brisbane, Queensland, en Australie, le 18 décembre 1997. Pour chacun des 44 bébés, The Sunday Mail a enregistré le temps de La naissance, le sexe de l'enfant et le poids à la naissance en grammes.

Bien que nous n'ayons pas recueilli cet ensemble de données sur la base d'une hypothèse spécifique, nous souhaitons pouvoir l'utiliser pour répondre à plusieurs questions d'intérêt.

Les filles pèsent-elles plus que les garçons à la naissance?

Quelle est la répartition du nombre de naissances par heure? Le poids à la naissance est-il lié au moment de la naissance?

Le sexe est-il lié au moment de la naissance?

Y at-il une chance égale de naître une fille ou un garçon?

Time

Gender

Weight

Time

Gender

Weight

5

1

3837

649

1

3746

64

1

3334

653

1

3523

78

2

3554

693

2

2902

115

2

3838

729

2

2635

177

2

3625

776

2

3920

245

1

2208

785

2

3690

247

1

1745

846

1

3430

262

2

2846

847

1

3480

271

2

3166

873

1

3116

428

2

3520

886

1

3428

455

2

3380

914

2

3783

492

2

3294

991

2

3345

494

1

2576

1017

2



3034

549

1

3208

1062

1

2184

635

2

3521

1087

2

3300

Diagramme à barres

Un diagramme à barres est une méthode utile pour résumer les données catégoriques. Nous représentons les dénombrements / fréquences / pourcentages dans chaque catégorie par une barre.

Histogrammes

'Un diagramme à barres est aux données catégoriques comme un histogramme est aux données de mesure'

1500 2000 2500 3000 3500 4000 4500

Poids à la naissance (g)

Construire des histogrammes (un exemple)

Pour l'ensemble de données baby-boom, nous pouvons dessiner un histogramme des poids de naissance.

Pour dessiner l'histogramme j'ai trouvé les plus petites et les plus grandes valeurs les plus petites = 1745 le plus grand = 4162

Il ya seulement 44 poids donc j'ai décidé sur 6 catégories de même taille

Interval

1500-2000

2000-2500

2500-3000

3000-3500

3500-4000

4000-4500

Frequency

1

4

4

19

15

1

L'utilisation de ces catégories fonctionne bien, l'histogramme nous montre la forme de la distribution et nous remarquons que la distribution a une «queue» gauche étendue.

...

Trop peu de catégories et les détails sont perdus. Trop de catégories et la forme globale est obscurcie par trop de détails

Graphiques et courbes de fréquence cumulés

Intervalle 1500-2000 2000-2500 2500-3000 3000-3500 3500-4000 4000-4500

Frequency

1

4

4

19

15

1

Cumulative

1

5

9

28

43

44

Frequency

Courbe de fréquence cumulative

...

Ponctuations

Un tracé de points est un moyen simple et rapide de visualiser un jeu de données. Ce type de tracé est particulièrement utile si les données se produisent en groupes et que vous souhaitez visualiser rapidement les différences entre les groupes.

1500 2000 2500 3000 3500 4000 4500

Poids à la naissance (g)

Scatter Plots

Les diagrammes de dispersion sont utiles lorsque nous voulons visualiser la relation entre deux variables de mesure.

1400

birth (mins since 12pm)

600   800   1000  1200

Time of

200   400

0

...

Mesures sommaires

Il ya 3 principales mesures de localisation

Le mode La médiane La moyenne

Il existe 5 principales mesures de dispersion

La gamme interquartile (IQR) et la gamme semi-interquartile (SIQR) L'écart moyen

L'écart absolu moyen (MAD)

La variance de l'échantillon (s2) et la variation de la population (2)

Échantillon Déviation standard (s) et population Standard Devia-tion ()

La mode

Le mode d'un ensemble de nombres est simplement la valeur la plus commune, par ex. Le mode de l'ensemble suivant de nombres

1; 1; 2; 2; 2; 3; 3; 3; 3; 4; 5; 5; 6; 6; 7; 8; dix; 13 est 3:

...

Avantage Le mode a l'avantage que c'est toujours un score qui s'est effectivement produit et peut être appliqué aux données nominales.

Inconvénient Il peut y avoir deux valeurs ou plus qui partagent la plus grande fréquence. Dans le cas de deux modes, nous allons déclarer les deux et nous référer à la distribution comme bimodale.

35

30

25

Frequency

15   20

10

5

0

La médiane

La médiane peut être considérée comme la valeur moyenne, c'est-à-dire la valeur pour laquelle 50% des données tombent en dessous lorsqu'elles sont disposées dans l'ordre numérique.

Par exemple, considérons les nombres

15; 3; 9; 21; 1; 8; 4;

En ordre numérique

1; 3; 4; 8; 9; 15; 21

Nous voyons que la valeur médiane est 8.

S'il y avait un nombre pair de scores, par ex.

1; 3; 4,8; 9; 15

Alors nous prenons le milieu des deux valeurs moyennes. Dans ce cas, la médiane

Est (4 + 8) = 2 = 6.

En général, si nous avons N points de données, l'emplacement médian est défini comme suit:

Emplacement médian = (N +1)

Par exemple, l'emplacement médian de 7 numéros est (7 + 1) = 2 = 4 et la médiane de 8 numéros est (8 + 1) = 2 = 4: 5, c'est-à-dire entre l'observation 4 et 5 (lorsque les nombres sont disposés en commande).

Avantage La médiane n'est pas affectée par les scores extrêmes (un point qu'il partage avec le mode). Nous disons que la médiane est résistante aux valeurs aberrantes. Par exemple, la médiane des nombres

1; 3; 4; 8; 9; 15; 99999

Est encore 8. Cette propriété est très utile dans la pratique que les observations extérieures peuvent et se produisent (données est un souvenir mémoires!).

Le sens

La moyenne d'un ensemble de scores est la somme1 des scores divisée par le nombre de scores. Par exemple, la moyenne

1; 3; 4; 8; 9; 15 est 1 + 3 + 4 + 8 + 9 + 15 = 6: 667 (à 3 dp)

En notation mathématique, la moyenne d'un ensemble de n nombres x1; ...... Xn est noté x où

Voir l'annexe des notes pour une brève description de la somme

Notation P ()

1Le total quand on les additionne tous

Avantage La moyenne est la mesure de localisation la plus utilisée. Historiquement, c'est parce que les statisticiens peuvent écrire des équations pour la moyenne et dériver de belles propriétés théoriques pour la moyenne, qui sont beaucoup plus difficiles pour le mode et la médiane.

Inconvénient La moyenne n'est pas résistante aux observations extérieures. Par exemple, la moyenne

1; 3; 4; 8; 9; 15; 99999

Est 14323.57, tandis que la médiane (d'en haut) est 8.

Parfois, des données de mesure discrètes sont présentées sous la forme d'une table de fréquences dans laquelle les fréquences de chaque valeur sont données.

Data (x)

1

2

3

4

5

6

Frequency (f)

2

4

6

7

4

1

Nous calculons la somme des données

(2 1) + (4 2) + (6 3) + (7 4) + (4 5) + (1 6) = 82

Et le nombre d'observations

2 + 4 + 6 + 7 + 4 + 1 = 24

La moyenne est donnée par

X = 82 = 3:42 (2 dp)

En notation mathématique, la formule de la moyenne des données de fréquence est donnée par

...

La relation entre la moyenne, la médiane et le mode

Symétrique

 Moyen = médian = mode

-10 0 10 20 30

Positive Skew

Mode médian moyen

0 5 10 15 20 25 30

Inclinaison négative

Mode médian moyen

IQR et SIQR

L'IQR est la fourchette du milieu 50% des données. Le SIQR est simplement la moitié de l'IQR.

...

Nous calculons l'IQR de la façon suivante:

Calculez le point de 25% (1er quartile) de l'ensemble de données. L'emplacement du 1er quartile est défini comme le N4 + 1 ème point de données.

Calculez le point de 75% (3e quartile) de l'ensemble de données. L'emplacement du 3e quartile est défini comme étant le point de données 3 (N + 1).

Calculez l'IQR comme

IQR = 3e quartile - 1er quartile

Exemple 1 Considérons l'ensemble des 11 numéros (qui ont été arrangés dans l'ordre)

dix; 15; 18; 33; 34; 36; 51; 73; 80; 86; 92

Le 1er quartile est le 3ème quartile est le

(11 + 1) = 3ème point de données = 18

3 (11 + 1) = 9ème point de données = 80

4) IQR = 80 - 18 = 62) SIQR = 62/2 = 31.

L'écart moyen

Pour mesurer la propagation d'un ensemble de données, il semble judicieux d'utiliser la «déviation» de chaque point de données par rapport à la moyenne de la distribution. L'écart de chaque point de données par rapport à la moyenne est simplement le point de données moins la moyenne.



Petite dispersion = petits écarts grand écart = grands écarts

Data

Deviations

x

xx

10

10 - 48 = -38

15

15 - 48 = -33

18

18 - 48 = - 30

  1. 33 - 48 = -15
  2. 34 - 48 = -14
  3. 36 - 48 = -12
  4. 51 - 48 = 3
  5. 73 - 48 = 25
  6. 80 - 48 = 32
  7. 86 - 48 = 38
  8. 92 - 48 = 44

Sum = 528

Sum = 0

P x = 528

P(xx) = 0

La moyenne est x = 52811 = 48

L'écart moyen d'un ensemble de nombres est simplement la moyenne des écarts.

En pratique, l'écart moyen est toujours nul.

Déviation absolue moyenne (MAD)

Nous résolvons le problème des déviations sommant à zéro en considérant les valeurs absolues des écarts.

La valeur absolue d'un nombre est la valeur de ce nombre avec le signe moins supprimé, p. Ex. J 3j = 3.

Nous mesurons ensuite la propagation en utilisant la moyenne des écarts absolus, notée (MAD).

Cela peut être écrit en notation mathématique comme

...

Data

Deviations

jDeviationsj

x

xx

jx    xj

10

10 - 48 = -38

38

15

15 - 48 = -33

33

18

18 - 48 = - 30

30

33

33 - 48 = -15

15

34

34 - 48 = -14

14

36

36 - 48 = -12

12

51

51 - 48 = 3

3

73

73 - 48 = 25

25

80

80 - 48 = 32

32

86

86 - 48 = 38

38

92

92 - 48 = 44

44

Sum = 528

Sum = 0

Sum = 284

P x = 528

P(xx) = 0

P jx    xj = 284

MAD = 284/11 = 25: 818 (à 3dp)

La variance de l'échantillon (s2) et la variation de la population (2)

Une autre façon de s'assurer que les écarts ne viennent pas à zéro est de regarder les écarts au carré. Ainsi, une autre façon de mesurer la propagation est de considérer la moyenne des écarts au carré, appelée Variance

Si notre ensemble de données se compose de la population entière (une occurrence rare) alors nous pouvons calculer la variance de population 2 (dite sigma carré) comme

...

Quand nous avons juste un échantillon de la population (la plupart du temps) nous pouvons calculer la variance d'échantillon s2 comme

S2 = i = 1 (xix) 2 ors2 = (xx) 2

NB Nous divisons par n 1 dans le calcul de la variance de l'échantillon alors que s2 est une «meilleure estimation» de la variance de population 2 que si nous avions divisé par n.

Data

Deviations

Deviations2

x

xx

(xx)2

10

10 - 48 = -38

1444

15

15 - 48 = -33

1089

18

18 - 48 = - 30

900

33

33 - 48 = -15

225

34

34 - 48 = -14

196

36

36 - 48 = -12

144

51

51 - 48 = 3

9

73

73 - 48 = 25

625

80

80 - 48 = 32

1024

86

86 - 48 = 38

1444

92

92 - 48 = 44

1936

Sum = 528

Sum = 0

Sum = 9036

P x = 528

P(xx) = 0

P(xx)2  = 9036

L'échantillon et l'écart type de population (s et ..)

Remarquez que la variance de l'échantillon dans notre exemple est beaucoup plus élevée que le SIQR et le MAD.

SIQR = 31 MAD = 25,818 s2 = 903,6

Cela se produit parce que nous avons carré les écarts de les transformer à une toute autre échelle. Nous pouvons récupérer l'échelle des données originales en prenant simplement la racine carrée de la variance de l'échantillon (population).

Ainsi, nous définissons l'écart type de l'échantillon s comme

...

Et nous définissons l'écart type de la population comme

r

i=1(

ni

n

xx)2

P

En revenant à l'exemple 1, l'écart type de l'échantillon est p

S = 903: 6 = 30:05 (à 2dp)

Qui est comparable au SIQR et au MAD.

4000

3500

3000

2500

2000

Boîtes à moustaches

Supérieur supérieur

3e quartile Médiane

1er quartile

Basse moustache

Outliers

Une parcelle de box se compose de trois parties principales

1. Une boîte qui couvre le milieu 50% des données. Les bords de la boîte sont les 1er et 3e quartiles. Une ligne est tracée dans la case à la valeur médiane.

1. Moustaches qui sortent de la boîte pour indiquer dans quelle mesure les données s'étendent de chaque côté de la boîte. Les moustaches ne doivent pas s'étendre plus de 1,5 fois la longueur de la boîte, c'est-à-dire que la longueur maximale d'une moustache est de 1,5 fois l'IQR.

1. Tous les points qui se trouvent en dehors des moustaches sont représentés graphiquement individuellement comme des observations extérieures.

Plotter des parcelles de boîtes de mesures dans des groupes différents côte à côte peut être illustrative. Par exemple, les parcelles en boîtes de poids à la naissance pour chaque sexe côte à côte et indique que les distributions ont des formes très différentes.

2000 2500 3000 3500 4000



145