Cours complet pour apprendre l’analyse des donnees statistiques avec SPSS de A a Z
Cours complet pour apprendre l’analyse des données statistiques avec SPSS de A à Z
…
2.2.6 La chaîne causale
Le terme de cause est une notion bien délicate à manier dans les sciences sociales et les sciences de la gestion. Il s’agit bien sûr d’une causalité limitée ; la principale contrainte vient de notre capacité de représenter l’objet à étudier, donc de le mesurer. L’analyse des données tient compte des variables indépendantes et des variables dépendantes.
La variable indépendante représente habituellement un facteur causal, un élément qui semble déterminant dans l’explication d’un phénomène. Dans certains cas, la variable indépendante est celle qui survient en premier lieu, dans le temps; il y a donc une certaine antériorité. La variable indépendante comporte des aspects historiques et logiques. La variable dépendante est celle qui est influencée, celle dont on observe les variations. Voici une définition plus spécifique de la variable dépendante : «Toute grandeur dont le niveau peut être connu lorsqu’on connaît le niveau atteint par une autre grandeur dite variable indépendante. On dit alors que la variable dépendante est fonction de la variable indépendante42. » Les variables dépendantes sont les variables manipulées, expliquées par les autres variables; elles représentent ce que l’on cherche à savoir.
En règle générale, dans les enquêtes par questionnaire fermé, les variables indépendantes sont les principales variables socioéconomiques. Par exemple, l’achat d’une voiture (la marque, le prix) varie en fonction de variables indépendantes bien connues:
…
Ici, les variables sexe, âge, scolarité, profession et revenu sont les grandes variables de segmentation qui permettent de comprendre le comportement des acheteurs. À l’aide de tests, le chercheur vérifie si les relations entre les variables indépendantes et la variable dépendante sont significatives au plan statistique. Il arrive que les relations observées entre les variables indépendantes usuelles (les variables socioéconomiques) ne soient pas significatives. Si tel est le cas, à ce moment de l’enquête, il faudra, si nécessaire, puiser dans le vivier des autres variables de l’enquête, si elles existent.
On le voit ici, ce qui était auparavant une variable indépendante (les opinions) peut devenir, pour les besoins de l’analyse, une variable dépendante. Dans la recherche d’une explication plus approfondie des données, la désignation des variables indépendantes et dépendantes devient toute relative. À ce moment de l’analyse, il faut faire un retour en arrière vers les objectifs de départ et les hypothèses de la recherche. L’explication de beaucoup de comportements économiques et sociaux a sa source dans les motivations et les attitudes profondes des répondants. Malheureusement, la recherche des attitudes est un domaine complexe et mouvant43 qui exige de très bonnes connaissances en méthodologie et en psychosociologie et une longue expérience des enquêtes sur le terrain.
Ces quelques exemples montrent que, dans l’analyse des données, « il n’existe pas de connaissance absolue, vraie en soi, indépendante de la manière de l’acquérir44 ». Les résultats obtenus par l’analyse des données n’existent qu’en fonction des méthodes utilisées.
- Les échelles de mesure
Les niveaux de mesure sont le parachèvement de la problématique et de la conceptualisation du problème de la recherche. Il s’agit en définitive de faire correspondre un concept à une mesure ; c’est dans cette opération que la démarche de recherche devient empirique. Mesurer, c’est relier des nombres à des entités plus ou moins abstraites: l’âge, le sexe, la satisfaction, l’intérêt…
L’analyse des données est basée en grande partie sur les principes des mathématiques et plus particulièrement de la statistique appliquée. Les nombres possèdent certaines propriétés mathématiques dont il faut tenir compte. Ces propriétés sont les suivantes:
- la propriété de classer des individus dans des catégories;
- la propriété d’établir un ordre de préséance, un ordre hiérarchique entre ces catégories;
- la propriété de fixer des intervalles égaux dans cet ordre hiérarchique construit en fonction de la deuxième propriété ;
- la propriété de fixer une origine 0 à cet ordre hiérarchique (en plus d’avoir des intervalles égaux).
3.1. Les échelles de mesure et les propriétés des nombres
Les variables utilisées dans les recherches en sciences sociales et en sciences de la gestion possèdent une ou plusieurs de ces propriétés. Nous présentons ces échelles avec leurs propriétés dans le tableau 1.2 :
…
Nous voyons dans le tableau 1.2 :
- que l’échelle nominale permet de classer les individus dans des catégories;
- que l’échelle ordinale permet de classer les individus dans des catégories et, en plus, d’établir un ordre hiérarchique entre ces catégories;
- que l’échelle par intervalles possède les propriétés des deux premières échelles; en plus, les intervalles de l’échelle sont égaux ;
- que l’échelle de rapport possède toutes les propriétés des nombres; c’est donc la plus achevée des mesures.
Voyons tout de suite des exemples de chacune de ces échelles.
3.1.1. L’échelle nominale
L’échelle nominale a pour principale propriété de classer les individus d’un ensemble donné (population ou échantillon) dans des catégories données. Donnons des exemples:
- Le sexe des personnes se répartit comme suit:
- Femme
- Homme
- La destination des dernières vacances de quatre jours et plus hors du domicile habituel:
- Québec 4. Europe
- Canada (à l’exception du Québec) 5. Autre
- États-Unis
Dans le premier exemple, la population étudiée se divise en deux catégories; dans le deuxième exemple, cette même population se découpe en cinq parties. Les catégories nominales reposent, la plupart du temps, sur des conventions culturelles; en ce sens, dans le deuxième exemple, le Québec pourrait s’appeler X1 et le Canada X2, et ainsi de suite, sans que cela change grand-chose au classement initial des personnes. Il s’agit bien sûr d’une mesure rudimentaire ; c’est le plus faible niveau de mesure accessible. L’échelle nominale consiste en fait à énumérer les possibilités et à classer les individus selon ces possibilités.
Le classement des individus dans des catégories doit répondre à des règles assez strictes:
- les catégories doivent être exhaustives, c’est-à-dire tenir compte de toutes les possibilités (ou du moins des principales);
- les catégories doivent être mutuellement exclusives en ce sens qu’une personne ne peut être classée à la fois dans deux catégories (ou plus);
- les individus de la population étudiée doivent être classés dans les catégories avec le minimum d’erreur possible.
Ces règles incontournables s’appliquent à toutes les échelles de mesure.
3.1.2. L’échelle ordinale
Dans l’échelle nominale, chacune des catégories de la variable est équivalente aux autres; dans le cas de l’échelle ordinale, une catégorie peut être plus petite ou plus grande qu’une autre : il y a une gradation dans les catégories utilisées. Voici des exemples:
- La satisfaction face à un service :
- Très insatisfait
- Insatisfait
- Satisfait
- Très satisfait
- L’utilité d’un produit:
- Inutile
- Peu utile
- Utile
- Très utile
- L’achat d’un bien de consommation :
- Jamais
- Rarement
- Souvent
- Très souvent
- Le niveau de scolarité :
- Primaire
- Secondaire
- Collégial
- Universitaire
Dans tous les cas présentés, on remarque que 4 est plus grand que 3, 3 est plus grand que 2 et 2 est plus grand que 1 ; il y a donc une relation d’ordre qui est transitive. Si ce postulat hiérarchique est reconnu, il s’agit bel et bien d’une échelle ordinale. L’échelle ordinale possède donc deux des principales propriétés des nombres: classer les individus dans des catégories et établir un ordre valable entre ces catégories – deux opérations naturellement simultanées.
3.1.3. L’échelle par intervalles
L’échelle par intervalles possède les propriétés des échelles nominales et ordinales, auxquelles elle ajoute des intervalles égaux dans les différents niveaux gradués de l’échelle de mesure. Donnons des exemples:
Le revenu du ménage :
- 20 000 $ et moins
- 20 001 $ à 40 000 $
- 40 001 $ à 60 000 $
- 60 001 $ à 80 000 $
- 80 001 $ à 100 000 $
- 100 001 $ et plus
- La scolarité :
- 7 années et moins
- 8 à 14 années
- 15 à 21 années
- 22 années et plus
Il s’agit ici d’une façon plus abstraite de mesurer la scolarité, car elle ne tient pas compte des niveaux scolaires habituels. Au plan pratique, il est rare que les « barreaux » inférieurs et supé- rieurs de l’échelle par intervalles soient réellement égaux ; nous avons affaire, la plupart du temps, en sciences sociales et en sciences de la gestion, à des échelles à intervalles quasi égaux. Cette légère entorse aux propriétés des nombres n’invalide pas nécessairement ce type d’échelle, qui a tout de même des qualités mathématiques supérieures à celles des échelles ordinales.
3.1.4. L’échelle de rapport
L’échelle de rapport possède les mêmes propriétés des nombres que les trois premières échelles; s’ajoutent à ces propriétés les éléments suivants:
- le zéro dans l’échelle est absolu et a un sens, le sens d’absence de quelque chose ;
- les proportions calculées, dans l’échelle même, ont aussi un sens quelconque.
Donnons des exemples de cette fameuse échelle :
- Les dépenses alimentaires du ménage par semaine :
- 0
- 1 $ à 50 $
- 51 $ à 100 $
- 101 $ à 150 $
- 151 $ à 200 $
- 201 $ à 250 $
- 251 $ à 300 $
- etc.
Ici, il semble impossible que le ménage dépense 0 $ pour se nourrir; l’échelle est bien construite au plan technique, mais elle n’a aucun sens aux plans économique et sociologique.
- L’âge du répondant à une enquête sur les opinions politiques:
- 0
- 1 an à 10 ans
- 11 ans à 20 ans
- 21 ans à 30 ans
- 31 ans à 40 ans
- 41 ans à 50 ans
- 51 ans à 60 ans
- 61 ans à 70 ans
- etc.
Dans cet exemple, on peut se poser des questions sur la valeur des catégories 1, 2 et 3 au sujet de l’opinion politique des enfants! Au niveau des proportions, on peut affirmer qu’une personne de 40 ans a l’équivalent de 2 3 20 ans, mais cette expression n’a aucun sens aux plans psychologique et sociologique. Une personne qui n’a ni revenu, ni âge et qui ne consomme pas de biens alimentaires, cela n’a pas beaucoup de sens. C’est pour cela qu’une échelle de rapport est si difficile à construire dans les sciences sociales et les sciences de la gestion ! Le zéro absolu est une denrée rare dans ces disciplines. Toute personne, même la plus démunie, possède un certain degré de revenu, d’intelligence, de satisfaction à l’égard d’un bien ou service, d’intérêt pour la politique, etc.
3.2. Les échelles de mesure et les opérations statistiques
Nous avons vu que les échelles de mesure ne possèdent pas toutes les propriétés des nombres; elles ont donc des qualités mathématiques diffé- rentes. Par exemple, à la question portant sur la destination des dernières vacances de quatre jours et plus hors du domicile habituel, nous avions les catégories de réponses suivantes:
- Québec 4. Europe
- Canada (à l’exception du Québec) 5. Autre
- États-Unis
La moyenne des destinations n’a ici aucun sens; la seule opération mathématique possible serait le mode (la catégorie qui a la fréquence absolue ou relative la plus élevée). On se rend compte que le type d’échelle de mesure conditionne fortement les opérations mathématiques possibles. Le tableau 1.3 présente ces diverses opérations selon le type d’échelle de mesure utilisée.
Il est important de combiner les échelles avec les opérations statistiques qui sont acceptables, car la solidité de nos résultats dépendra de notre capacité de respecter les propriétés mathématiques de la mesure. On ne peut à la fois s’appuyer sur les règles mathématiques et faire le contraire dans la pratique de l’analyse des données.
3.2.1. Les relations entre les échelles de mesure
Il y a une relation d’inclusion entre les différents niveaux de mesure. L’échelle de rapport possède toutes les propriétés des autres échelles en plus des siennes propres. L’échelle d’intervalles cumule les propriétés des échelles nominale et ordinale en plus d’avoir des caractéristiques bien à elle. L’échelle ordinale a les propriétés d’ordonner et de classer (échelle nominale). L’échelle nominale est le niveau de mesure le plus primitif. Il y a donc une complexité croissante de l’échelle nominale à l’échelle de rapport.
…
Le traitement des données par ordinateur
Le développement de l’analyse des données, telle qu’on la connaît aujourd’hui, est étroitement lié aux découvertes réalisées dans le domaine de l’informatique. Si l’histoire des machines à calculer date de plusieurs siècles1, celle des ordinateurs modernes est relativement récente. C’est dans la foulée du projet Manhattan2 qu’a été conçu le premier supercalculateur permettant de traiter plusieurs milliers d’informations en quelques secondes.
Après 1980, l’utilisation des puces de silicium permit la construction de microordinateurs et de logiciels accessibles à tous à peu de frais. Ces diverses inventions simplifient à l’extrême l’analyse des données (basée sur des procédures statistiques et des calculs interminables). Ainsi, en 2000, réaliser une analyse en composantes principales ou une analyse de régression multiple devient à la portée de n’importe quel étudiant de première année d’université ! Comme il arrive souvent, ce rapide développement a entraîné quelques inconvénients dans l’utilisation de la microinformatique pour l’analyse des données. Le principal obstacle vient, pour certains, de la confusion entre le traitement et l’analyse des données3.
Le néophyte en ce domaine a tendance à donner à l’ordinateur un pouvoir symbolique ; il écrira dans un rapport de recherche : « l’ordinateur nous indique – nous montre – telle ou telle chose ». Ce genre de démarche tend à occulter le travail même de construction théorique des données; il va donc à l’encontre des théories actuelles de la connaissance. Un autre obstacle, moins important, vient de l’utilisation quasi automatique de certaines méthodes sans tenir compte tellement de la structure des données et des objectifs de l’étude à réaliser. Cet obstacle résulte de la grande facilité à employer les logiciels spécialisés dans l’analyse des données.
Quoi qu’il en soit, les microordinateurs et les logiciels de traitement des données sont là pour rester; ils sont une véritable bénédiction pour ceux qui doivent utiliser les méthodes de l’analyse des données dans leur travail quotidien. Il faut aborder l’analyse des données par son côté ludique, allier la logique de la démarche scientifique à l’imagination et à la curiosité. Comme le souligne William Fox : «Être joueur est cependant essentiel et complète la discipline et la rigueur. Vous apprendrez et vous obtiendrez davantage des statistiques, et vos analyses seront fructueuses, si votre approche est celle du jeu4. »
- Les logiciels de traitement des données
Les logiciels de traitement des données sont nombreux et, pour la plupart, très bien construits et très faciles à utiliser. Nous allons citer ici les plus importants:
- Le logiciel Excel, produit par Microsoft, est sûrement le plus connu et le plus utilisé ; la version la plus récente contient une partie des procédures statistiques utilisées dans les analyses des données.
- StatBox et Question, mis au point par la firme Grimmer Logiciels, sont des logiciels conçus spécialement pour l’analyse des données d’enquête ; ces logiciels fonctionnent à partir du logiciel Excel de Microsoft.
- Le Sphinx, dont le concepteur est Jean Moscarola, professeur à Grenoble, est un logiciel utilisé surtout pour la recherche marketing.
- Minitab est un logiciel statistique puissant qui propose un grand nombre de procédures statistiques.
- Le logiciel SAS (système d’analyse statistique) a été conçu au départ pour le calcul économique et les modèles de régression ; par la suite, on l’a adapté de façon à y inclure les méthodes les plus connues de l’analyse des données.
- Le logiciel SPSS (Statistical Package for the Social Sciences) a été créé, au tout début, pour les besoins des psychologues. Avec le temps (cette entreprise existe depuis 1965), on a intégré un grand nombre de procédures statistiques tout en facilitant le travail de manipulation des données.
Dans l’ensemble, tous les logiciels statistiques se valent. À la longue, de perfectionnement en perfectionnement, ils finissent par tous se ressembler! Quatre éléments vont surtout jouer dans l’achat d’un logiciel de traitement des données:
- L’apprentissage : le logiciel dans lequel on a appris le traitement des données a une certaine longueur d’avance sur les autres (on évite de réapprendre le maniement d’un logiciel).
- L’accessibilité : le produit est-il accessible dans notre ville ou dans notre région ?
- La maniabilité : la simplicité dans l’entrée des données et dans les commandes générales et particulières.
- Enfin, le coût du logiciel.
Dans ce livre, nous allons utiliser le logiciel SPSS sous Windows, car il arrive premier pour tous les critères énoncés ci-dessus. Après avoir comparé les logiciels cités plus haut, le logiciel SPSS nous semble le plus performant; c’est véritablement la «Rolls Royce » des logiciels de traitement des données.
- Le fonctionnement du logiciel SPSS
Le logiciel SPSS fonctionne à partir de fenêtres et de menus. Chacun des menus présente plusieurs commandes et chacune des commandes comprend des sous-commandes qui précisent la commande principale. Ce logiciel ressemble donc à l’emboîtement des poupées russes. La figure 2.1 reproduit la fenêtre d’application. Cette fenêtre est un tableau où les lignes correspondent à des observations et les colonnes, à des variables.
Par exemple, dans une enquête quantitative par sondage, les lignes représentent les répondants et les colonnes, les questions posées. Chacune des fenêtres contient des menus déroulants; ces menus seront présentés plus loin dans ce chapitre. La figure 2.2 nous montre la fenêtre servant à la définition des variables. Chaque variable sera donc définie par dix colonnes contenant les caractéristiques particulières de chacune des variables.
…
- Les principales commandes
Les principales commandes de SPSS concernent plus particulièrement la définition des variables et la saisie des données; sans ces opérations essentielles, l’analyse des données est impossible. La définition des variables se fait à partir de la fenêtre servant à cette opération (voir la figure 2.2). Les variables sont définies à partir de dix éléments; ces éléments apparaissent à l’en-tête des colonnes.
Dans la première colonne de la figure 2.5, nous devons indiquer le nom de la variable ; ce nom doit commencer par une lettre et ne pas avoir plus de huit caractères sans accent ni majuscule. Dans l’exemple de la figure 2.5 (une enquête portant sur les touristes à Montréal), chacune des variables est définie par un numéro d’ordre (qui correspond à sa place exacte dans le questionnaire); ainsi, nous avons les variables « var001 », « var002 », « var003 », etc. Cette façon de procéder est très utile, car, si on tente de donner un nom de huit caractères à chacune des variables, cette tâche deviendra très compliquée après la quinzième variable (ou avant). De toute manière, la variable sera définie plus longuement, et en français, dans la colonne Label.