Debuter avec le logiciel de statistique SPSS etape par etape guide de formation complet [Eng]
Débuter avec le logiciel de statistique SPSS étape par étape guide de formation complet [Eng]
CHAPITRE 2 Codage, entrée et vérification des données
Ce chapitre commence par un très bref aperçu des étapes initiales d'un point de vue de la recherche. Après cette introduction, le chapitre se concentrera sur: 1) mettre vos données à jour pour entrer dans SPSS ou une feuille de calcul, 2) définir et étiqueter des variables, 3) entrer correctement les données et 4) vérifier que la saisie des données a été effectuée Correctement sans erreurs.
Planifiez l'étude, le test pilote et collectez des données
Planifiez l'étude. Comme on l'a vu au chapitre 1, la recherche commence par l'identification d'un problème de recherche et de questions de recherche ou d'hypothèses, il est également nécessaire de planifier la conception de la recherche avant de sélectionner les instruments de collecte de données et de commencer à recueillir des données. La plupart des livres de méthodes de recherche traitent abondamment de cette partie du processus de recherche (par exemple, voir Gliner et Morgan, 2000).
Sélectionnez ou développez l'instrument (sJ. Si un instrument approprié est disponible et qu'il a été utilisé avec une population similaire à la vôtre, il est généralement souhaitable de l'utiliser. Cependant, il est nécessaire de modifier un instrument existant ou de développer votre propre choix Pour ce chapitre, nous avons développé un petit questionnaire à donner aux étudiants à la fin d'un cours. Rappelez-vous que les questionnaires ou les enquêtes ne sont qu'une façon de collecter des données quantitatives. Vous pouvez également utiliser des entretiens structurés, des observations, des tests, des inventaires normalisés, Ou un autre type de méthode de collecte de données. Les méthodes de recherche et les livres de mesure ont un ou plusieurs chapitres consacrés à la sélection et au développement d'instruments de collecte de données. Un livre utile sur l'élaboration de questionnaires est Salant et Dillman (1994).
Test pilote et affiner les instruments. Il est toujours souhaitable d'expérimenter votre instrument et vos instructions avec au moins quelques collègues ou amis. Dans la mesure du possible, vous devriez également effectuer une étude pilote avec un échantillon similaire à celui que vous envisagez d'utiliser plus tard. Ceci est particulièrement important si vous avez développé l'instrument ou qu'il sera utilisé avec une population différente de celle pour laquelle il a été développé et a été utilisé dans le passé.
Les participants pilotes devraient être interrogés sur l'élanité des articles et s'ils croient que les éléments devraient être ajoutés ou supprimés. Ensuite, utilisez les commentaires pour effectuer des modifications dans l'instrument avant de commencer la collecte des données. La validité du contenu peut également être vérifiée en demandant aux experts de juger si vos articles couvrent tous les aspects du domaine que vous avez l'intention de mesurer et si ils sont dans des proportions appropriées par rapport à ce domaine.
Collectez les données. La prochaine étape dans le processus de recherche consiste à collecter les données. Il existe plusieurs façons de recueillir un questionnaire ou des données d'enquête (comme le téléphone, le courrier ou le courrier électronique). Nous allons discuter ici, parce que c'est le but de ce livre. Le livre de Salant et Dillrnan (1994) intitulé «Comment conduire votre propre enquête» fournit des détails considérables sur les différentes méthodes de collecte des données d'enquête.
Vous devriez vérifier vos données brutes, même si vous la collectez même avant d'être entré dans l'ordinateur. Maire assurez-vous que les participants ont marqué leurs notes ou questionnaires de manière appropriée; Vérifiez s'il y a une double réponse à une question (lorsqu'une seule est attendue) ou des réponses marquées entre deux points de notation. Si cela se produit, vous devez avoir une rade (par exemple, "utiliser la moyenne") que vous pouvez appliquer de manière cohérente. Ainsi, vous devriez "nettoyer" vos données, en vous assurant qu'elles sont claires, cohérentes et lisibles, avant de les intégrer dans un fichier de données.
Supposons que les questionnaires remplis montrés à la Fig. 2.1 et 2.2 ont été donnés à un petit clan de 12 étudiants et qu'ils les ont remplis et les ont pris à la fin des clans. Le chercheur a numéroté les formes de I à 12 comme indiqué ID inverse.
...
Données de code pour l'entrée de données
Promenades pour le codage des données
Le codage est le processus d'attribution de nombres aux valeurs ou à la composition de chaque variable. Avant de commencer le processus de codage, nous souhaitons présenter quelques suggestions ou règles générales à garder à l'esprit au fur et à mesure que vous procéderez. Ces suggestions sont adaptées de mies proposées dans le livre utile de Newton et Rudestam (1999) intitulé Four Statistical Consultant. Nous croyons que nos suggestions sont appropriées, mais certains chercheurs pourraient proposer des alternatives, en particulier pour les "raies" 1, 2, 4, 5 et 7
- Toutes les données doivent être numériques. Bien qu'il soit possible d'utiliser des lettres ou des mots (variables de chaîne) comme données, il n'est pas souhaitable de le faire avec SPSS. Par exemple, nous pourrions coder le genre comme M pour les hommes et les F pour les femmes, mais pour faire la plupart des statistiques avec SPSS, vous auriez des lettres ou des mots à des chiffres. Il est plus facile de faire cette conversion avant d'entrer les données dans l'ordinateur. Comme vous le verrez à la Fig. 2.3, nous avons décidé de coder les femelles en 1 et les hommes comme O. C'est ce qu'on appelle la fin fictive. Essentiellement, le 0 signifie "pas féminin". Nous pourrions, bien sûr, coder les hommes comme 1 et les femmes comme O, ou nous pourrions coder un genre en 1 et l'autre en tant que 2. Cependant, i # est crucial que vous soyez cohérent dans votre codage (par exemple, pour cette étude, tous les hommes Sont eodiés 0 et femelles 1) et ont le moyen de vous rappeler et d'autres comment vous avez fait le codage. Plus loin dans ce chapitre, nous montrerons comment vous pouvez fournir un tel enregistrement appelé un livre de codes.
- Chaque variable pour chaque cas ou participant doit occuper la même colonne dans l'Éditeur de données SPSS. Avec SPSS, il est important que les données de chaque participant occupent une seule ligne (ligne), et chaque colonne doit contenir des données sur la même variable pour tous les participants. L'éditeur de données SPSS, dans lequel vous entrez des données, facilite cela en mettant le Nom des variables courtes que vous choisissez e le haut de chaque colonne, comme vous l'avez vu au chapitre 1, Fig. 1.3. Si une variable est reneured plus d'une fois (par exemple, prétest et posttest), elle sera entrée dans deux colonnes avec des noms quelque peu différents comme mathpre et mathpost.
- Toutes les valeurs (codes) for variable doivent être mutuellement exclusives. C'est-à-dire qu'une seule valeur ou Nurnber peut être enregistrée pour chaque variable. Certains articles, comme notre article 6 à la Fig. 2_3, permet aux participants de vérifier plus d'une réponse. Dans ce cas, l'élément doit être divisé en une variable distincte pour chaque choix de réponse possible, avec une valeur de chaque variable correspondant à oui (cochée) et l'autre à non (non vérifié) . Par exemple, l'élément 6 devient les variables 6, 7 et 8 (suite Fig. 2.3). Habituellement, les articles devraient être rédigés de sorte que les personnes perspicaces choisissent logiquement une seule des options fournies et toutes les options possibles sont fournies. Une dernière catégorie intitulée «autre» peut être fournie dans les cas où toutes les options possibles ne peuvent pas être listées (mais ces «autres» réponses sont généralement très diverses et, par conséquent, généralement pas très utiles à des fins statistiques.
- Chaque variable doit être codée pour obtenir des informations maximales. Faites des catégories ou des valeurs effondrées lorsque vous configurez les codes pour eux. Si nécessaire, laissez l'ordinateur le faire plus tard. En général, il est souhaitable de coder et d'entrer des données dans un formulaire aussi détaillé que disponible. Ainsi, entrez les résultats réels des tests, les âges, les GPA, etc., si vous les connaissez. Il est recommandé de demander aux participants de fournir des informations très spécifiques. Cependant, vous devriez faire attention à ne pas poser de questions qui sont si spécifiques que le répondant peut ne pas connaître la réponse ou ne pas se sentir à l'aise de le fournir. Par exemple, vous obtiendrez plus d'informations en demandant aux participants d'indiquer leur GPA à deux décimales (comme aux figures 2.1 et 2.2), que si vous leur demandiez de sélectionner quelques catégories générales (par exemple, moins de 2.0, 2.0 -2,49, 2,50-2,99, etc.). Cependant, si les étudiants ne connaissent pas leur GPA ou ne veulent pas le révéler précisément, ils peuvent laisser la question vide ou écrire dans une réponse difficile à interpréter.
Ces problèmes pourraient vous conduire à fournir un certain nombre de catégories, chacune avec une gamme de valeurs relativement étroite, pour des variables telles que l'âge, le poids et le revenu. N'oubliez jamais ces catégories avant d'entrer les données dans SPSS. Par exemple, si vous avez des catégories d'âge pour les étudiants de niveau universitaire 16-18, 18-20, 21-23, etc., vous vous rendez compte qu'il n'y a que quelques étudiants dans le groupe ci-dessous 18, conservez les codes comme c'est le cas maintenant. Plus tard, vous pouvez créer une nouvelle catégorie de 20 ou moins en utilisant une fonction SPSS, Transform => Recode. Si vous effondrez les catégories avant d'entrer les données, les informations sont terminées.
5_ Pour chaque participant, il doit y avoir un code ou une valeur pour chaque variable. Ces codes doivent être des nombres, à l'exception des variables pour lesquelles les données sont manquantes. Nous rappelons les blancs lorsque des données sont manquantes ou inutilisables, car SPSS est conçu pour traiter les blancs comme valeurs manquantes. Cependant, parfois, vous pouvez avoir plus d'un type de données manquantes, telles que les éléments laissés en blanc et ceux qui avaient une réponse qui n'était pas appropriée ou utilisable. Dans ce cas, vous pouvez attribuer des codes numériques tels que 98 et 99, mais vous devez indiquer à SPSS que ces codes sont pour les valeurs manquantes, ou SPSS les traitera comme des données réelles.
- Appliquer toutes les règles de codage pour tous les participants. Cela signifie que si vous décidez de traiter un certain type de réponse comme, par exemple, manquant pour une personne, vous devez faire la sanie pour tous les autres participants.
- Utilisez des nombres élevés (valeur ou codes) pour la fin "d'accord", "bon" ou "positif" d'une variable qui a ordonné Sometines, vous verrez des questionnaires qui utilisent I pour "fortement d'accord" et 5 pour "fortement" être en désaccord." Ce n'est pas faux aussi longtemps que vous êtes cohérente et cohérente. Cependant, vous êtes moins susceptible de vous confondre en intégrant votre rendu si les valeurs élevées ont une signification positive.
Formulaire de codage
Vous devez maintenant prendre quelques décisions sur la façon de coder les données fournies à la Fig. 2.1 et 2 2, en particulier les données qui ne sont pas déjà sous forme numérique. Lorsque les réponses fournies par les participants sont des nombres, la variable est appelée «auto-codage». Vous pouvez simplement entrer le nurnber qui a été encerclé ou vérifié. En revanche, les variables comme le genre ou l'université n'ont pas de valeur intrinsèque qui leur est associée. Voir la Fig. 2.3 pour les décisions que nous avons prises au sujet de la façon de décrire les variables, de coder les valeurs et de naine, les huit variables. N'oubliez pas de numéroter chacun des questionnaires afin que vous puissiez vérifier les données saisies contre les questionnaires.
...
Problème 2.1: Vérifier les questionnaires remplis
Examinez maintenant la Fig. 2.1 et 2.2 pour les réponses incomplètes, peu claires ou doubles. Arrêtez-vous et faites ceci maintenant, avant de continuer. Quels problèmes avez-vous vus? Le chercheur a besoin de faire des manières de gérer ces problèmes et de les noter sur les questionnaires ou sur un maître "instructions de codage pour que les mêmes contes soient utilisés pour tous les cas.
Nous avons identifié au moins 11 réponses sur 6 des 12 questionnaires qui doivent être clarifiés. Pouvez-vous les trouver tous? Comment les résoudriez-vous? Ecrire sur la Fig. 2.1 et 2.2, comment vous traiteriez chaque problème que vous voyez.
Malte se promène sur la façon de gérer ces problèmes
Pour chaque type de réponse incomplète, vierge, peu claire ou double, vous devez faire une règle pour ce qu'il faut faire. Dans la mesure du possible, vous devriez faire ces défauts avant la collecte des données, mais il se pourrait que vous ayez des problèmes imprévus. Il est important que vous appliquiez les mies régulièrement pour tous les problèmes similaires, de sorte que net pour polariser vos résultats.
Interprétation du problème 2.1 et Fig. 2.4.
Maintenant, nous discuterons de chacun des problèmes et de la manière dont nous décidons de les gérer. Bien sûr, certains choix raisonnables auraient pu être différents des nôtres. Nous pensons que les données pour les participants I - 6 sont assez claires et prêtes à entrer dans SPSS avec l'aide de la Fig. 2.3. Cependant, les questionnaires pour les participants 7 à 12 posent un certain nombre de problèmes de mineur et plus de serions pour la persan d'entrer les données. Nous avons écrit notre décision dans les cases numérotées sur la Fig. 2.4, qui sont les enquêtes et les réponses pour les sujets 7 à 12.
L Pour le participant 7, le GPA semble être écrit comme 250. h semble raisonnable de supposer qu'il avait l'intention d'inclure une décimale après le 2, et nous allons donc entrer 2.50. Nous aurions pu dire que c'était une réponse invalide et l'avoir codé comme manquant. Cependant, les données manquantes créent des problèmes dans l'analyse ultérieure des données, surtout pour les statistiques complexes. Ainsi, nous voulons utiliser autant de données fournies que raisonnable. L'important ici est que vous devez traiter tous les autres problèmes similaires de la même manière.
- Pour le sujet 8, deux collèges ont été vérifiés. Nous aurions pu développer une nouvelle valeur de réponse légitime (4 = autre). Parce que cette université fictive exige que les élèves soient identifiés avec un seul et même un de ses trois collèges, nous avons développé deux codes de valeur manquants (comme nous l'avons fait pour le groupe ethnie et la religion dans l'ensemble de données HSB). Ainsi, pour cette variable seulement, nous avons utilisé 98, pour plusieurs collèges vérifiés ou d'autres réponses écrites qui ne correspondent pas clairement à l'un des collèges (par exemple, ingénierie commerciale ou historique et commerciale). Nous traitons ces réponses comme manquantes car elles semblent être invalides et / ou parce que nous n'aurait pas assez de réponse donnée pour un groupe de taille raisonnable pour l'analyse. Nous avons utilisé 99 comme code pour les cas où rien n'a été vérifié ou écrit sur le formulaire. L'existence de deux codes nous permet de distinguer ces deux types de données manquantes, si nous voulions plus tard. D'autres chercheurs (par exemple, Newton et Rudestam, 1999) recommandent d'utiliser 8 et 9 dans ce cas, mais nous pensons qu'il est préférable d'utiliser un code très différent des codes «valides» qu'ils se distinguent si vous oubliez Dites à SPSS qu'ils manquent de valeurs.
- En outre, le sujet 8 a écrit 2.2. Pour son GPA. Il se voit raisonnable, entrez 2.20 en tant que GPA. En fait, dans ce cas, si nous entrons en 2.2, SPSS le traitera comme 2.20 car nous dirons à SPSS que vous utilisez deux décimales.
- Nous avons décidé d'entrer 3,00 pour le GPA du participant 9. Bien sûr, le GPA actuel pourrait être plus élevé ou, plus probablement, plus bas, mais 3,00 semas pour être le meilleur choix compte tenu de l'information fournie par l'élève.
- Le participant numéro 10 n'a répondu aux deux premières questions, il y a donc beaucoup de données manquantes. Il semble que ce soit ou qu'elle a décidé de ne pas remplir le questionnaire. Nous avons fait une idée que si 3 des 5 premiers éléments étaient vierges ou invalides; Nous rejetterions tout ce questionnaire comme invalide. Dans votre rapport de recherche, vous devez indiquer combien de questionnaires ont été rejetés et pour quelle (s) raison (s). Habituellement, vous ne saisissez aucune donnée de ce questionnaire, de sorte que vous n'aurez que 11 sujets ou cas pour entrer. Pour vous montrer comment codifier le collège de quelqu'un s'ils l'ont laissé vide, nous n'avons pas supprimé ce sujet.
- Pour le sujet 11, il existe plusieurs problèmes. Tout d'abord, elle a encerclé le bain 3 et 4 pour le premier élément; Une décision raisonnable consiste à entrer dans la moyenne ou au milieu, 150.
- Participant 11 lias écrit en "biologie" pour le collège. Bien qu'il n'y ait pas de collège de biologie dans cette université; Il semble raisonnable d'entrer 1 = arts et sciences dans ce cas et dans d'autres cas (par exemple, histoire = 1, marketing - 2, civil - 3) où le collège actuel est clair. Voir la discussion sur le problème 2, ci-dessus, pour savoir comment gérer des exemples peu clairs.
- Le participant 11 a également entré 9,67 pour l'AMP, ce qui est une réponse invalide parce que cette université est un système de classement à 4 points (4,00 est le GPA maximum possible). Pour vous montrer une méthode de vérification des données saisies pour les erreurs, nous allons continuer et entrer 9.67. Si vous examinez attentivement les questionnaires remplis, vous devriez pouvoir repérer des erreurs comme celles-ci dans les données et ne pas les saisir.
- Entrez 1 (cochée) pour la lecture et les devoirs pour le participant 11. Inscrivez également 0 pour un crédit supplémentaire (non vérifié) comme vous le feriez pour toutes les cases laissées sans contrôle par les autres participants (sauf nuniber 10). Même si cette persécution a encerclé les boîtes plutôt que de mettre X ou de les vérifier, l'intention est claire.
- Comme au point 6 ci-dessus, nous avons décidé d'entrer 2.5 pour X du participant 12 entre 2 et 3.
- Le participant 12 a également laissé GPA vierge, de sorte que, en utilisant le code de la valeur manquante générale (système) SPSS, nous l'avons laissé vide.