Support de cour sur le langage python pour la data science

Participez au vote ☆☆☆☆☆★★★★★

Aller au Téléchargement

Chapitre 4

OUTILS PYTHON

POUR LA DATA SCIENCE L’écosystème Python pour les data scientists

import numpy as np

from sklearn import datasets data = datasets.load_iris() X,Y = ,data.target

# Mélange le jeu de données from sklearn.utils import shuffle X,Y = shuffle(X,Y)

# Crée une forêt de 10 arbres

from sklearn.ensemble import RandomForestClassifier forest = RandomForestClassifier(n_estimators = 10)

# Découpe en jeu d'apprentissage et jeu de test

Xa,Xt = X[:0.8*len(X)], X[0.8*len(X):]

Ya,Yt = Y[:0.8*len(Y)], Y[0.8*len(Y):]

# Apprend le modèle (Xa,Ya)

# Prédit la sortie

Yp = forest.predict(Xt)

Modèle

Validation croisée

# Evalue le modèle (score par défaut) print("score = ", forest.score(Xt,Yt))

# Utilise une métrique

from sklearn.metrics import zero_one_loss print("zero loss = ", zero_one_loss(Yt,Yp))

# Validation croisée avec fonction prédéfinie forest = RandomForestClassifier(n_estimators = 10) from sklearn import cross_validation as cv

acc = cv.cross_val_score(forest,X,Y, cv = 10, scoring = "accuracy") print("accuracy = ", ())

# Validation croisée avec fonction de perte spécifique from sklearn.metrics import make_scorer

cout = np.array([3,1,2]) def myloss(yreel, ypred): return cout[yreel[yreel != ypred]].sum()

myloss = cv.cross_val_score(forest,X,Y,cv = 10, scoring = make_scorer(myloss)) print("myloss = ", ())

import pandas as pd import numpy as np

# Création d'un "DataFrame" data = {

"site" : [ "Musée d'Art Moderne", "Musée du Louvres", "Musée d'Orsay",

"Centre Pompidou", "Centre Pompidou", "Musée des Beaux-Arts" ],

"type" : [ "Contemporain", "Classique", "Impressionisme", "Contemporain",

"Contemporain", "Classique" ],

"ville" : [ "Strasbourg", "Paris", "Paris", "Paris", "Metz", "Nancy" ], "visite" : [ 2011, 2012, 2012, 2012, 2015, 2011 ]

}

frame = pd.DataFrame(data, index = ["Str1", "Par1", "Par2", "Par3", "Mtz1", "Ncy1"])

# Sélections de colonnes et de lignes print(frame[[1,2]].ix[1:3]) print(frame[['site','ville']].ix['Str1':'Mtz1'])

sample = (np.random.randint(0, len(frame), size = 2))

# Ajout, suppression de lignes, de colonnes frame['nbr'] = [2,2,3,3,4,1,]

del frame['nbr'] ('Mtz1')

# Statistiques print(frame.describe()) print(frame['visite'].mean())

# Histogrammes et discrétisation (frame.visite,2) frame['periode'](frame.visite,2)

# Aggrégation

groups = frame.groupby(frame['type']) print(()) print((lambda g : (g.min(), g.max())))

# Nettoyage et préparation frame.drop_duplicates() frame['code'] = frame['type'].map({ "Contemporain": 1, "Classique" : 2 }) frame = frame.dropna()

# Jointure

frame2 = pd.DataFrame({

"ville" : [ "Strasbourg", "Paris","Metz", "Nancy" ],

"dept" : [ 67, 75, 57, 54 ]

})

frame3 = pd.merge(frame, frame2, on='ville')

Matplotlib et les projections cartographiques

import matplotlib.pyplot as plt import numpy as np

from mpl_toolkits.basemap import Basemap

# Crée une projection centrée sur San Francisco frame = ((-122.52, 37.68), (-122.38,37.82)) map = Basemap( llcrnrlon=frame[0][0], llcrnrlat=frame[0][1], urcrnrlon=frame[1][0], urcrnrlat=frame[1][1], epsg=3493)

# Charge le plan associé à la projection map.arcgisimage( service='ESRI_StreetMap_World_2D', xpixels = 1000, verbose= True)

latitudes = np.array( ); longitudes = couleurs = ; rayons = ..

# Convertit (long,lat) en position image

(X,Y)=map(longitudes, latitudes)

# Appel classique aux fonctions matplotlib

plt.scatter(X, Y, rayons, marker = 'o', color = couleurs, alpha = 0.4) # Lance l’affichage ()

Validation croisée

But : évaluer la capacité à généraliser

– Risque de sur-apprentissage ? besoin d’un jeu d’exemples et de test indépendant – Nombre d’échantillons limité

Solution : validation croisée 3-fold, 10-fold, …, m-fold (leave-one-out)

Evaluation d’une méthode de régression

Problème : mesurer les écarts entre prédictions et valeurs cibles réelles

Mesure	Définition
Corrélation entre et
Erreur absolue (L1) moyenne	1 1 =? ? _? ??_? ? 1????

Evaluation d’une méthode de classification binaire :

Les 4 catégories de prédiction d’un classifieur binaire :

Taux d’erreur : estimation du risque moyen ? où est l’erreur valant 0 ou 1

Taux de réussite / de prédiction (accuracy) :

Généralisation au problème multi-classe :

Matrice de confusion

Taux de réussite :

Confiance sur les mesures (1)

Problème 1 : quelle confiance accorder à une mesure calculée sur un ensemble fini d’exemples de test ?

Réponse : calculer un intervalle de confiance

Exemple du taux d’erreur calculé sur m exemples :

1. Hypothèse : exemples indép. ident. distribués (apprent. et test)

? Si la probabilité de commettre une erreur est p, le nombre d’erreurs

^?_?=1 ?_? ?? _? suit une distribution binomiale de prob. p, telle que

2. converge vers une loi normale car m >> 100 (loi des grands nombres)

N_e ?1??

?_? =1??_? = ? ?,

? ??+? ?

Confiance sur les mesures (2)

3. Normalisation de la distribution :

?_? ??

?_?? ?(0,1)

?1?? ??+?

4. Calcul d’un intervalle de confiance de risque ? sur ?0,1 :

? ? >??~?0,1 =???=?????_{? 0,1} ?

5. Déduction d’un intervalle de confiance sur p fonction de ? et m :

Application numérique :

Exemple des données « Glass » (identification de verres en criminologie)

1. Nbr d’exemples : ? =214

2. Marge d’erreur de ?=1%??=2,58 , ?=5%??=1,96

3. Test en validation croisée. Mesure de ?_?. Ex C4.5 : ?_? =66%

4. Calcul de l’intervalle de confiance

?_?	? =?% ???? ????		? =?% ???? ????
66 %	57 %	73 %	59 %	72 %
90 %	83 %	94 %	85 %	93 %
99 %	95 %	99,8 %	96,6 %	99,7 %

Confiance sur les mesures (3)

Problème :

comment comparer deux méthodes (A et B) selon une mesure calculée sur différents jeux de données ?

Exemple d’un score s calculé sur k jeux de m exemples :

1. Hypothèse : exemples indép. ident. distribués et m élevé >> 100

? et suivent des lois normales (loi des grands nombres) pour le jeu i ? suit une loi normale (loi des grands nombres) indépendante de i :

2. Distribution de la mesure globale :

3. Estimation des paramètres :

Confiance sur les mesures (4)

Problème : la variance n’est pas connue (loi du ) :

1. La distribution normalisée suit une loi de Student de degré k-1:

2. Test d’hypothèse nulle : A et B sont équivalentes si

3. Calcul d’un intervalle de confiance de risque sur S(k) :

? ? >?=???=?????_?_??1(?)

4. Test statistique :

– Si alors A et B sont statistiquement équivalents

– Sinon si , A est meilleur que B

– Sinon B est meilleur que A

Problème des classes déséquilibrées

• Compromis optimal entre sensibilité et spécificité :

Exemples :

• classifieur « toujours positif » ??? = 1, ??é = 0

• classifieur « toujours négatif » ??? = 0, ??é = 1

• classifieur aléatoire « positif de prob. ? » ??? = ?, ??é = 1 ? ?

• Biais du taux de réussite (accuracy) par le taux de positif :

• Taux de réussite non biaisé :

Courbe ROC

(receiver operating characteristic)

Courbe ROC

(receiver operating characteristic)

0 Taux de faux positif = 1 - spécificité 1

Lien avec les courbes lift (lift chart)

• Outil utilisé en « marketing » (démarchage, etc)

– Tri des exemples par score décroissant

– Abstraction du score

– Lift chart : nombre de oui versus taille de l’échantillon

P(y=c)	y=c
0,98	oui
0,95	oui
0,93	oui
0,93	non
0,90	oui
0,83	non
0,8	non
0,8	oui
0,8	oui
0,78	non
…	…

Erreur de classification à coût variable et aide à la décision

Application où le coût de l’erreur est asymétrique

Exemples : diagnostic médical, diagnostic de pannes, etc…

Cas des classifieurs probabilistes

• Sortie : probabilité d’appartenance à chaque classe ? = ? ?=?_? ?

• Minimisation de l’espérance du coût :

= ? ?=?_? ? ??_?,?

? ?|? =?_?,? = ?^? ×?

?? =argmin ? ?|? =?_?,?

?_?

• Paradoxe : la plus grande probabilité n’est pas forcément la meilleure

?10²

CTP ? ??105

?10⁸ ?

10³

10⁴ 10⁸

104?T

104??

10⁵??

? 0,95 ? ? 1 ?

?^?0,049^? ?10⁵ ?^? 1 ^? ? yˆ ? critique

? ? ? ? ?_?0,001?_? ?_?0,1??

Mesures entropiques

Entropie :

• Positive ou nulle. Nulle si nulle p.p

• Quantifie l’incertitude d’une distribution

Distance ou divergence de Kullback-Leibler

?_?? ?,?=?_?

• Positive ou nulle. Nulle si p.p

• Pseudodistance entre distributions

Entropie croisée

• Quantifie l’incertitude qui s’ajoute à représenter p par q Logloss :

Estimation de l’entropie croisée entre les classes réelles () et la probabilité des classes prédites ()

? ?

???????=? ??_? =?log(? _?,?)

?=1 ?=1

Télécharger