Formation de base machine learning et data mining pour debutant
Certificat Data Science
Université Paris-Dauphine
Introduction
L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ?
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Plan
Introduction
L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ?
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Le Machine Learning et Data Mining, qu’est-ce que c’est?
Question de vocabulaire (1)
Attention :
I historiquement : plusieurs « points de départ » I domaine récent dont le vocabulaire n’est pas fixé
I évolution rapide
I domaine applicatif versus domaine de recherche
Question de vocabulaire (2)
| I reconnaissance des formes (pattern recognition) I analyse de données I apprentissage automatique (machine | I fouille de données (data mining) I intelligence artificielle I statistique I |
learning)
⇒ domaines différents avec des intersections plus ou moins grandes
Data Sciences
Dans ce cours
Définition
Ensemble de techniques permettant l’extraction de connaissances sous la forme de modèles à partir de grandes masses de données
Ces modèles peuvent être de nature
I descriptive : permettant d’expliquer le comportement actuel des données I prédictive : comportement futur des données.
Plan
Introduction
L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ?
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
I tous les textes et discussion du parlement européen sont disponibles I avec leur traduction/interprétation
I corpus parallèle : les phrases sont alignés
I utilisable pour apprendre :
I des dictionnaires
I des systèmes de traduction automatique
I des mémoires de traduction I ⊕ analyse « politique » des données
Et encore
I Smart Cities
I Analyse de traffic : RFF/SNCF place des capteurs tout les 100m sur les rails souhaitant suivre en temps réel l’état de son réseau
I Analyse de qualité de partenariat : cadres, signature d’un contrat avec un prestataire, pour une qualité de service et de respect de normes nationales ou supra-nationales. =⇒ étude des publications, presse, dépêches, tweets + information interne pour quantifier les cas de non respect ou de respect des engagements.
I Historique des passages de frontières, etc.
Pourquoi l’ADM?
Une grosse quantité de données qui n’est jamais analysée
⇒ mettre en place des mécanismes d’analyse automatique.
Big Data
ADM : composants de base
Grande quantité de données + algorithmes efficaces
Un domaine qui s’appuie sur :
ILa disponibilité de grandes quantités de données
I Si ensemble trop petit, les structures peuvent ne résulter que du hasard.
I On peut espérer qu’un gros volume de données représente bien l’univers
(échantillon).
IDes algorithmes sûrs et efficaces
I Algorithmes sûrs : fondés théoriquement, corrects.
I Efficaces en temps et en espace.
I Résultats interprétables.
I Paramètres ajustables facilement et rapidement.
Plan
Introduction
L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ?
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Les données?
Les données peuvent être vues comme une collection d’objets (enregistrements) et leurs attributs.
I Un attribut est une propriété et ou une caractéristique de l’objet.
I Un ensemble d’attributs décrit un objet.
Attribut - valeur
I La valeur d’un attribut est un nombre ou un symbole.
I Ne pas confondre attribut et valeur
Types
I Quantitative (numérique, exprime une quantité)
I Discrète (ex : nombre d’étudiants dans un cours) ou continue (ex : longueur)
I Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle (température, QI)
I Qualititative
I Variable ordinale (classement à un concours, échelle de satisfaction client)
I Variable nominale (couleur de yeux, diplôme obtenu, CSP, sexe)
I Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les données ex : les modalités de notes sont {0, 1, 2,··· , 20} les modalités de couleur sont
{bleu,vert,noir, }
Exemple de données disponibles
I Transactions.
I Bases de données des entreprises.
I Téléphone portable.
I Satellites : espace et la terre.
I Données temporelles : cours de la bourse, météo.
I Génomique.
I Données du web.
I Données textuelles. I
Types de connaissances extraites
Plan
Introduction
L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ?
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Types de connaissances extraites
Types de connaissances extraites
Connaissances sous la forme de modèles de permettant de
Idécrire le comportement actuel des données et/ou Iprédire le comportement futur des données.
I Analyses
I e.g. distribution du trafic routier en fonction de l’heure
I Règles
I e.g. si un client a acheté un produit alors il sera intéressé par un autre.
I Attribution de scores de qualité
I e.g. score de fidélité au client
I Classification d’entités
I e.g. mauvais payeurs.
Plan
Introduction
L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ?
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Typologie selon l’objectif
I Classification : examiner les caractéristiques d’un objet et lui attribuer une classe.
e.g. diagnostic ou décision d’attribution de prêt à un client.
I Prédiction : prédire la valeur future d’un attribut en fonction d’autres attributs.
e.g. prédire la qualité d’un client .
I Association : déterminer les attributs qui sont corrélés.
e.g. analyse du panier de la ménagère
I Segmentation : former des groupes homogènes à l’intérieur d’une population.
Typologie selon le type de modèle obtenu
I Modèles prédictifs.
I Utilisent les données existantes et des résultats connus sur ces données pour développer des modèles capables de prédire les valeurs d’autres données. e.g. Prédire les clients qui ne rembourseront pas leur crédit.
I Utilisés principalement en classification et prédiction.
I Modèles descriptifs.
I Proposent des descriptions de données pour aider à la prise de décision.
I Souvent en amont de la construction de modèles prédictifs.
I Utilisés principalement en segmentation et association.
Typologie selon le type d’apprentissage utilisé
I Apprentissage supervisé : fouille supervisée
I Processus qui prend en entrée des exemples d’apprentissage contenant à la fois des données d’entrée et de sortie.
I Les exemples d’apprentissage sont fournis avec leur classe.
I But : classer correctement un nouvel exemple.
I Utilisés principalement en classification et prédiction.
I Apprentissage non supervisé : fouille non supervisée
I Processus qui prend en entrée des exemples d’apprentissage contenant que des données d’entrée
I Pas de notion de classe
I But : regrouper les exemples en paquets (clusters) d’exemples similaires.
I Utilisés principalement en segmentation et association.
Dans ce cours, nous adoptons la typologie selon le type d’apprentissage utilisé.
Plan
Introduction
L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ?
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Principe : étant donné un ensemble de données étiquetées
S = {hxi,yii,i = 1,··· ,n}, apprendre une fonction qui associe les données aux étiquettes :
f∈F
X 3 x −→ y ∈ Y
I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires
Principe : étant donné un ensemble de données étiquetées
S = {hxi,yii,i = 1,··· ,n}, apprendre une fonction qui associe les données aux étiquettes :
f∈F
X 3 x −→ y ∈ Y
I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27/42
Principe : étant donné un ensemble de données étiquetées
S = {hxi,yii,i = 1,··· ,n}, apprendre une fonction qui associe les données aux étiquettes :
f∈F
X 3 x −→ y ∈ Y
I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27/42
Principe : étant donné un ensemble de données étiquetées
S = {hxi,yii,i = 1,··· ,n}, apprendre une fonction qui associe les données aux étiquettes :
f∈F
X 3 x −→ y ∈ Y
I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27/42
Principe : étant donné un ensemble de données étiquetées
S = {hxi,yii,i = 1,··· ,n}, apprendre une fonction qui associe les données aux étiquettes :
f∈F
X 3 x −→ y ∈ Y
I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires Examiner les caractéristiques d’un objet et lui attribuer une classe (un champ particulier à valeurs discrètes).
I Etant donnée une collection d’enregistrements (ensemble d’apprentissage).
I Chaque enregistrement contient un ensemble d’attributs et un de ces attributs est sa classe.
I Trouver un modèle pour l’attribut classe comme une fonction de la valeurs des autres attributs
I But : permettre d’assigner une classe à des enregistrements inconnus de manière aussi précise que possible.
I Un ensemble de test est utilisé pour déterminer la précision du modèle.
Classification : exemple
Classification : exemples d’applications
Marketing direct
I But : réduire le coût du mailing en ciblant un ensemble de consommateurs qui achèteront vraisemblablement un nouveau téléphone portable.
I Approche :
I Utiliser des données pour un produit similaire.
I On sait quels consommateurs ont acheté. La décision (Achat - Pas achat) est l’attribut classe.
I Collecter diverses informations sur ce type de consommateurs.
I Cette information représente les entrées du classifier.
Classification : exemples d’applications
Plan
Introduction
L’ADM, qu’est-ce que c’est ? L’ADM, pourquoi ?
Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
Apprentissage non-supervisé
34/42
Comp.1
34/42
34/42 34/42
Partitionnement : exemples d’applications
Association : exemples d’applications
Association : exemples d’application
Organisation de la session
Organisation de la session
Résumé
I connaissances
masse de don-I informations nées (corpus)
I prédictions
Logiciels d’ADM
























