Cours d’introduction a la statistique big data
Cours d’introduction à la statistique big data
Introduction
1.1Un peu d’histoire
194070 – hOctets Il était une fois la Statistique : une question, (i.e. biologique), associée à une hypothèse expérimentalement réfutable, une expérience planifiée avec n 30 individus observés sur p (moins de 10) variables, un modèle linéaire supposé vrai, un test, une décision, une réponse.
1970s – kO Les premiers outils informatiques se généralisant, l’analyse des données en France, (multivariate statistics ailleurs : Mardia et al. (1979) [5]) explore, prétendument sans modèle, des données plus volumineuses.
1980s – MO En Intelligence Artificielle, les systèmes experts expirent, supplantés par l’apprentissage (machine learning) des réseaux de neurones. La Statistique aborde des modèles nonparamétriques ou fonctionnels.
1990s – GO Premier changement de paradigme. Les données ne sont plus planifiées, elles sont préalablement acquises et basées dans des entrepôts pour les objectifs usuels (i.e. comptables) de l’entreprise. L’aide à la décision les valorise : From Data Mining to Knowledge Discovery (Fayyad et al., 1996). Les logiciels de fouille regroupent dans un même environnement des outils de gestions de données, des techniques exploratoires et de modélisation statistique). C’est l’avènement du marketing quantitatif et de la gestion de la relation client (GRC ou CRM).
2000s –TO Deuxième changement de paradigme. Le nombre p de variables explose (de l’ordre de 104 à 106), notamment avec les biotechnologies omiques où p >> n. L’objectif de qualité de prévision l’emporte sur la réalité du modèle devenu “boîte noire”. Face au fléau de la dimension, Apprentissage Machine et Statistique s’unissent en Apprentissage Statistique (statistical learning, Hastie et al. 20012009) : sélectionner des modèles en équilibrant biais vs. variance ; minimiser conjointement erreurs d’approximation (biais) et erreur d’estimation (variance).
2010s – PO Troisième changement de paradigme. Dans les applications industrielles, le ecommerce, la géolocalisation... c’est le nombre n d’individus qui explose, les bases de données débordent, se structurent en nuages (cloud), les moyens de calculs se groupent (cluster), mais la puissance brute ne suffit plus à la voracité (greed) des algorithmes. Un troi sième terme d’erreur est à prendre en compte : celle d’optimisation, induite par la limitation du temps de calcul ou celle du volume / flux de données considéré. La décision devient adaptative ou séquentielle.
1.2 Contenu
Les données volumineuses sont au cœur des problématiques émergentes de recherche, en faisant notamment appel à des structures de données sophistiquées : graphes, fonctions, variétés. Chaque problème est porteur de sa propre originalité ; ils ne seront pas abordés dans ce cours qui se limite aux articulations : Statistique, Apprentissage Machine, fouille de données et donc au problème central de l’équilibre biais — variance.
Ainsi, le data mining est présenté comme la recherche d’informations pertinentes (des “pépites” d’information) pour l’aide à la décision et la prévision. Il met en œvre des techniques statistiques et d’apprentissage machine en tenant compte de la spécificité de grandes à très grandes dimensions des données.
La section 2 suivante introduit à la fouille de données tandis que la section 3 reprend ces objectifs dans le cadre général de la modélisation afin d’en élargir les champs d’application. La section 4 décrit la stratégie très généralement mise en place pour optimiser choix de méthodes et choix de modèles ; la section 5 décrit brièvement quelques exemples d’application et notamment ceux utilisés pour illustrer ce cours. Enfin, la section 6 liste rapidement les méthodes qui sont abordées et les raisons qui ont conduit à ces choix.
sées sous la terminologie de Data Mining généralement traduit par fouille de données (voir Tufféry 2007 pour un exposé “métier” plus détaillé). Cette approche, dont la présentation est principalement issue du marketing spécialisé dans la gestion de la relation client (GRC) (client relation management ou CRM), trouve également des développements et applications industrielles en contrôle de qualité ou même dans certaines disciplines scientifiques dès lors que les ingénieurs et chercheurs sont confrontés à un volume de données important. C’est même l’afflux actuel de saisies automatiques de données issues du monde industriel qui motive principalement l’émergence du Big Data parallèlement à l’explosion du ecommerce. Devant la complexité envisagée, lorsque les modèles physiques font défaut, un problème industriel peut changer de paradigme lorsque la modélisation déterministe atteint ses limites, les données recueillies massivement sont analysées pour l’aide à la décision comme ce fut le cas en marketing quantitatif avec la fouille de données du siècle dernier.
L’accroche publicitaire souvent citée par les éditeurs de logiciels (SAS) est :
Comment trouver un diamant dans un tas de charbon sans se salir les mains.
Nous proposons d’évaluer et d’expérimenter la réalité de cette annonce qui s’adresse à un marché en pleine expansion. Les entreprises sont en effet très motivées pour tirer parti et amortir, par une aide à la décision quantifiée, les coûts de stockage des téraoctets que leur service informatique s’emploie à administrer.
- Motivations du big data mining
2.1 Origine
Le développement des moyens informatiques et de calcul permet le stockage (bases de données), le traitement et l’analyse d’ensembles de données très volumineux. Plus récemment, le perfectionnement des logiciels et de leurs interfaces offrent aux utilisateurs, statisticiens ou non, des possibilités de mise en œuvre très simples de ces méthodes. Cette évolution, ainsi que la popularisation de nouvelles techniques algorithmiques (réseaux de neurones, support vector machine...) et outils graphiques, conduit au développement et à la commercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...) intégrant un sousensemble de méthodes statistiques et algorithmiques utili
2.2 Environnement
Le contexte informationnel de la fouille de données est donc celui d’un système de bases de données, classique relationnel ou non, dont la mise en place est assurée par le gestionnaire de données (data manager) en relation avec une problématique :
gestion des stocks (flux tendu), des ventes d’un groupe afin de prévoir et anticiper au mieux les tendances du marché,
suivi des fichiers clients d’une banque, d’une assurance, associés à des données socioéconomiques (INSEE), à l’annuaire, en vue de la constitution d’une segmentation (typologie) pour cibler des opérations de marketing ou des attributions de crédit. La gestion de la relation client (GRC ou CRM) vise à une individualisation ou personnalisation de la production et de la communication afin d’évacuer la notion de client moyen.
recherche, spécification puis ciblage de niches de marché les plus profitables (banque) ou au contraire les plus risquées (assurance) ; suivi en ligne des paramètres de production (traçabilité) en contrôle de qualité pour détecter au plus vite l’origine d’une défaillance ; prospection textuelle (text mining) et veille technologique ; web mining, comportement des internautes et ecommerce ; . . .
Cet environnement se caractérise par une informatique hétérogène faisant intervenir des sites distants à travers le réseau de l’entreprise (intranet) ou même des accès extérieurs (internet). Des contraintes d’efficacité, de fiabilité ou de sécurité conduisent à répartir, stocker l’information à la source plutôt qu’à la dupliquer systématiquement ou à la centraliser.
L’incompatibilité logique des informations observées sur des échantillons différents ne présentant pas les mêmes strates, les mêmes codifications.
Des volumes et flux considérables de données issues de saisies automatisées et chiffrés en téra maintenant pétaoctets.
Contrairement à une démarche statistique traditionnelle (planification de l’expérience), les données analysées sont stockées à d’autres fins (comptabilité, contrôle de qualité...) et sont donc préalables à l’analyse.
La nécessité de ne pas exclure a priori un traitement exhaustif des données afin de ne pas laisser échapper, à travers le crible d’un sondage, des groupes de faibles effectifs mais à fort impact économique.
2.3 Big Data vs. Data Mining
La communication, les noms changent mais fondamentalement les méthodes restent. Le traitement des grandes masses de données, associé au "nouveau" métier de data scientist, occupe une grande place dans les médias notamment en relation avec les risques annoncés et réels du contrôle d’internet par big brother. Beaucoup d’entreprises et de formations suivent le mouvement en renommant les intitulés sans pour autant se placer dans le cadre de grandes masses de données nécessitant des traitements spécifiques. Celuici devient effectif à partir du moment où le volume et le flux de données imposent une parallélisation des tâches : les données sont réparties en nœuds, chacun associé à un processeur ou calculateur relié aux autres par un réseau haut débit au sein d’un cluster. Les mots clefs et outils de cette architecture sont Hadoop et Map Reduce, NoSQL. Hadoop est un projet de la fondation logicielle Apache (open source en java) destiné à faciliter la création d’applications distribuées et échelonnables. Un algorithme, une méthode est dite échelonnable (scalable) si le temps de calcul est divisé par le nombre de processeurs (nœuds) utilisés ce qui permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Le principe, initié par Google et Yahoo, est de répartir les tâches parallèles (Map) puis d’intégrer (Reduce) tous les résultats obtenus. Exemple très élémentaire : chaque nœud calcule la moyenne d’une variable avant de calculer la moyenne des moyennes. Bien entendu, toute méthode statistique ou d’apprentissage n’est pas scalable ou au pris d’un algorithme stochastique plus sophistiqué. D’autre part les requêtes complexes comme celle de SQL sont impossibles. D’autres systèmes dits NoSQL (not only SQL, Cassandra, MongoDB, Voldemort...), développés à l’origine par des grands sites comme Amazon, eBay, reposent également sur un système de fragmentation (sharding) des données tout en autorisant des possibilités de requêtes intermédiaires avec SQL. Bien entendu les principaux acteurs commerciaux historiques comme (Oracle) prennent position de façon complémentaire ou concurrente avec ces systèmes émergents.
Confronté à cette problématique, il appartient au statisticien data scientist de s’initier aux interfaces d’accès à une architecture Hadoop ou NoSQL, notamment par l’utilisation d’outils comme Mahout ou RHadoop... optimiser sa stratégie : sonder dans les données et se ramener à des méthodes usuelles ou traiter les données de façon exhaustives uniquement avec une technique scalable. Comment intervient un erreur introduite par sondage par rapport à celle de la méthode utilisée ? prendre en compte, ou non, les aspects temporels dus aux flux de données : estimer des modèles sur une fenêtre glissante, adopter des algorithmes adaptatifs ?
Aborder de nouveaux (Scala, Clojure) anciens (basés sur Lisp) langages de programmation pour développer ou redévelopper des méthodes d’apprentissage directement parallélisables. C’est en effet ce que permettent ces langages fonctionnels par opposition aux langages objet (C, java...).
Nécessairement limité, ce cours, niveau M2, ne peut aborder ces dernières questions. Il ne peut non plus aborder celles liées à la complexité des données industrielles ou issues de la recherche (biologique, médicale...) qui ouvrent souvent sur des problèmes originaux. Il peut s’agir alors de traiter non plus des tableaux ou matrices de données mais des saisies automatiques de courbes, signaux spectres, images, graphes... De telles structures posent un problème préalable de base de représentation (fourier, splines, ondelettes...) fonction de la nature des données et de l’objectif recherché. Voir par exemple le scénario d’analyse de spectres RMN décomposés sur une base d’ondelettes pour la détection de métabolites "biomarqueurs".
Il est important de noter que, s’il a une formation de base en Mathématiques et Statistique, le nouveau data scientist voit arriver avec une certaine sérénité la vague ou le tsunami du Big Data. Certes un travail informatique amont, perpétuellement renouvelé face à l’obsolescence rapide tes technologies, est important pour stocker les données et rendre exécutable les méthodes mais, conceptuellement, la Mathématique nécessaire prend déjà en compte des tailles et dimensions infinies pour les modèles considérés dans des espaces hilbertiens. Muni de ce bagage pérenne, il peut accompagner et suivre la recherche en développement.
- Apprentissage statistique
Un peu de recul permet d’inscrire la démarche de la fouille de données dans un contexte plus large et donc potentiellement plus propice à d’autres domaines d’application.
3.1 Objectif général
Dès qu’un phénomène, qu’il soit physique, biologique ou autre, est trop complexe ou encore trop bruité pour accéder à une description analytique débouchant sur une modélisation déterministe, un ensemble d’approches ont été élaborées afin d’en décrire au mieux le comportement à partir d’une série d’observations. Voici quelques exemples de problèmes d’apprentissage :
identifier les facteurs de risque d’un certain type de cancer, en fonction de variables cliniques et démographiques, rechercher des gènes potentiellement impliqués dans une maladie à partir de données de biopuces ou plus généralement des biomarqueurs pour un diagnostic précoce, identifier des chiffres manuscrits sur un code postal à partir d’une image digitalisée, prévoir le prix d’un stock dans 6 mois à partir de mesures de performance de l’entreprise et de données économiques, prévoir un taux de pollution atmosphérique en fonction de conditions météorologiques , prévoir une courbe de consommation électrique pour un client EDF en fonction de variables climatiques et de caractéristiques spécifiques à ce client, Gestion de la relation client (GRC ou CRM) et scoring en marketing quantitatif, maintenance préventive à partir de relevés d’incidents, construire un modèle de substitution à un code numérique complexe qui permet de prédire une carte de concentration d’un polluant dans un sol un an après un rejet accidentel en fonction de la carte initiale et des caractéristiques du sol (porosité, perméabilité...). L’objectif est de réaliser une analyse de sensibilité.
Historiquement, la Statistique s’est beaucoup développée autour de ce type de problèmes et a proposé des modèles incorporant d’une part des variables explicatives ou prédictives et, d’autre part, une composante aléatoire ou bruit. Il s’agit alors d’estimer les paramètres du modèle à partir des observations en contrôlant au mieux les propriétés et donc le comportement de de la partie aléatoire. Dans la même situation, la communauté informatique parle plutôt d’apprentissage visant le même objectif ; apprentissage machine (ou machine learning), reconnaissance de forme (pattern recognition) en sont les principaux motsclefs.
L’objectif général est donc un objectif de modélisation qui peut se préciser en sousobjectifs à définir clairement préalablement à une étude car ceuxci conditionnent en grande part les méthodes qui pourront être mises en œuvre :
Modéliser pour explorer ou vérifier, représenter, décrire, les variables, leurs liaisons et positionner les observations de l’échantillon, expliquer ou tester l’influence d’une variable ou facteur dans un modèle supposé connu a priori, prévoir & sélectionner un meilleur ensemble de prédicteurs comme par exemple dans la recherche de biomarqueurs, prévoir par une éventuelle meilleure “boîte noire” sans besoin d’interprétation explicite.
Des paramètres importants du problème sont les dimensions : n nombre d’observations ou taille de l’échantillon et p nombre de variables observées sur cet échantillon. Lorsque les méthodes statistiques traditionnelles se trouvent mises en défaut pour de grandes valeurs de p, éventuellement plus grande que n, les méthodes récentes d’apprentissage sont des recours pertinents car efficaces.
Enfin, les stratégies de choix de modèle parmi un ensemble plus ou moins complexe, de choix de méthode, sont au cœur de la problématique de ce cours. L’étude de la fouille de données se focalise donc sur les pratiques ou méthodes à l’interface de l’apprentissage machine et de la Statistique. Les développements méthodologiques à cette interface ont pris depuis le début du siècle la dénomination d’apprentissage statistique ; Hastie et al. (2009) en proposent un tour d’horizon assez exhaustif.
Attention, d’autres objectifs d’une fouille de données ou d’extensions de ces techniques, ne sont pas pris en compte dans celui d’une modélisation au sens statistique précédent et donc dans ce cours d’apprentissage statistique. Cela concerne la
classification nonsupervisée ou clustering traité par ailleurs et rappelé cidessous.
recherche de règles d’associations ou problème du panier de la ménagère. Méthode qui consiste à identifié les cooccurences les plus fréquentes ou significatives par un ensemble de règles logiques associant variables et valeurs de cellesci.
Les Sytèmes de recommandation : ou modèles de bandits manchots pour déterminer et afficher sur un site de ecommerce les articles complémentaires susceptibles d’intéresser le visiteur.
3.2 Problématiques
Supervisé vs. nonsupervisé
Distinguons deux types de problèmes : la présence ou non d’une variable à expliquer Y ou d’une forme à reconnaître qui a été, conjointement avec X, observée sur les mêmes objets. Dans le premier cas il s’agit bien d’un problème de modélisation ou apprentissage supervisé : trouver une fonction f susceptible, au mieux selon un critère à définir, de reproduire Y ayant observé
X. Y = f(X) + "
où " symbolise le bruit ou erreur de mesure avec le parti pris le plus commun que cette erreur est additive. En cas d’erreur multiplicative, une transformation logarithmique ramène au problème précédent.
Dans le cas contraire, en l’absence d’une variable à expliquer, il s’agit alors d’apprentissage dit nonsupervisé. L’objectif généralement poursuivi est la recherche d’une typologie ou taxinomie des observations : comment regrouper cellesci en classes homogènes mais les plus dissemblables entre elles. C’est un problème de classification (clustering).
Attention, l’anglais classification se traduit plutôt en français par discrimination ou classement (apprentissage supervisé) tandis que la recherche de classes (clustering) (apprentissage nonsupervisé) fait appel à des méthodes de classification ascendante hiérarchique, des algorithmes de réallocation dynamique (kmeans) ou encore des cartes autoorganisatrices (Kohonen).
Dans ce cours, nous allons nous intéresser essentiellement à l’apprentissage supervisé, pour lequel on dispose d’un ensemble d’apprentissage constitué de données d’observations de type entréesortie : dn1 = f(x1; y1); : : : ; (xn; yn)g avec xi 2 X quelconque (souvent égal à Rp), yi 2 Y pour i = 1 : : : n
L’objectif est de construire, à partir de cet échantillon d’apprentissage, un modèle, qui va nous permettre de prévoir la sortie y associée à une nouvelle entrée (ou prédicteur) x. La sortie y peut être quantitative (prix d’un stock, courbe de consommation électrique, carte de pollution ..) ou qualitative (survenue d’un cancer, reconnaissance de chiffres...).
sorties quantitatives | sorties qualitatives |
Y Rp | Y fini |
# | # |
régression | discrimination, classement, |
reconnaissance de forme |
Nous parlerons de régression réelle lorsque Y R et de la discrimination binaire lorsque Y = f 1; 1g.
Estimation vs. apprentissage
Tout au long de ce document, les termes de estimation et d’apprentissage sont utilisés comme des synonymes ce qui est abusif tant que les objectifs d’une étude n’ont pas été clairement explicités. Dans la tradition statistique, la notion de modèle est centrale surtout avec une finalité explicative. Il s’agit alors d’approcher la réalité, le vrai modèle, supposé exister, éventuellement basé sur une théorie physique, économique, biologique... sousjacente et la forme du modèle est guidée par des indications théoriques et des critères d’ajustement ; les décisions de validité, de présence d’effets sont basées sur des tests reposant ellesmêmes sur des hypothèses probabilistes. L’interprétation du rôle de chaque variable explicative est prépondérante dans la démarche.
En revanche, si l’objectif est essentiellement la prévision, il apparaît que le meilleur modèle n’est pas nécessairement celui qui ajusterait le mieux le vrai modèle. La théorie de l’apprentissage (Vapnik, 1999) montre alors que le cadre théorique est différent et les majorations d’erreur requièrent une autre approche. Les choix sont basés sur des critères de qualité de prévision visant à la recherche de modèles parcimonieux, c’estàdire de complexité (nombre de paramètres ou flexibilité limitée) dont l’interprétabilité passe au deuxième plan. La deuxième devise (cf. figure 1) des Shadoks n’est pas une référence à suivre en apprentissage statistique !
Discrimination vs. régression
Le type des variables statistiques considérées diffèrent selon l’espace dans lequel elles prennent leurs valeur. Elles peuvent être qualitatives à valeurs dans un ensemble de cardinal fini ou quantitatives à valeurs réelles voire fonctionnelles. Certaines méthodes d’apprentissage ou de modélisation s’adaptent à tout type de variables explicatives tandis que d’autres sont spécialisées. Enfin, si Y à expliquer est qualitative, on parle de discrimination, classement ou reconnaissance de forme tandis que si Y est quantitative on parle, par habitude, d’un problème de régression. Dans ce cas encore, certaines méthodes sont spécifiques (régression linéaire, analyse discriminante) tandis que d’autres s’adaptent sans modification profonde remettant en cause leur principe (réseaux de neurones, arbres de décision. . . ).
…
Statistique, informatique et taille des données
Lorsque les dimensions du problèmes (n; p) sont raisonnables et que des hypothèses relatives au modèle (linéarité) et aux distributions sont vérifiées c’estàdire, le plus souvent, lorsque l’échantillon ou les résidus sont supposés suivre des lois se mettant sous la forme d’une famille exponentielle (gaussienne, binomiale, poisson. . . ), les techniques statistiques de modélisation tirées du modèle linéaire général sont optimales (maximum de vraisemblance) et, surtout dans le cas d’échantillons de taille restreinte, il semble difficile de faire beaucoup mieux.
En revanche, dès que les hypothèses distributionnelles ne sont pas vérifiées, dès que les relations supposées entre les variables ou la variable à modéliser ne sont pas linéaires ou encore dès que le volume des données (big data) est important, d’autre méthodes viennent concurrencer l’approche statistique classique.
Prenons un exemple simple : expliquer une variable quantitative Y par un ensemble fX1; : : : ; Xpg de variables également quantitatives :
Y = f(X1; : : : ; Xp) + ":
observées sur un échantillon (yi; xi); i = 1; : : : ; n de taille n. Si la fonction f est supposée linéaire et p petit, de l’ordre d’une dizaine ; le problème est bien connu et largement débattu dans la littérature. Dans le cas où la fonction f n’est pas franchement linéaire et n grand, il est possible d’estimer précisément un nombre plus important de paramètres et donc d’envisager des modèles plus sophistiqués. Si on s’en tient au modèle gaussien usuel, même le cas le plus simple d’un modèle polynomial devient vite problématique. En effet, lorsque la fonction f est linéaire, prenons p = 10, la procédure de choix de modèle est confrontée à un ensemble de 210 modèles possibles et des algorithmes astucieux permettent encore de s’en sortir. En revanche, considérer, pour estimer f, un simple polynôme du deuxième voire troisième degré avec toutes ses interactions, amène à considérer un nombre considérable de paramètres et donc, par explosion combinatoire, un nombre astronomique de modèles possibles. D’autres méthodes doivent alors être considérées en prenant en compte nécessairement la complexité algorithmique des calculs. Ceci explique l’implication d’une autre discipline, l’informatique, dans cette problématique. Le souci de calculabilité l’emporte sur la définition mathématique du problème qui se ramène à l’optimisation d’un critère d’ajustement de la fonction f sur un ensemble de solutions plus ou moins riche. Ces méthodes ont souvent été développées dans un autre environnement disciplinaire : informatique, intelligence artificielle. . . ; k plus proches voisins, réseaux de neurones, arbres de décisions, support vector machine deviennent des alternatives crédibles dès lors que le nombre d’observations est suffisant ou le nombre de variables très important.
3.3 Stratégies de choix
Choix de méthode
Avec le développement du data mining, de très nombreux articles comparent et opposent les techniques sur des jeux de données publics et proposent des améliorations incrémentales de certains algorithmes. Après une période fiévreuse où chacun tentait d’afficher la suprématie de sa méthode, un consensus s’est établi autour de l’idée qu’il n’y a pas de “meilleure méthode”. Chacune est plus ou moins bien adaptée au problème posé, à la nature des données ou encore aux propriétés de la fonction f à approcher ou estimer. Sur le plan méthodologique, il est alors important de savoir comparer des méthodes afin de choisir la plus pertinente. Cette comparaison repose sur une estimation d’erreur (de régression ou de classement) qu’il est nécessaire de conduire avec soin.
Choix de modèle : équilibre biaisvariance
Tous les auteurs s’accordent pour souligner l’importance qu’il y a à construire des modèles parcimonieux quelque soit la méthode utilisée. Toutes les méthodes sont concernées : nombre de variables explicatives, de feuilles dans un arbre ou de neurones dans une couche cachée. . . . Seuls les algorithmes de combinaison de modèles (bagging, boosting) contournent cette étape au prix d’un accroissement sensible du volume des calculs et surtout de l’interprétabilité des résultats obtenus.
L’alternative est claire, plus un modèle est complexe et donc plus il intègre de paramètres et plus il est flexible donc capable de s’ajuster aux données engendrant ainsi une erreur faible d’ajustement. En revanche, un tel modèle peut s’avérer défaillant lorsqu’il s’agira de prévoir ou généraliser, c’estàdire de s’appliquer à des données qui n’ont pas participé à son estimation.
L’exemple élémentaire de la figure 2 illustre ce point fondamental dans le cas d’un problème de discrimination dans R2. Une frontière dont le modèle "vrai" est quadratique est, à cause d’"erreurs de mesure" sousajustée par une régression linéaire mais surajustée par un polynôme de degré plus élevé ou l’algorithme local des k plus proches voisins.
Ce problème s’illustre aussi facilement en régression classique. Ajouter des variables explicatives dans un modèle ne peut que réduire l’erreur d’ajustement (le R2) et réduit le biais si le “vrai” modèle est un modèle plus complet. Mais, ajouter des variables fait rédhibitoirement croître la variance des estimateurs et donc celle des prévisions qui se dégradent, voire explosent, avec la multicolinéarité des variables explicatives. Un risque pour le modèle, ou erreur quadratique de prévision, s’exprimant comme le carré du biais plus la variance, il est important d’optimiser le dosage entre biais et variance en contrôlant le nombre de variables dans le modèle (sa complexité) afin de minimiser le risque. Ces remarques conduisent à la définition de critères de choix de modèle dont le Cp de Mallows fut un précurseur en régression suivi par d’autres propositions : Akaïke (AIC), Schwartz (BIC). . .
Parfois plus que celui de la méthode, le choix du bon modèle dans une classe ou ensemble de modèles pour une méthode donnée est primordial. En conséquence, les problèmes d’optimisation considérés doivent mettre en œuvre un critère qui prend en compte la complexité du modèle, c’estàdire la complexité de l’espace ou de la classe dans lequel la solution est recherchée.
Choix de modèle : sélection vs. régularisation
Selon la méthode considérée, la complexité du modèle s’exprime de différentes façons. Simple lors d’une sélection de variable en régression linéaire, la complexité est directement liée à la dimension de l’espace engendré et donc au nombre de variables. Les choses se compliquent pour les modèles nonlinéaires lorsque, à dimension fixée, c’est la plus ou moins grande flexibilité des solutions qui doit être pénalisée.
C’est typiquement le cas en régression nonparamétrique ou fonctionnelle. Une pénalisation faisant intervenir la norme carrée de la dérivée seconde contrôle la flexibilité d’un lissage spline. La “largeur de fenêtre” du noyau contrôle également la régularité de la solution. En régression linéaire, si le nombre et les variables sont déterminés, la version “ridge” de la régression pénalise la norme carrée du vecteur des paramètres et restreint ainsi, par régularisation, l’espace des solutions pour limiter l’effet de la multicolinéarité.
Enfin, pour aborder en toute généralité les situations les plus compliquées, Vapnik (1999) a formalisé la théorie de l’apprentissage en introduisant une notion particulière de dimension pour toute famille de modèles.