Destiné aux professionnels des instituts, des cabinets de conseil, aux étudiants…, l'ouvrage fournit les techniques les plus récentes pour maximiser ses bases de données. Thierry Vallaud(*), directeur général adjoint, responsable data mining et décisionnel de Socio Logiciels, sort, aux Éditions Vuibert, "Exploration de données. Méthodes et modèles du data mining". Il s'agit de la traduction et de l'adaptation de l'ouvrage d'un professeur américain reconnu dans ce domaine, Daniel T. Larose. « Il n'existe pas beaucoup de livres sur le data mining », commente Thierry Vallaud en développant son projet: « Nous essayons de donner des clés d'entrées claires pour l'exploration des big data ». Au carrefour de l'algorithme et de la statistique, le data mining est un outil de veille stratégique qui nécessite des connaissances particulières, en mathématiques et statistiques notamment (domaines où la France manque d'experts). Destiné aux professionnels des instituts, des cabinets de conseil, aux étudiants…, l'ouvrage fournit les techniques les plus récentes pour maximiser ses bases de données et donne une vision claire sur la façon dont les algorithmes d'exploration des données fonctionnent réellement.
Data Mining trouve son utilisation dans la recherche fondamentale ainsi que dans la recherche appliquée, dans l'étude de marché, l'optimisation de la production, les soins de santé et partout où de grandes quantités de données sont générées. L'exploration de données répond généralement à des questions telles que: Quels facteurs influencent le retour d'un client sur un prêt? Quels facteurs causent une maladie particulière ou accélèrent la guérison? Quels produits une personne achètera-t-elle le plus probablement? Une telle connaissance prend en charge la planification des actions de marketing, les prévisions, la détection de la fraude, la veille économique et de nombreuses autres activités commerciales.
Quelle que soit votre approche, l'exploration de données est la meilleure collection de techniques dont vous disposez pour dégager le meilleur parti des données que vous avez déjà recueillies. Vous pouvez toujours créer vos propres outils, mais des solutions open source peuvent aussi servir de base pour effectuer ce travail. C'est le cas du projet Apache Mahout, un framework d'algorithmes linéaires basé sur un langage de domaine spécifique inspiré de Scala. Mahout permet aux data scientists de déployer des modèles de régressions, de clustering et de recommandations afin d'effectuer ce data mining. Knime, basé sur Java est également bien doté pour explorer les données. Scikit-Learn qui combine Scypy, Matpotlib et Numpy est, lui, très apprécié des data scientists familiers avec Python. Rattle ou Madlib sont plutôt avancés, mais Orange propose des fonctionnalités de modélisation à travers une interface visuelle et low-code. Quelle que soit votre approche, l'exploration de données est la meilleure collection de techniques dont vous disposez pour dégager le meilleur parti des données que vous avez déjà recueillies.
Une fois que ces données ont été travaillées et que des statistiques ont pu être établies, les administrateurs de boutiques en ligne peuvent dresser une liste de facteurs clés de succès à exploiter et mettre en œuvre différentes stratégies. Ainsi, le data mining vise à: Segmenter les marchés Analyser le contenu des paniers Dresser des profils d'acheteurs types Calculer le prix des produits Établir des pronostics Déterminer la durée des contrats Analyser la demande Identifier les erreurs dans les processus de ventes Les différentes méthodes du data mining Pour pouvoir extraire les données pertinentes à une entreprise parmi leur abondance, différentes méthodes sont mises en œuvre. Ces techniques se basent sur l'identification de liens logiques entre différents motifs et tendances, afin d'établir des statistiques. Détection des données aberrantes ( Outlier Detection): dans le domaine des statistiques, les données aberrantes sont des observations ou des valeurs qui sont qualifiées de « distantes ».
Vous pouvez comparer les achats liés aux adresses e-mail et savoir exactement comment cibler ce client. Objectif et stratégie d'entreprise expliqué sur ce guide!
La préparation des données implique les activités suivantes - Data Cleaning - Le nettoyage des données implique la suppression du bruit et le traitement des valeurs manquantes. Le bruit est supprimé en appliquant des techniques de lissage et le problème des valeurs manquantes est résolu en remplaçant une valeur manquante par la valeur la plus courante pour cet attribut. Relevance Analysis - La base de données peut également avoir les attributs non pertinents. L'analyse de corrélation est utilisée pour savoir si deux attributs donnés sont liés. Data Transformation and reduction - Les données peuvent être transformées par l'une des méthodes suivantes. Normalization - Les données sont transformées par normalisation. La normalisation implique la mise à l'échelle de toutes les valeurs pour un attribut donné afin de les faire tomber dans une petite plage spécifiée. La normalisation est utilisée lorsque dans l'étape d'apprentissage, les réseaux de neurones ou les méthodes impliquant des mesures sont utilisés.
Aujourd'hui, la fouille de données concerne l'ensemble des secteurs d'activité dès lors qu'il y a suffisamment de données à explorer. Par où commencer? Cartographiez toutes vos données accessibles, assurez-vous qu'elles sont fiables et définissez une problématique claire à étudier. Quelle infrastructure technique? Les données collectées peuvent être stockées et gérées sur des serveurs physiques ou dans le cloud. Plus la problématique étudiée est complexe, plus il faudra de données. Plus la taille de la base de données est importante et les requêtes complexes et nombreuses, plus un système puissant est requis. Quel logiciel de data mining? Le marché est dominé par de gros acteurs comme SAS avec sa solution Enterprise Miner, IBM avec SPSS ou encore Microsoft avec Microsoft Analysis Services. Pour une entreprise qui s'initie à ces méthodes d'analyse et choisit une version basique, le prix d' une application de data mining démarre autour de 15 000 euros. Ce prix monte avec la puissance du système d'information.