Projet Webmaster
Gestion de projets web ntic

Du concept au projet informatique - De la maîtrise d’oeuvre à la maîtrise d’ouvrage

Web-ntic MOE MOA > Dictionnaires et glossaires > Glossaire du Datamining

Glossaire du Datamining

jeudi 20 mars 2003, par km

Définitions à connaître dans le domaine du datamining et du datawarehouse.

TermeDéfinition
Arbre de décision Technique visuelle permettant de diviser des données en groupes basés sur les valeurs des variables. Elle permet de déterminer les variables significatives pour une variable donnée.
Batch Dans les outils de Data Mining, le batch permet d’explorer de grandes masses de données à des heures creuses, sans trop solliciter le poste de l’utilisateur.
Catégorie valeur prise par une variable discrète.
Classification Deux types de classification existent :
  • soit classer des éléments dans des classes connues (par exemple les bons et les mauvais clients). On parlera aussi d’apprentissage supervisé.
  • soit de regrouper les éléments ayant des comportements similaires dans des classes, inconnues au départ. On parlera alors de clustering, de segmentation ou d’apprentissage non supervisé.
Clustering Cf. classification.
Continue
(variable)
variable pouvant prendre un nombre illimité de valeurs (par exemple, un réel).
Data Mining
(outils de)
Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data mining permettent d’extraire de la connaissance des données en découvrant des modèles, des règles dans le volume d’information présent dans les entreprises.
Data Warehouse " Entrepôt de données ". Base de données spécifique au monde décisionnel et destinée principalement à analyser les leviers " business " potentiels.D’après Bill Inmon, un Data Warehouse est intégré, orienté sujet et contient des données non volatiles et historisées
DataWarehousing Processus de mise en oeuvre d’un projet de Data Warehouse.
Découverte de règles Les outils permettant de découvrir des règles vont partir d’une hypothèse et la tester au travers de requêtes et de statistiques puis la modifier en fonction des résultats. Ces systèmes vont scruter la base de données, forger des hypothèses et, si elles sont vérifiées, les remonter à l’utilisateur.
Dépendante (variable) Variable cible de l’analyse de Data Mining, notamment pour les arbres de décision.
Détection de déviations Des outils permettent de détecter sur un ensemble de données celles présentant des déviations par rapport à des normes et des indicateurs de référence décrits antérieurement.
Dimension Axe d’analyse associé aux indicateurs ; correspond le plus souvent aux sujets d’intérêts du Data Warehouse ; exemple : dimension temporelle, dimension client...
Discrète
(variable)
Variable prenant ses valeurs (cf. catégorie) dans un ensemble limité.
Échantillon Ensemble de données tiré, aléatoirement ou non, du Data Warehouse et permettant d’effectuer des tests et des recherches sur des volumes restreints.
EIS
Executive Information Systems
Executive Information System (littéralement, système d’information des cadres). Environnement de présentation de tableau de bord présentant de manière synthétique et graphiques les performances d’une activité (ex : santé d’une entreprise, bilan des ventes...).
Element Les données étudiées dans un Data Warehouse se décomposent en lignes et en colonnes. Chacune des lignes représente un élément de la base de données, un individu.
Forecasting Technique consistant à prévoir le comportement d’une variable par rapport à ses attitudes passées.
Génétique
(algorithme)
Un algorithme génétique est un algorithme lent, représentant les modèles comme des gènes et des opérateurs génétiques et les faisant évoluer soit par mutation (un gène au hasard est remplacé), soit par cross-over (la place de deux sous-arbres est échangées).
Il est surtout utilisé pour optimiser les paramètres associés à des outils de prédiction ou de classification.
Hétérogénéité Caractère d’un système global intégrant plusieurs types de machines ou de SGBD. Dans un monde parfait, le système hétérogène, très souvent distribué, doit être transparent pour l’utilisateur afin d’intégrer automatiquement les systèmes existants d’une entreprise.
Indicateur Information permettant de mesurer la performance de telle ou telle activité de l’entreprise (ventes, gestion des stocks...). La plupart du temps, cette information est numérique (ex : chiffre d’affaires, quantité en stock...).
Induction Méthode consistant à tirer une conclusion d’une série de faits. Cette conclusion ne sera jamais sûre à 100 %.
Intégrité Ensemble de contraintes appliquées aux mises à jour d’une base de donnée permettant de garantir la cohérence des données. Ces contraintes peuvent être des listes de valeurs à respecter (non-nullité et intégrité de domaine) ou bien des liens entre des tables (intégrité référentielle). Par exemple, une commande doit forcément référencer un client : le numéro de client inséré dans une ligne de la table commande doit exister dans la table client.
Jointure Rapprochement entre deux tables par comparaison de valeurs communes, sur la base d’un attribut commun.
Méta-données " Donnée décrivant une donnée ".
MPP
Massively Parallel Processing
Architecture matérielle faisant collaborer plusieurs processeurs (plusieurs centaines) possédant chacun sa propre mémoire.
Nearest Neighbor
(ou Knn)
Méthode du plus proche voisin utilisée pour faire de la classification supervisée. Elle consiste à examiner les éléments, dont la classe est connue, proches de l’élément dont on veut déterminer la classe.
ODBC
Open DataBase Connectivity
Interface d’accès aux SGBD (API + langage SQL) définie par Microsoft en 1992 et basée sur le standard CLI. Du fait de son succès auprès des utilisateurs et des éditeurs, ODBC est devenu un standard de fait. Il permet d’accéder à des SGBD d’éditeurs différents en utilisant la même interface de programmation. Plusieurs niveaux (Level 1 et Level 2) existent dans l’API correspondant aux niveaux de fonctionnalités.
OLAP
On Line
Analytical Processing
Caractérise l’architecture nécessaire à la mise en place d’un système d’information décisionnel. S’oppose à OLTP (On Line Transaction Processing), adressant les systèmes d’information transactionnels. OLAP est souvent utilisé pour faire référence exclusivement aux bases de données multidimensionnelles. En effet, le concept a été formalisé par le Dr Codd, sous la forme de douze règles, décrivant un modèle idéal d’analyse d’information. Il a été montré depuis qu’il a été possible de respecter ces règles indépendamment de la structure de stockage utilisée.De plus en plus, le terme est souvent utilisé pour désigner plus généralement le décisionnel dans ses aspects techniques.
Poste Client Poste de travail Utilisateur : machine déportée qui supporte le dialogue interactif avec l’utilisateur ou les applications, mais aussi les outils de présentation, d’infocentre et de développement.
Référentiel Structure de stockage des méta-données. Un référentiel fédère ces méta-données, contrairement aux catalogues, qui sont en général spécifiques à chaque outil. On distingue le " Data Warehouse Repository ", fédérant les méta-données de la base décisionnelle, de l’" Enterprise Repository ", qui inclue dans la théorie toutes les méta-données de l’entreprise, aussi bien transactionnelles que décisionnelles.
Relation causale Relation de cause à effet entre des variables. Ainsi, la modification d’une variable A pourra entraîner la modification d’une variable B.
Requête Demande envoyée au gestionnaire de Base de Données serveur. Si celui-ci permet la gestion des données, le langage utilisé est le SQL. Dans un contexte d’infocentre, l’exécution des questions sur un serveur est le plus souvent interprété.
Réseau neuronal Processus opaque permettant à partir de valeurs en entrée de découvrir une valeur en sortie.
Les réseaux neuronaux sont constitués de neurones, aussi appelés noeuds, et d’interconnexions entre ces noeuds, liens permettant d’envoyer des signaux de neurone à neurone.
Un réseau de neurone a pour caractéristique de pouvoir apprendre et mettre à profit son expérience pour ajuster le modèle trouvé en fonction, par exemple, de l’arrivée de nouveaux éléments.
Segmentation Cf. classification
Serveur Composant logiciel et/ou matériel assurant la disponibilité, la distribution, le service transactionnel de l’information. Il gère le partage, la sécurité et la cohérence de l’information.
Il offre ses services à des Clients avec lesquels il communique par le Réseau.
Statistiques Les techniques statistiques sont des techniques mathématiques permettant de recueillir et d’analyser des données.
SGBDR
Système de Gestion de Base de Données Relationnelle
On dialogue avec le SGBDR grâce à des requêtes écrites en SQL, langage assez bien standardisé.Les SGBDR (certains disent Serveur de bases de données) les plus avancés disposent de mécanismes de gestion des contraintes d’intégrité appelés les Triggers, et aussi de capacité de traitements liés aux données : les Procédures Stockées.
SIAD
Système Interactif d’Aide à la Décision
Environnement permettant de stocker et de structurer l’information décisionnel. Ce terme est souvent utilisé pour identifier les bases de données multidimensionnelles. L’arrivée des concepts de Data Warehouse fait perdre de l’importance à ce terme, qui fait fortement référence à un type spécifique de technologie (et qui n’a pas d’équivalent en anglais).
SMP
Symmetric Multi Processing
Architecture matérielle faisant collaborer plusieurs processeurs (quelques dizaines) sur une seule mémoire partagée.
SQL
Structured Query Language
Langage de Requête Structuré. Le langage SQL est un standard défini par l’ANSI et l’ISO. Il est dérivé de l’algèbre relationnel et de SEQUEL (System R74). Il constitue aujourd’hui le plus petit commun dénominateur des langages du marché.
Variable Les données étudiées dans un Data Warehouse se décomposent en lignes et en colonnes. Chacune des colonne représente une variable, une propriété des éléments considérés.
Visualisation
(outil de)
Outil permettant de visualiser de manière graphique les relations entre les données.





Répondre à cet article et accéder au Forum Glossaire du Datamining

Imprimer Glossaire du Datamining