| Arbre de décision |
Technique visuelle permettant de diviser des données en groupes basés sur les valeurs des variables. Elle permet de déterminer les variables significatives pour une variable donnée. |
| Batch |
Dans les outils de Data Mining, le batch permet d’explorer de grandes masses de données à des heures creuses, sans trop solliciter le poste de l’utilisateur. |
| Catégorie |
valeur prise par une variable discrète. |
| Classification |
Deux types de classification existent :- soit classer des éléments dans des classes connues (par exemple les bons et les mauvais clients). On parlera aussi d’apprentissage supervisé.
- soit de regrouper les éléments ayant des comportements similaires dans des classes, inconnues au départ. On parlera alors de clustering, de segmentation ou d’apprentissage non supervisé.
|
| Clustering |
Cf. classification. |
| Continue
(variable) |
variable pouvant prendre un nombre illimité de valeurs (par exemple, un réel). |
| Data Mining
(outils de) |
Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data mining permettent d’extraire de la connaissance des données en découvrant des modèles, des règles dans le volume d’information présent dans les entreprises. |
| Data Warehouse |
" Entrepôt de données ". Base de données spécifique au monde décisionnel et destinée principalement à analyser les leviers " business " potentiels.D’après Bill Inmon, un Data Warehouse est intégré, orienté sujet et contient des données non volatiles et historisées |
| DataWarehousing |
Processus de mise en oeuvre d’un projet de Data Warehouse. |
| Découverte de règles |
Les outils permettant de découvrir des règles vont partir d’une hypothèse et la tester au travers de requêtes et de statistiques puis la modifier en fonction des résultats. Ces systèmes vont scruter la base de données, forger des hypothèses et, si elles sont vérifiées, les remonter à l’utilisateur. |
| Dépendante (variable) |
Variable cible de l’analyse de Data Mining, notamment pour les arbres de décision. |
| Détection de déviations |
Des outils permettent de détecter sur un ensemble de données celles présentant des déviations par rapport à des normes et des indicateurs de référence décrits antérieurement. |
| Dimension |
Axe d’analyse associé aux indicateurs ; correspond le plus souvent aux sujets d’intérêts du Data Warehouse ; exemple : dimension temporelle, dimension client... |
| Discrète
(variable) |
Variable prenant ses valeurs (cf. catégorie) dans un ensemble limité. |
| Échantillon |
Ensemble de données tiré, aléatoirement ou non, du Data Warehouse et permettant d’effectuer des tests et des recherches sur des volumes restreints. |
| EIS
Executive Information Systems |
Executive Information System (littéralement, système d’information des cadres). Environnement de présentation de tableau de bord présentant de manière synthétique et graphiques les performances d’une activité (ex : santé d’une entreprise, bilan des ventes...). |
| Element |
Les données étudiées dans un Data Warehouse se décomposent en lignes et en colonnes. Chacune des lignes représente un élément de la base de données, un individu. |
| Forecasting |
Technique consistant à prévoir le comportement d’une variable par rapport à ses attitudes passées. |
| Génétique
(algorithme) |
Un algorithme génétique est un algorithme lent, représentant les modèles comme des gènes et des opérateurs génétiques et les faisant évoluer soit par mutation (un gène au hasard est remplacé), soit par cross-over (la place de deux sous-arbres est échangées).
Il est surtout utilisé pour optimiser les paramètres associés à des outils de prédiction ou de classification. |
| Hétérogénéité |
Caractère d’un système global intégrant plusieurs types de machines ou de SGBD. Dans un monde parfait, le système hétérogène, très souvent distribué, doit être transparent pour l’utilisateur afin d’intégrer automatiquement les systèmes existants d’une entreprise. |
| Indicateur |
Information permettant de mesurer la performance de telle ou telle activité de l’entreprise (ventes, gestion des stocks...). La plupart du temps, cette information est numérique (ex : chiffre d’affaires, quantité en stock...). |
| Induction |
Méthode consistant à tirer une conclusion d’une série de faits. Cette conclusion ne sera jamais sûre à 100 %. |
| Intégrité |
Ensemble de contraintes appliquées aux mises à jour d’une base de donnée permettant de garantir la cohérence des données. Ces contraintes peuvent être des listes de valeurs à respecter (non-nullité et intégrité de domaine) ou bien des liens entre des tables (intégrité référentielle). Par exemple, une commande doit forcément référencer un client : le numéro de client inséré dans une ligne de la table commande doit exister dans la table client. |
| Jointure |
Rapprochement entre deux tables par comparaison de valeurs communes, sur la base d’un attribut commun. |
| Méta-données |
" Donnée décrivant une donnée ". |
| MPP
Massively Parallel Processing |
Architecture matérielle faisant collaborer plusieurs processeurs (plusieurs centaines) possédant chacun sa propre mémoire. |
| Nearest Neighbor
(ou Knn) |
Méthode du plus proche voisin utilisée pour faire de la classification supervisée. Elle consiste à examiner les éléments, dont la classe est connue, proches de l’élément dont on veut déterminer la classe. |
| ODBC
Open DataBase Connectivity |
Interface d’accès aux SGBD (API + langage SQL) définie par Microsoft en 1992 et basée sur le standard CLI. Du fait de son succès auprès des utilisateurs et des éditeurs, ODBC est devenu un standard de fait. Il permet d’accéder à des SGBD d’éditeurs différents en utilisant la même interface de programmation. Plusieurs niveaux (Level 1 et Level 2) existent dans l’API correspondant aux niveaux de fonctionnalités. |
| OLAP
On Line
Analytical Processing |
Caractérise l’architecture nécessaire à la mise en place d’un système d’information décisionnel. S’oppose à OLTP (On Line Transaction Processing), adressant les systèmes d’information transactionnels. OLAP est souvent utilisé pour faire référence exclusivement aux bases de données multidimensionnelles. En effet, le concept a été formalisé par le Dr Codd, sous la forme de douze règles, décrivant un modèle idéal d’analyse d’information. Il a été montré depuis qu’il a été possible de respecter ces règles indépendamment de la structure de stockage utilisée.De plus en plus, le terme est souvent utilisé pour désigner plus généralement le décisionnel dans ses aspects techniques. |
| Poste Client |
Poste de travail Utilisateur : machine déportée qui supporte le dialogue interactif avec l’utilisateur ou les applications, mais aussi les outils de présentation, d’infocentre et de développement. |
| Référentiel |
Structure de stockage des méta-données. Un référentiel fédère ces méta-données, contrairement aux catalogues, qui sont en général spécifiques à chaque outil. On distingue le " Data Warehouse Repository ", fédérant les méta-données de la base décisionnelle, de l’" Enterprise Repository ", qui inclue dans la théorie toutes les méta-données de l’entreprise, aussi bien transactionnelles que décisionnelles. |
| Relation causale |
Relation de cause à effet entre des variables. Ainsi, la modification d’une variable A pourra entraîner la modification d’une variable B. |
| Requête |
Demande envoyée au gestionnaire de Base de Données serveur. Si celui-ci permet la gestion des données, le langage utilisé est le SQL. Dans un contexte d’infocentre, l’exécution des questions sur un serveur est le plus souvent interprété. |
| Réseau neuronal |
Processus opaque permettant à partir de valeurs en entrée de découvrir une valeur en sortie.
Les réseaux neuronaux sont constitués de neurones, aussi appelés noeuds, et d’interconnexions entre ces noeuds, liens permettant d’envoyer des signaux de neurone à neurone.
Un réseau de neurone a pour caractéristique de pouvoir apprendre et mettre à profit son expérience pour ajuster le modèle trouvé en fonction, par exemple, de l’arrivée de nouveaux éléments. |
| Segmentation |
Cf. classification |
| Serveur |
Composant logiciel et/ou matériel assurant la disponibilité, la distribution, le service transactionnel de l’information. Il gère le partage, la sécurité et la cohérence de l’information.
Il offre ses services à des Clients avec lesquels il communique par le Réseau. |
| Statistiques |
Les techniques statistiques sont des techniques mathématiques permettant de recueillir et d’analyser des données. |
| SGBDR
Système de Gestion de Base de Données Relationnelle |
On dialogue avec le SGBDR grâce à des requêtes écrites en SQL, langage assez bien standardisé.Les SGBDR (certains disent Serveur de bases de données) les plus avancés disposent de mécanismes de gestion des contraintes d’intégrité appelés les Triggers, et aussi de capacité de traitements liés aux données : les Procédures Stockées. |
| SIAD
Système Interactif d’Aide à la Décision |
Environnement permettant de stocker et de structurer l’information décisionnel. Ce terme est souvent utilisé pour identifier les bases de données multidimensionnelles. L’arrivée des concepts de Data Warehouse fait perdre de l’importance à ce terme, qui fait fortement référence à un type spécifique de technologie (et qui n’a pas d’équivalent en anglais). |
| SMP
Symmetric Multi Processing |
Architecture matérielle faisant collaborer plusieurs processeurs (quelques dizaines) sur une seule mémoire partagée. |
| SQL
Structured Query Language |
Langage de Requête Structuré. Le langage SQL est un standard défini par l’ANSI et l’ISO. Il est dérivé de l’algèbre relationnel et de SEQUEL (System R74). Il constitue aujourd’hui le plus petit commun dénominateur des langages du marché. |
| Variable |
Les données étudiées dans un Data Warehouse se décomposent en lignes et en colonnes. Chacune des colonne représente une variable, une propriété des éléments considérés. |
| Visualisation
(outil de) |
Outil permettant de visualiser de manière graphique les relations entre les données. |