Qu'est-ce qu'une base de données MPP en gestion interne ?

Les bases de données MPP en gestion interne sont des bases de données puissante en cluster qui offrent un niveau élevé de personnalisation, de flexibilité et de fonctionnalité et qui doivent être gérées manuellement pas le client, généralement par un administrateur de base de données ou une équipe DevOps.

Bien que traditionnellement, ces bases de données MPP soient déployées en local, elles peuvent désormais aussi être déployées dans le cloud afin d'offrir plus d'options d'installation.

Parmi les principaux avantages des bases de données de la catégorie MPP en gestion interne, citons les dialectes et les intégrations SQL matures. Cela en fait une option idéale pour la pile de données d'une entreprise. HPE Vertica et Teradata, par exemple, offrent des connecteurs puissants avec Apache Hadoop. Ces intégrations, combinées à un haut niveau de simultanéité, permettent à ces bases de données d'être utilisées par le personnel des grandes entreprises.

Dans quel cadre les bases de données MPP en local sont-elles idéales ?

Collaboration avec les technologies de base de données existantes

Les bases de données MPP en gestion interne sont conçues pour s'intégrer et fonctionner avec les services et processus de base de données existants, comme Hadoop. Tous les exemples d'entrepôts de données en gestion interne existent depuis de nombreuses années (Teradata) ou sont fondés sur une technologie d'entrepôt de données existante. Ce sont donc tous d'excellents candidats pour les charges de travail des entreprises.

Flexibilité

L'un des principaux avantages des bases de données MPP en gestion interne est le niveau de contrôle qu'elles offrent aux utilisateurs en matière de sélection de matériel, d'architecture/stockage de table et d'optimisation des requêtes. En exploitant ces options judicieusement, les organisations peuvent créer une structure très performante et efficace.

Analyses avancées

De nombreuses solutions MPP en gestion interne offrent des dialectes SQL matures et des intégrations permettant d'obtenir des analyses avancées et des fonctions définies par l'utilisateur. Certaines d'entre elles disposent de capacités analytiques et d'intégrations spéciales (comme les bibliothèques géospatiale et d'apprentissage automatique de Vertica) qui en font un choix idéal pour certains processus analytiques spécifiques.

Bases de données en gestion interne populaires

Architecture des bases de données en gestion interne

Architecture sans partage

Chaque nœud d'une base de données MPP en gestion interne dispose de ses propres ressources de calcul, stockage et mémoire. C'est ce qu'on appelle une architecture « sans partage » car le stockage et les ressources de calcul ne sont pas partagées par l'ensemble du système.

Cette « architecture sans partage » permet à différents nœuds de fonctionner en parallèle pour traiter une requête. Lorsqu'une requête est envoyée, un nœud principal développe un plan d'exécution et le distribue à chaque nœud. Ces derniers traitent ensuite leur portion de la requête (en obtenant les données nécessaires des autres nœuds via le réseau). Ces résultats intermédiaires sont renvoyés à un « nœud principal » qui compile les résultats.

Contraintes d'une base de données MPP en gestion interne

Les bases de données MPP en gestion interne assurent flexibilité et personnalisation, mais en retour, vous devez gérer vous-même certains éléments complexes. Donc, si vous ne disposez pas des ressources nécessaires pour gérer une base de données en interne, il vous est probablement conseillé d'envisager une base de données MPP à la demande. De même, si le manque de flexibilité d'une solution à la demande vous gêne, la solution en gestion interne pourrait mieux vous convenir.

Optimisation d'une base de données MPP gérée

Le niveau d'optimisation des bases de données MPP gérées varie grandement en raison des différentes méthodes de cache, de distribution, de tri et de stockage. Le guide de chaque base de données offrira plus de détails à ce sujet.

Cependant, voici déjà quelques règles générales qui peuvent s'avérer utiles :

  • Les modèles plats ou dénormalisés génèrent moins de joints, améliorant ainsi la capacité de traitement parallèle et donc la performance des requêtes.
  • Le codage et la compression en colonnes permettent de gagner de la place sur le disque, ce qui accélère le traitement.
  • Le tri et la distribution efficaces des données peuvent avoir un énorme impact sur la performance.
  • Évitez les requêtes qui traitent la plupart ou toutes les colonnes à la fois, car la récupération de chaque colonne entraîne des coûts supplémentaires.
  • Assurez la netteté des tables et libérez l'espace inutilisé via des politiques de nettoyage et de purge adéquates.
  • Assurez l'actualisation des statistiques de table via la planification efficace des requêtes.

Prenez goût à l'analytique

Business intelligence, analyse de big data ou vue client à 360° :
quels que soient vos besoins, Looker peut vous aider. Parlez à nos experts en données.

Demander une démo