En quoi consiste BigQuery ?

BigQuery est un entrepôt de données qui exploite l'échelle massive de l'architecture Google Cloud pour distribuer les données à travers des milliers de nœuds, en utilisant autant de nœuds que nécessaire pour exécuter une requête de manière performante. Contrairement aux autres dialectes des bases de données, où vous achetez ou louez des machines ou de l'espace sur des machines, il n'existe qu'une seule instance de BigQuery, composée de milliers de nœuds, partagée par tous les utilisateurs de l'instance.

L'échelle énorme permet à BigQuery d'exécuter des requêtes même énormes et complexes dans un délai relativement court. Par conséquent, même si vos ensembles de données passent de gigaoctets à péta-octets, BigQuery restera réactif.

Les raisons d'opter pour BigQuery​​​​​​​

Rapide : les requêtes sur BigQuery ne sont jamais lentes, quelle que soit la taille des données ou la complexité de la requête, car l'architecture de BigQuery répartit la charge de travail de manière égale sur autant de nœuds que nécessaire.

Évolutif : BigQuery s'appuie sur la plateforme de stockage dans le Cloud de Google, qui est conçue pour s'adapter parfaitement aux requêtes au niveau du péta-octet, avec tout le réapprovisionnement des clusters gérés par Google, sans aucune modification nécessaire.

Gestion minimale : BigQuery est extrêmement facile à démarrer et à maintenir car toute l'instance de BigQuery est gérée pour vous. Il suffit de télécharger des données via l'interface Web Google Cloud et de lancer des requêtes.

Dans quels cas d'utilisation BigQuery est-il idéal ?

Sociétés avec des volumes de données importants et croissants

Le chargement des données dans BigQuery est gratuit, et le stockage des données est assez bon marché. Cela rend BigQuery attrayant pour les entreprises qui voient leur volume de données augmenter rapidement. Et comme il n'y a en fait aucune limite à la quantité de données qui peuvent être stockées ou traitées dans BigQuery, interroger un péta-octet de données sur BigQuery est aussi simple que d'interroger un méga-octet.

Équipes disposant de ressources DevOps limitées

Étant donné que Google prend en charge tout le matériel de BigQuery et l'optimisation des requêtes, BigQuery ne nécessite pratiquement aucune maintenance. Il vous suffit de charger vos données et de lancer une requête.

Entreprises dont la charge de travail est élevée

La tarification de BigQuery se fait sur une base de paiement par requête. Cela signifie que vous ne payez que pour ce que vous utilisez. Ainsi, si vous avez besoin d'une puissance massive un jour et très peu le lendemain, BigQuery est probablement une excellente option.

Avant de vous décider

Tarification

BigQuery facture une somme modique pour le stockage des données et un prix séparé basé sur les données numérisées pendant la requête (ce qui représente généralement la plus grande partie de la facture). Cela signifie qu'il est relativement bon marché de stocker de grands ensembles de données dans BigQuery, même si elles ne sont pas souvent consultées. Les coûts réels sont liés à l'utilisation de ces données.

BigQuery fournit une estimation de la quantité de données qui seront numérisées avant l'exécution d'une requête, mais dans certains cas, ces estimations peuvent être inexactes, ce qui entraîne des frais imprévus. Le contrôle des coûts est le moyen le plus fiable d'éviter les surprises sur votre facture, car il vous évitera de lancer par inadvertance des requêtes qui numérisent beaucoup de données ou qui sont très complexes (et donc plus coûteuses).

Contrôle des coûts

Le modèle de tarification de BigQuery constitue un problème pour les entreprises intéressées, notamment en ce qui concerne le caractère imprévisible des cycles de facturation étant donné que le prix du service dépend de l'utilisation.

C'est pourquoi BigQuery permet aux comptes d'opter pour une fonction de tarification appelée Contrôles des coûts, qui fixe un quota prédéfini sur le nombre d'octets traités chaque jour avec le service. Ces limites peuvent être fixées au niveau d'un projet ou appliquées à l'ensemble des utilisateurs.

Tarification forfaitaire

Pour les grands comptes qui ne souhaitent pas appliquer de quotas, mais qui ont également besoin d'un modèle de facturation prévisible, BigQuery propose une tarification forfaitaire, qui attribue un nombre prédéfini de places permettant d'effectuer un nombre illimité de requêtes sans frais supplémentaires. Des places supplémentaires peuvent également être ajoutées pour un tarif forfaitaire.

Les clients forfaitaires sont toujours facturés pour les coûts de stockage de leurs données, le forfait ne s'applique qu'aux coûts liés à la recherche des données.

La tarification forfaitaire n'a vraiment de sens que pour les comptes de grandes entreprises qui ont un grand nombre d'utilisateurs effectuant régulièrement de nombreuses recherches volumineuses et coûteuses dans la base de données.

Faites un essai gratuit

BigQuery est inclus dans le niveau gratuit de la plateforme Google Cloud, qui offre aux clients potentiels la possibilité de dépenser plus de 300 dollars sur une période de 12 mois pour n'importe quel produit Google Cloud. Cela s'ajoute aux 1 To gratuits par mois de données traitées et aux 10 Go de stockage gratuit dans BigQuery.

BigQuery est fourni avec un grand jeu de données publiques pré-chargées auxquelles les nouveaux utilisateurs du service ont immédiatement accès et qu'ils peuvent utiliser pour tester les capacités du service. Les types de données de ces jeux de données publics vont des données gouvernementales (Appels du service des pompiers de San Francisco) aux données d'entreprise (Données sur l'activité des utilisateurs sur tout le site de Github) et aux données sportives (Données sur la Major League Baseball).

Vous pouvez également voir comment BigQuery fonctionne avec Looker au-dessus sur les publications suivantes :

Architecture de base de données BigQuery

Contrairement à d'autres offres de bases de données, qui permettent aux consommateurs de louer ou d'acheter une instance privée pour eux-mêmes qui consiste en un nombre quelconque de machines de leur choix, BigQuery est une instance massive soutenue par des centaines de milliers de machines.

Ceci est important car aucun compte ne possède ou n'a accès à une machine donnée dans BigQuery. Au contraire, toute la puissance de traitement de l'instance est louée pour quelques secondes à la fois chaque fois que des requêtes sont lancées (une différence de fonctionnalité qui se traduit par une différence de modèles de tarification entre BigQuery et d'autres types de bases de données MPP). Comme BigQuery dispose à tout moment de l'intégralité de l'instance à consacrer aux requêtes, les requêtes reviennent rapidement et systématiquement, quelle que soit leur taille ou leur complexité.

L'équipe Google Cloud a rédigé une excellente publication qui décrit plus en détail l'architecture de BigQuery, expliquant en détail comment les différents éléments de la pile interagissent pour créer une expérience parfaite pour les utilisateurs finaux. Il est important de noter qu'une grande partie des logiciels de la pile de BigQuery utilise la même technologie que Google propose pour une série d'autres offres, comme Gmail, Youtube et Search, ce qui signifie que Google, en tant qu'entreprise, investit dans l'amélioration constante des performances et des fonctionnalités des logiciels de la pile de données de BigQuery.

Types de données

BigQuery prend en charge CSV, JSON, Avro et les sauvegardes de Cloud Datastore. BigQuery peut également traiter les Google Sheets comme un tableau. Plus de détails sur les formats de données pris en charge dans BigQuery peuvent être trouvés ici.

Une caractéristique intéressante de BigQuery est sa prise en charge des enregistrements emboîtés dans les tableaux, qui sont principalement des tableaux pré-jointe dans BigQuery. Les tableaux contenant des enregistrements emboîtés peuvent être la solution idéale pour les données hiérarchisées de manière conceptuelle (comme les commandes et les articles ou les sessions et les vues de pages) et offrent de nombreuses façons nouvelles et intéressantes de modéliser les données. Vous pouvez découvrir comment créer des enregistrements emboîtés dans un tableau BigQuery en lisant l'article de Lloyd Tabb, co-fondateur et directeur technique de Looker ici.

Taille maximale de données recommandée

BigQuery peut traiter et consulter aisément des péta-octets de données en une seule requête, mais toute l'architecture de BigQuery est conçue pour être pratiquement adaptable à l'infini. La plupart des projets BigQuery se voient attribuer 2 000 créneaux lorsque les numérisations de grands tableaux sont sa principale source de revenus, vous pouvez utiliser les contraintes de ressources d'introduction lorsque vous exécutez des requêtes complexes qui impliquent des JOINTS de grands tableaux.

Mise en œuvre de BigQuery

Étant donné que vous n'avez pas de machines à gérer vous-même avec BigQuery et qu'il n'y a pas de décisions à prendre en matière de conception de schémas, la prise en main du service de base de données BigQuery est aussi simple que de créer un compte avec Google Cloud Platform, de charger un tableau par l'intermédiaire de l'interface Web et d'exécuter une requête.

Processus pour nouvelles données

Vous pouvez charger des données à partir de plusieurs formats de source, y compris les fichiers de sauvegarde CSV, JSON, Avro et Google Cloud Datastore.

Si vous avez besoin d'aide pour créer les flux d'alimentation ETL, il est possible de faire appel à un partenaire ETL qui offre une intégration avec BigQuery, notamment FivetranStitch et Matillion.

Maintenance

BigQuery nécessite très peu de maintenance, Google gérant pratiquement tout pour vous. Puisque vous partagez une seule instance massive, il n'est pas nécessaire d'optimiser les clusters pour la taille des données, de redistribuer manuellement les données pour la vitesse d'exécution des requêtes, ou de régler les plans de requête pour obtenir les meilleurs résultats possibles.

Cependant, vous pouvez faire des choix pour réduire les coûts des requêtes, notamment en divisant vos tableaux de plusieurs façons.

Prenez goût à l'analytique

Business intelligence, analyse de big data ou vue client à 360° :
quels que soient vos besoins, Looker peut vous aider. Parlez à nos experts en données.

Demander une démo