Guide de démarrage avec le Framework Apache HBase

Participez au vote ☆☆☆☆☆★★★★★

Guide de démarrage avec le Framework Apache HBase

Chapitre 2. Démarrage rapide - HBase autonome

Cette section décrit la configuration d’une HBase autonome à un seul noeud. Une instance autonome contient tous les démons HBase (maître, RegionServers et ZooKeeper) exécutés dans une seule JVM persistante sur le système de fichiers local. C'est notre profil de déploiement le plus élémentaire. Nous allons vous montrer comment créer une table dans HBase à l'aide de la CLI du shell hbase, insérer des lignes dans la table, effectuer des opérations de vente et d'analyse sur la table, activer ou désactiver la table, et démarrer et arrêter HBase.

Outre le téléchargement de HBase, cette procédure devrait prendre moins de 10 minutes.

2.1. Exigences de version JDK

HBase nécessite l’installation d’un JDK. Voir Java pour plus d'informations sur les versions JDK prises en charge.

2.2. Commencer avec HBase

Procédure: téléchargez, configurez et démarrez HBase en mode autonome

Choisissez un site de téléchargement dans cette liste de miroirs de téléchargement Apache. Cliquez sur le lien suggéré en haut. Cela vous mènera à un miroir de HBase Releases. Cliquez sur le dossier nommé stable, puis téléchargez le fichier binaire qui se termine par .tar.gz sur votre système de fichiers local. Ne téléchargez pas le fichier se terminant par src.tar.gz pour le moment.
Extrayez le fichier téléchargé et accédez au répertoire que vous venez de créer.

$ tar xzvf hbase-3.0.0-SNAPSHOT-bin.tar.gz

$ cd hbase-3.0.0-SNAPSHOT /

Vous devez définir la variable d'environnement JAVA_HOME avant de démarrer HBase. Pour faciliter cela, HBase vous permet de le définir dans le fichier conf / hbase-env.sh. Vous devez localiser l'emplacement où Java est installé sur votre ordinateur. Pour ce faire, utilisez la commande whereis java. Une fois que vous avez l'emplacement, éditez le fichier conf / hbase-env.sh et décommentez la ligne commençant par #export JAVA_HOME =, puis définissez-le sur votre chemin d'installation Java.

Exemple extrait de hbase-env.sh où JAVA_HOME est défini

# Définissez les variables d'environnement ici.

# L'implémentation Java à utiliser.

export JAVA_HOME = / usr / jdk64 / jdk1.8.0_112

Modifiez le fichier conf / hbase-site.xml, qui est le fichier de configuration principal de HBase. À ce stade, vous devez spécifier le répertoire sur le système de fichiers local où HBase et ZooKeeper écrivent des données et reconnaissent certains risques. Par défaut, un nouveau répertoire est créé sous / tmp. De nombreux serveurs sont configurés pour supprimer le contenu de / tmp lors du redémarrage. Vous devez donc stocker les données ailleurs.

La configuration suivante stockera les données de HBase dans le répertoire hbase, dans le répertoire de base de l’utilisateur appelé testuser. Collez les balises <property> sous les balises <configuration>, qui devraient être vides lors d'une nouvelle installation de HBase.

Exemple 1. Exemple hbase-site.xml pour Standalone HBase

<propriété>

<name> hbase.rootdir </ name>

<valeur> fichier: /// home / testuser / hbase </ valeur>

</ property>

<propriété>

<name> hbase.zookeeper.property.dataDir </ name>

<valeur> / home / testuser / zookeeper </ value>

</ property>

<propriété>

<name> hbase.unsafe.stream.capability.enforce </ name>

Contrôle si HBase vérifie les capacités du flux (hflush / hsync).

Désactivez cette option si vous avez l’intention de s’exécuter sur LocalFileSystem, indiqué par un rootdir avec le schéma 'fichier: //', mais prenez en compte la remarque ci-dessous.

AVERTISSEMENT: la définition de ce paramètre sur false vous empêche de perdre des données et d’état du système incohérent en cas de défaillance du processus et / ou du noeud.

Si HBase se plaint d'une incapacité à utiliser hsync ou hflush, ce n'est probablement pas un faux positif.

</ description>

</ property>

</ configuration>

Vous n'avez pas besoin de créer le répertoire de données HBase. HBase le fera pour vous. Si vous créez le répertoire, HBase tentera d'effectuer une migration, ce qui n'est pas ce que vous voulez.

 hbase.rootdir dans l'exemple ci-dessus pointe vers un répertoire du répertoire local

système de fichiers. Le préfixe 'fichier: //' indique comment nous désignons le système de fichiers local. Vous devez prendre à cœur le message WARNING présent dans l'exemple de configuration. En mode autonome, HBase utilise l'abstraction du système de fichiers local du projet Apache Hadoop. Cette abstraction ne fournit pas les promesses de durabilité dont HBase a besoin pour fonctionner en toute sécurité. Cela convient très bien aux cas d'utilisation de développement et de test locaux où le coût de la défaillance d'un cluster est bien maîtrisé. Ce n'est pas approprié pour les déploiements de production; vous finirez par perdre des données.

Pour installer HBase sur une instance existante de HDFS, configurez le fichier hbase.rootdir pour qu'il pointe vers un répertoire situé en haut de votre instance: par exemple. hdfs: //namenode.example.org: 8020 / hbase. Pour plus d'informations sur cette variante, reportez-vous à la section ci-dessous sur la solution autonome HBase over HDFS.

Le script bin / start-hbase.sh est un moyen pratique de démarrer HBase. Lancez la commande et si tout se passe bien, un message est consigné dans la sortie standard indiquant que HBase a démarré avec succès. Vous pouvez utiliser la commande jps pour vérifier que vous avez un processus en cours d'exécution appelé HMaster. En mode autonome, HBase exécute tous les démons de cette machine virtuelle unique, à savoir HMaster, un serveur HRegionServer et le démon ZooKeeper. Accédez à http: // localhost: 16010 pour afficher l'interface utilisateur Web HBase.

 Java doit être installé et disponible. Si vous obtenez une erreur indiquant que Java n'est pas installé, mais qu'il se trouve sur votre système, peut-être dans un emplacement non standard, modifiez le fichier conf / hbase-env.sh et modifiez le paramètre JAVA_HOME pour qu'il pointe vers le répertoire qui contient bin. / java sur votre système.

Procédure: Utiliser HBase pour la première fois

Connectez-vous à HBase.

Connectez-vous à votre instance HBase en cours d’exécution à l’aide de la commande shell hbase, située dans le répertoire bin / de votre installation HBase. Dans cet exemple, certaines informations d'utilisation et de version imprimées au démarrage de HBase Shell ont été omises. L'invite HBase Shell se termine par un caractère>.

shell $ ./bin/hbase

hbase (main): 001: 0>

Affichez le texte d'aide de HBase Shell.

Tapez help et appuyez sur Entrée pour afficher des informations d'utilisation de base pour HBase Shell, ainsi que plusieurs exemples de commandes. Notez que les noms de table, les lignes et les colonnes doivent tous être placés entre guillemets.

Créez une table.

Utilisez la commande create pour créer une nouvelle table. Vous devez spécifier le nom de la table et le nom de ColumnFamily.

hbase (main): 001: 0> créer 'test', 'cf'

0 rangée (s) en 0.4170 secondes

=> Hbase :: Table - test

Liste des informations sur votre table

Utilisez la commande list pour confirmer que votre table existe

hbase (main): 002: 0> liste 'test'

Test de table

1 rangée (s) en 0.0180 seconde

=> ["test"]

Maintenant, utilisez la commande describe pour voir les détails, y compris les paramètres de configuration par défaut

hbase (main): 003: 0> décrire le "test"

Le test de la table est activé

DESCRIPTION DES FAMILLES DE COLONNES

{NAME => 'cf', VERSIONS => '1', EVICT_BLOCKS_ON_CLOSE => 'false',

NEW_VERSION_BEHAVIOR => 'false', KEEP_DELETED_CELLS => 'FALSE', CACHE_DATA_ON_WRITE

=> 'false', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', MIN_VERSIONS => '0',

REPLICATION_SCOPE => '0', BLOOMFILTER => 'ROW', CACHE_INDEX_ON_WRITE => 'f alse', IN_MEMORY => 'false', CACHE_BLOOMS_ON_WRITE => 'false',

PREFETCH_BLOCKS_ON_OPEN => 'false', COMPRESSION => 'NONE', BLOCKCACHE => 'true', BLOCKSIZE

=> '65536'}

1 rangée (s)

A pris 0,9998 secondes

Mettez des données dans votre table.

Pour mettre des données dans votre table, utilisez la commande put.

hbase (main): 003: 0> mettre 'test', 'rangée', 'cf: a', 'valeur1'

0 ligne (s) en 0.0850 seconde

hbase (main): 004: 0> mettre 'test', 'rangée2', 'cf: b', 'valeur2'

0 rangée (s) en 0.0110 secondes

hbase (main): 005: 0> mettre 'test', 'rangée3', 'cf: c', 'valeur3'

0 rangée (s) en 0.0100 secondes

Ici, nous insérons trois valeurs, une à la fois. La première insertion est à la rangée1, colonne cf: a, avec une valeur de valeur1. Les colonnes dans HBase sont composées d'un préfixe de famille de colonne, cf dans cet exemple, suivi de deux points, puis d'un suffixe de qualificateur de colonne, a dans ce cas.

Parcourez la table pour toutes les données à la fois.

L’un des moyens d’obtenir des données à partir de HBase est de numériser. Utilisez la commande scan pour rechercher des données dans la table. Vous pouvez limiter votre analyse, mais pour le moment, toutes les données sont récupérées.

hbase (main): 006: 0> scan 'test'

RANG COLONNE + CELLULE

row1 column = cf: a, timestamp = 1421762485768,

valeur = valeur1

row2 column = cf: b, timestamp = 1421762491785,

valeur = valeur2

row3 column = cf: c, timestamp = 1421762496210,

valeur = valeur3

3 rangée (s) en 0.0230 secondes

Obtenez une seule ligne de données.

Pour obtenir une seule ligne de données à la fois, utilisez la commande get.

hbase (main): 007: 0> obtenir 'test', 'rangée1'

CELLULE DE COLONNE

cf: un horodatage = 1421762485768, valeur = valeur1

1 rangée (s) en 0.0350 secondes

Désactiver une table.

Si vous souhaitez supprimer une table ou modifier ses paramètres, ainsi que dans d'autres situations, vous devez tout d'abord la désactiver, à l'aide de la commande disable. Vous pouvez le réactiver à l'aide de la commande enable.

hbase (main): 008: 0> désactiver le test

0 ligne (s) en 1.1820 secondes

hbase (main): 009: 0> activez 'test'

0 ligne (s) en 0.1770 secondes

Désactivez à nouveau la table si vous avez testé la commande enable ci-dessus:

hbase (main): 010: 0> désactiver le test

0 ligne (s) en 1.1820 secondes

Laisse tomber la table.

Pour supprimer (supprimer) une table, utilisez la commande drop.

base (principale): 011: 0> drop 'test'

0 ligne (s) en 0.1370 secondes

Quittez le shell HBase.

Pour quitter HBase Shell et vous déconnecter de votre cluster, utilisez la commande quit. HBase est toujours en cours d'exécution en arrière-plan.

Procédure: Stop HBase

De la même manière que le script bin / start-hbase.sh est fourni pour démarrer facilement tous les démons HBase, le script bin / stop-hbase.sh les arrête.

$ ./bin/stop-hbase.sh

arrêter hbase ....................

Après l’émission de la commande, l’arrêt des processus peut prendre plusieurs minutes. Utilisez le jps pour vous assurer que les processus HMaster et HRegionServer sont arrêtés.

Ce qui précède vous a montré comment démarrer et arrêter une instance autonome de HBase. Dans les sections suivantes, nous donnons un aperçu rapide des autres modes de déploiement de hbase.

2.3. Installation locale pseudo-distribuée

Après avoir traversé le mode autonome quickstart, vous pouvez reconfigurer HBase pour qu'il s'exécute en mode pseudo-distribué. Le mode pseudo-distribué signifie que HBase fonctionne toujours complètement sur un seul hôte, mais chaque démon HBase (HMaster, HRegionServer et ZooKeeper) s'exécute comme un processus séparé: en mode autonome, tous les démons sont exécutés dans un processus / une instance JVM. Par défaut, à moins que vous ne configuriez la propriété hbase.rootdir comme décrit dans le quickstart, vos données sont toujours stockées dans / tmp /. Dans cette procédure pas à pas, nous stockons vos données dans HDFS, en supposant que vous disposiez de HDFS. Vous pouvez ignorer la configuration HDFS pour continuer à stocker vos données dans le système de fichiers local.

 Configuration Hadoop

Cette procédure suppose que vous avez configuré Hadoop et HDFS sur votre système local et / ou un système distant, qu'ils sont en cours d'exécution et disponibles. Cela suppose également que vous utilisez Hadoop 2. Le guide sur la configuration d’un cluster à nœud unique dans la documentation Hadoop constitue un bon point de départ.

Arrêtez HBase s'il est en cours d'exécution.

Si vous venez de terminer Quickstart et que HBase est toujours en cours d'exécution, arrêtez-le. Cette procédure créera un tout nouveau répertoire dans lequel HBase stockera ses données. Ainsi, toutes les bases de données que vous avez créées auparavant seront perdues.

Configurez HBase.

Editez la configuration de hbase-site.xml. Tout d’abord, ajoutez la propriété suivante qui indique à HBase de s’exécuter en mode distribué, avec une instance de machine virtuelle Java par démon.

<name> hbase.cluster.distributed </ name>

</ property>

Ensuite, remplacez hbase.rootdir du système de fichiers local par l'adresse de votre instance HDFS, à l'aide de la syntaxe hdfs: // / URI. Dans cet exemple, HDFS s'exécute sur l'hôte local sur le port 8020.

Assurez-vous de supprimer l'entrée de hbase.unsafe.stream.capability.enforce ou de la définir sur true.

<propriété>

<name> hbase.rootdir </ name>

<valeur> hdfs: // localhost: 8020 / hbase </ valeur>

</ property>

Vous n'avez pas besoin de créer le répertoire dans HDFS. HBase le fera pour vous. Si vous créez le répertoire, HBase tentera d'effectuer une migration, ce qui n'est pas ce que vous voulez.

Lancez HBase.

Utilisez la commande bin / start-hbase.sh pour démarrer HBase. Si votre système est configuré correctement, la commande jps devrait afficher les processus HMaster et HRegionServer en cours d'exécution.

Vérifiez le répertoire HBase dans HDFS.

Si tout fonctionnait correctement, HBase créait son répertoire dans HDFS. Dans la configuration ci-dessus, il est stocké dans / hbase / sur HDFS. Vous pouvez utiliser la commande hadoop fs dans le répertoire bin / de Hadoop pour répertorier ce répertoire.

$ ./bin/hadoop fs -ls / hbase

7 éléments trouvés

drwxr-xr-x - utilisateurs de hbase 0 2014-06-25 18:58 /hbase/.tmp

drwxr-xr-x - Utilisateurs hbase 0 2014-06-25 21:49 / hbase / WALs

drwxr-xr-x - utilisateurs de hbase 0 2014-06-25 18:48 / hbase / corrupt

drwxr-xr-x - Utilisateurs hbase 0 2014-06-25 18:58 / hbase / data

-rw-r - r-- 3 utilisateurs de hbase 42 2014-06-25 18:41 /hbase/hbase.id

-rw-r - r-- 3 utilisateurs de hbase 7 2014-06-25 18:41 /hbase/hbase.version

drwxr-xr-x - utilisateurs de hbase 0 2014-06-25 21:49 / hbase / oldWALs

Créez une table et remplissez-la avec des données.

Vous pouvez utiliser HBase Shell pour créer une table, la remplir avec des données, la numériser et en extraire des valeurs, en suivant la même procédure que dans les exercices avec le shell.

Démarrez et arrêtez un serveur HBase Master (HMaster) de secours.