Speichern Big Data mit HBase

HBase ist eine verteilte, nicht relationale (säulen) Datenbank, die für große Datenprojekte HDFS als persistenten Speicher nutzt. Es wird nach dem Vorbild von Google BigTable und ist in der Lage Hosting sehr große Tabellen (Milliarden von Spalten / Zeilen), weil es auf Hadoop-Cluster von Standardhardware geschichtet ist.

HBase liefert zufällige, Echtzeit-Lese- / Schreibzugriff auf große Datenmengen. HBase ist in hohem Maße konfigurierbar, ein hohes Maß an Flexibilität effizient große Mengen an Daten zu adressieren. Nun nehmen Sie einen Blick an, wie HBase können Ihre große Daten Herausforderungen helfen ehen.

HBase ist ein säulen Datenbank, so dass alle Daten in Tabellen mit Zeilen und Spalten gespeichert ist, ähnlich wie relationalen Datenbankmanagementsysteme (RDBMS). Der Schnittpunkt einer Zeile und einer Spalte wird als Zelle bezeichnet. Ein wichtiger Unterschied zwischen HBase Tabellen und RDBMS Tabellen Versionierung.

Jede Zelle enthält ein Wert # 147-Version # 148- Attribut, das nichts anderes als eine Zeitmarke ist auf einzigartige Weise die Zelle zu identifizieren. Versions verfolgt Änderungen in der Zelle und ermöglicht es, eine beliebige Version der Inhalte abzurufen, sollte es erforderlich werden. HBase speichert die Daten in Zellen in abnehmender Reihenfolge (der Zeitstempel verwendet wird), so dass ein Lese zuerst die jüngsten Werte immer finden.

Spalten in HBase gehören zu einer Spalte Familie. Die Spalte Familienname wird als Präfix verwendet, um Mitglieder seiner Familie zu identifizieren. Beispielsweise, Früchte: Apfel und Früchte: Bananen sind Mitglieder der Früchte Spalte Familie. HBase Implementierungen werden in der Spalte Familie Ebene abgestimmt ist, so ist es wichtig, darauf achten, wie Sie sich auf die Daten zugreifen und wie groß erwarten Sie die Spalten zu sein.

Die Reihen in HBase Tabellen haben auch einen Schlüssel mit ihnen verbunden sind. Der Aufbau des Schlüssels ist sehr flexibel. Es kann ein berechneter Wert, ein String sein, oder sogar eine andere Datenstruktur. Der Schlüssel wird verwendet, um Zugriff zu steuern, um die Zellen in der Reihe, und sie werden in der Reihenfolge von niedrigen Wert zu hohen Wert gespeichert.

Alle diese Eigenschaften bilden zusammen das Schema. Das Schema ist definiert und erstellt, bevor irgendwelche Daten gespeichert werden. Trotzdem können Tabellen verändert werden und neue Spalte Familien können hinzugefügt werden, nachdem die Datenbank ist und läuft. Diese Erweiterbarkeit ist äußerst nützlich, wenn sie mit großen Datenmengen zu tun, weil Sie über die Vielfalt Ihrer Datenströme nicht immer wissen.

Menü