Hadoop Sqoop für Big Data

Sqoop (SQL-to-Hadoop) ist ein großes Datentool, das die Fähigkeit bietet Daten von Nicht-Hadoop-Datenspeicher zu extrahieren, die Daten in eine verwendbare Form von Hadoop verwandeln, und dann die Daten in HDFS laden. Dieser Vorgang wird als ETL genannt, für Extrahieren, Transformieren und Laden.

Während Daten in Hadoop immer kritisch ist für die Verarbeitung unter Verwendung MapReduce ist es auch kritische Daten aus Hadoop und in einer externen Datenquelle in anderen Anwendungsarten für die Verwendung zu erhalten. Sqoop ist in der Lage, dies auch zu tun.

Zwar ist es manchmal notwendig ist, die Daten in Echtzeit zu bewegen, ist es sehr oft notwendig, Daten in der Masse zu laden oder zu entladen. Wie Schwein, ist Sqoop ein Kommandozeileninterpreter. Sie geben Sqoop in den Interpreter-Befehle, und sie werden nacheinander ausgeführt. Vier Hauptmerkmale werden in Sqoop gefunden:

  • Bulk-Import: Sqoop können einzelne Tabellen oder ganze Datenbanken in HDFS importieren. Die Daten werden in den nativen Verzeichnisse und Dateien im HDFS-Dateisystem gespeichert.

  • Direkte Eingabe: Sqoop können SQL (relationale) Datenbanken direkt in Hive und HBase importieren und zuordnen.

  • Daten Interaktion: Sqoop können Java-Klassen generieren, so dass Sie programmatisch mit den Daten interagieren können.

  • Datenexport: Sqoop können Daten exportieren direkt von HDFS in eine relationale Datenbank, die eine Zieltabellendefinition basierend auf den Besonderheiten der Zieldatenbank.

Sqoop funktioniert, indem in der Datenbank suchen Sie importieren möchten, und die Auswahl eines geeigneten Importfunktion für die Quelldaten. Nachdem sie die Eingabe erkennt, liest sie dann die Metadaten für die Tabelle (oder Datenbank) und erstellt eine Klasse Definition Ihrer Eingangsanforderungen.

Sie können Sqoop zwingen, sehr selektiv sein, so dass Sie nur die Spalten erhalten Sie vor der Eingabe suchen, anstatt einen ganzen Eingang tun und dann für Ihre Daten suchen. Dies kann viel Zeit sparen. Der eigentliche Import aus der externen Datenbank HDFS wird von einem MapReduce Job hinter den Kulissen von Sqoop erstellt durchgeführt.

Sqoop ist ein effektives Werkzeug für Nicht-Programmierer. Der andere wichtige Punkt zu beachten ist, die Abhängigkeit von zugrunde liegenden Technologien wie HDFS und MapReduce. Sie sehen dies wiederholt über das Element des Hadoop Ökosystem.

Menü