Hadoop für Dummies

Das Hadoop Schale

ist eine Familie von Befehlen, die Sie von Ihrem Betriebssystem der Kommandozeile ausgeführt werden können. Die Schale hat zwei Sätze von Befehlen: eine für Dateimanipulation (ähnlich in Zweck und Syntax zu Linux-Befehle, die viele von uns kennen und lieben) und eine für Hadoop Verwaltung. Die folgende Liste fasst den ersten Satz von Befehlen für Sie, was darauf hinweist, was der Befehl sowie Nutzung tut und Beispiele, wo anwendbar.

  • Katze: Kopiert Quellpfade zu stdout.

    Verwendung: hdfs dfs -cat URI [URI # 133-]

    Beispiel:

  • hdfs dfs -cat hdfs: /// file1

  • hdfs dfs-cat file: /// file2 / user / Hadoop / file3

  • chgrp: Ändert die Gruppenzugehörigkeit von Dateien. Mit -R, macht die Änderung der Verzeichnisstruktur rekursiv durch. Der Benutzer muss die Datei Eigentümer oder der Superuser sein.

    Verwendung: hdfs dfs -chgrp [-R] GROUP URI [URI # 133-]

  • chmod: Ändert die Berechtigungen von Dateien. Mit -R, macht die Änderung der Verzeichnisstruktur rekursiv durch. Der Benutzer muss die Datei Eigentümer oder der Superuser sein,

    Verwendung: hdfs dfs -chmod [-R] URI [URI # 133-]

    Beispiel:hdfs dfs -chmod 777Test / data1.txt

  • chown: Ändert den Besitzer von Dateien. Mit -R, macht die Änderung der Verzeichnisstruktur rekursiv durch. Der Benutzer muss der Superuser sein.

    Verwendung: hdfs dfs -chown [-R] [OWNER] [: [GROUP]] URI [URI]

    Beispiel:hdfs dfs -chown -R hduser2 / opt / Hadoop / logs

  • copyFromLocal: Funktioniert ähnlich wie die stellen Befehl, mit der Ausnahme, dass die Quelle in einer lokalen Datei Bezug beschränkt.

    Verwendung: hdfs dfs -copyFromLocal URI

    Beispiel: hdfs dfs -copyFromLocal Eingang / docs / data2.txt hdfs: //localhost/user/rosemary/data2.txt

  • copyToLocal: Funktioniert ähnlich wie die bekommen Befehl, mit der Ausnahme, dass das Ziel in einer lokalen Datei Bezug beschränkt.

    Verwendung: hdfs dfs -copyToLocal [-ignorecrc] [-CRC] URI

    Beispiel: hdfs dfs -copyToLocal data2.txt data2.copy.txt

  • Graf: Zählt die Anzahl der Verzeichnisse, Dateien und Bytes unter den Pfaden, die dem angegebenen Dateimuster entsprechen.

    Verwendung: hdfs dfs -count [-q]

    Beispiel: hdfs dfs -count hdfs: //nn1.example.com/file1 hdfs: //nn2.example.com/file2

  • cp: Kopiert eine oder mehrere Dateien von einer bestimmten Quelle zu einem angegebenen Ziel. Wenn Sie mehrere Quellen angeben, muss das angegebene Ziel ein Verzeichnis sein.

    Verwendung: hdfs dfs -cp URI [URI # 133-]

    Beispiel: hdfs dfs -cp / user / Hadoop / file1 / user / Hadoop / file2 / user / Hadoop / dir

  • du: Zeigt die Größe der angegebenen Datei, oder die Größe der Dateien und Verzeichnisse, die in dem angegebenen Verzeichnis enthalten sind. Wenn Sie die angeben -s Option, zeigt eine aggregierte Zusammenfassung der Dateigrößen und nicht einzelne Dateigrößen. Wenn Sie die angeben -h Option, formatiert die Dateigrößen in einem "menschenlesbaren" Art und Weise.

    Verwendung: hdfs dfs -du [-s] [-h] URI [URI # 133-]

    Beispiel: hdfs dfs -du / user / Hadoop / dir1 / user / Hadoop / file1

  • dus: Zeigt eine Zusammenfassung der Datei Größen- entspricht hdfs dfs -du -s.

    Verwendung: hdfs dfs -dus

  • auslöschen: Leert den Papierkorb. Wenn Sie eine Datei löschen, wird sie nicht sofort von HDFS entfernt, aber in einer Datei in die umbenannt wird /Müll Verzeichnis. Solange die Datei dort bleibt, können Sie es wiederherstellen, wenn Sie Ihre Meinung ändern, wenn auch nur die aktuellste Kopie der gelöschten Datei wiederhergestellt werden kann.

    Verwendung: hdfs dfs -expunge

  • bekommen: Kopiert Dateien auf dem lokalen Dateisystem. Dateien, die eine zyklische Redundanzprüfung (CRC) fehlschlagen kann noch kopiert werden, wenn Sie die angeben -ignorecrcOption. Der CRC ist eine übliche Technik für Fehler bei der Datenübertragung zu erfassen. CRC-Prüfsumme Dateien haben die .crc Verlängerung und werden verwendet, um die Datenintegrität einer anderen Datei verifizieren. Diese Dateien kopiert werden, wenn Sie die angeben -crc Option.

    Verwendung: hdfs dfs -get [-ignorecrc] [-CRC]

    Beispiel: hdfs dfs -get / user / Hadoop / file3 localfile

  • getmerge: Verkettet die Dateien in srcund schreibt das Ergebnis in dem angegebenen lokalen Zieldatei. Um ein Newline-Zeichen am Ende jeder Datei hinzufügen, geben Sie die addnl Option.

    Verwendung: hdfs dfs -getmerge [Addnl]

    Beispiel:hdfs dfs -getmerge / user / Hadoop / mydir / ~ / result_file addnl

  • ls: Liefert Statistikdaten für die angegebenen Dateien oder Verzeichnisse.

    Verwendung: hdfs dfs -ls

    Beispiel: hdfs dfs -ls / user / Hadoop / file1

  • lsr: Dient als die rekursive Version ls- ähnlich dem Unix-Befehl ls -R.

    Verwendung: hdfs dfs -lsr

    Beispiel: hdfs dfs -lsr / user / hadoop

  • mkdir: Erzeugt Verzeichnisse auf einen oder mehrere bestimmte Pfade. Sein Verhalten ist ähnlich dem Unix mkdir -p Befehl, der alle Verzeichnisse erstellt, die in das angegebene Verzeichnis führen, wenn sie nicht bereits vorhanden sind.

    Verwendung: hdfs dfs -mkdir

    Beispiel: hdfs dfs -mkdir / user / Hadoop / dir5 / temp

  • moveFromLocal: Funktioniert ähnlich wie die stellen Befehl, mit der Ausnahme, dass die Quelle gelöscht wird, nachdem sie kopiert wird.

    Verwendung: hdfs dfs -moveFromLocal

    Beispiel: hdfs dfs -moveFromLocal localfile1 localfile2 / user / Hadoop / hadoopdir

  • mv: Verschiebt eine oder mehrere Dateien von einer bestimmten Quelle zu einem angegebenen Ziel. Wenn Sie mehrere Quellen angeben, muss das angegebene Ziel ein Verzeichnis sein. Das Verschieben von Dateien über Dateisysteme ist nicht gestattet.

    Verwendung: hdfs dfs -MV URI [URI # 133-]

    Beispiel: hdfs dfs -MV / user / Hadoop / file1 / user / Hadoop / file2

  • stellen: Kopiert Dateien aus dem lokalen Dateisystem in das Zieldateisystem. Dieser Befehl kann auch lesen Eingabe von stdin und schreiben Sie an die Zieldateisystem.

    Verwendung: hdfs dfs -Setzen ...

    Beispiel: hdfs dfs -Setzen localfile1 localfile2 / user / Hadoop / hadoopdir- hdfs dfs -Setzen - / user / Hadoop / hadoopdir (Eingabe von stdin liest)

  • rm: Löscht eine oder mehrere bestimmte Dateien. Dieser Befehl löscht nicht leere Verzeichnisse oder Dateien. Um den Müll umgehen (wenn es aktiviert ist) und löschen Sie die angegebenen Dateien sofort, geben Sie die -skipTrash Option.

    Verwendung: hdfs dfs -rm [-skipTrash] URI [URI # 133-]

    Beispiel: hdfs dfs -rm hdfs: //nn.example.com/file9

  • RMR: Dient als die rekursive Version -rm.

    Verwendung: hdfs dfs -rmr [-skipTrash] URI [URI # 133-]

    Beispiel: hdfs dfs -rmr / user / Hadoop / dir

  • setrep: Ändert den Replikationsfaktor für eine bestimmte Datei oder ein Verzeichnis. Mit -R, macht die Änderung der Verzeichnisstruktur rekursiv durch.

    Verwendung: hdfs dfs -setrep [-R]

    Beispiel: hdfs dfs -setrep 3 -R / user / Hadoop / dir1

  • stat: Zeigt Informationen über den angegebenen Pfad.

    Verwendung: hdfs dfs -stat URI [URI # 133-]

    Beispiel: hdfs dfs -stat / user / Hadoop / dir1

  • Schwanz: Zeigt das letzte Kilobyte einer angegebenen Datei zu stdout. Die Syntax unterstützt die Unix -f Option, die die angegebene Datei ermöglicht überwacht werden. Als neue Zeilen werden durch einen anderen Prozess zur Datei hinzugefügt, tkränkeln aktualisiert die Anzeige.

    Verwendung: hdfs dfs -tail [-f] URI

    Beispiel: hdfs dfs -tail / user / Hadoop / dir1

  • Test: Gibt Attribute der angegebenen Datei oder des Verzeichnisses. Gibt -e ob die Datei oder das Verzeichnis zu bestimmen exists- -z um zu bestimmen, ob die Datei oder das Verzeichnis ist Leer- und -d um zu bestimmen, ob der URI ein Verzeichnis ist.

    Verwendung: hdfs dfs -test - [ezd] URI

    Beispiel: hdfs dfs -Test / user / Hadoop / dir1

  • Text: Gibt eine angegebene Quelldatei im Textformat. Die gültige Eingabe-Dateiformate Reißverschluss und TextRecordInputStream.

    Verwendung: hdfs dfs -Text

    Beispiel: hdfs dfs -Text /user/hadoop/file8.zip

  • touchz: Erstellt eine neue, leere Datei der Größe 0 in dem angegebenen Pfad.

    Verwendung: hdfs dfs -touchz

    Beispiel: hdfs dfs -touchz / user / Hadoop / file12

  • Hadoop Verwaltungsbefehle

    Jeder Hadoop Administrator wert sein Salz muss einen umfassenden Satz von Befehlen für die Clusterverwaltung zu meistern. Die folgende Liste fasst die wichtigsten Befehle, was darauf hinweist, was der Befehl sowie Syntax tut und Beispiele. Kennen Sie sie, und Sie werden einen langen Weg auf dem Weg zu Hadoop Weisheit vorantreiben.

    • Balancer: Führt das Cluster-Balancing-Dienstprogramm. Der angegebene Grenzwert, der einen Prozentsatz der Plattenkapazität darstellt, verwendet wird, kann der voreingestellte Schwellenwert (10 Prozent) zu überschreiben. Um die Neuausgleichsprozess, drücken Sie Strg + C beenden.

      Syntax:hadoop Balancer [-Schwelle ]

      Beispiel: hadoop Balancer -Schwelle 20

    • daemonlog: Ruft die Protokollebene für jeden Daemon (auch als Service bezeichnet). zum Anschluss http: // host: port / logLevel log = Name und druckt oder setzt die Protokollebene des Daemon, der läuft auf Host: Port. Hadoop Daemons generieren Protokolldateien, die Ihnen helfen, festzustellen, was auf dem System passiert, und Sie können die Verwendung daemonlog Befehl, um vorübergehend die Protokollebene eines Hadoop-Komponente ändern, wenn Sie das System debuggen. Die Änderung wird wirksam, wenn der Daemon neu gestartet.

      Syntax: hadoop daemonlog -getlevel - hadoop daemonlog -setlevel

      Beispiel: hadoop daemonlog -getlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker- hadoop daemonlog -setlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker DEBUG

    • DataNode: Führt die HDFS DataNode-Service, der den Speicher auf jedem Slave-Knoten koordiniert. Wenn Sie angeben, -Rollback, die DataNode wird auf die vorherige Version zurückgerollt. Stoppen Sie den DataNode und verteilen Sie die vorherige Version von Hadoop, bevor Sie diese Option verwenden.

      Syntax: hadoop DataNode [-rollback]

      Beispiel: hadoop DataNode -rollback

    • dfsadmin: Führt eine Reihe von Hadoop Distributed File System (HDFS) administrative Operationen. Verwenden Sie die -Hilfe Option, um eine Liste aller unterstützten Optionen zu sehen. Die allgemeinen Optionen sind eine gemeinsame Reihe von Optionen, die von mehreren Befehlen unterstützt.

      Syntax: Hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode eingeben | verlassen | erhalten | warten] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress Status | Details | force] [-metasave Dateiname] [-setQuota ...] [-clrQuota ...] [-restoreFailedStorage True | false | Test] [-help [cmd]]

    • mradmin: Führt eine Reihe von MapReduce administrativen Vorgänge. Verwenden Sie die -Hilfe Option, um eine Liste aller unterstützten Optionen zu sehen. Auch hier sind die allgemeinen Optionen eine gemeinsame Reihe von Optionen, die von mehreren Befehlen unterstützt werden. Wenn Sie angeben, -refreshServiceAcl, lädt die Berechtigungsrichtliniendatei Service-Level (Jobtracker die Berechtigung Richtliniendatei neu geladen) - -refreshQueues Lädt die Warteschlange Zugriffskontrolllisten (ACLs) und Staat (Jobtracker lädt der mapred-queues.xml Datei)- -refreshNodes erfrischt die Gastgeber Informationen an der JobTracker- -refreshUserToGroupsMappings frischt Benutzer-zu-Gruppen mappings- -refreshSuperUserGroupsConfiguration refreshes Super-User-Proxy-Gruppen mappings- und -help [cmd] Hilfe für den gegebenen Befehl oder für alle Befehle, wenn keine angegeben ist.

      Syntax: hadoop mradmin [GENERIC_OPTIONS] [-refreshServiceAcl] [-refreshQueues] [-refreshNodes] [-refreshUserToGroupsMappings] [-refreshSuperUserGroupsConfiguration] [-help [cmd]]

      Beispiel: hadoop mradmin -help -refreshNodes

    • Jobtracker: Führt die MapReduce Jobtracker-Knoten, der das Datenverarbeitungssystem für Hadoop-Koordinaten. Wenn Sie angeben, -dumpConfiguration, die Konfiguration, die von der Jobtracker und der Warteschlange Konfiguration im JSON-Format geschrieben werden auf die Standardausgabe verwendet wird.

      Syntax: hadoop Jobtracker [-dumpConfiguration]

      Beispiel: hadoop Jobtracker -dumpConfiguration

    • NameNode: Läuft die NameNode, die die Lagerung für den gesamten Hadoop-Cluster koordiniert. Wenn Sie angeben, -Format, die NameNode gestartet wird, formatiert und dann Stopped mit -Aktualisierung, die NameNode beginnt mit der Upgrade-Option nach einer neuen Hadoop-Version ist distributed- mit -Rollback, die NameNode wird auf die vorherige Version (nicht vergessen, den Cluster zu stoppen und die vorherige Hadoop-Version, bevor Sie diese Option verteilen) rückgängig gemacht - mit -zum Abschluss bringen, der vorherige Zustand des Dateisystems entfernt wird, die letzte Aktualisierung wird permanent, Rollback ist nicht mehr verfügbar, und die NameNode ist Stopped schließlich mit -importCheckpoint, ein Bild wird von dem Checkpoint-Verzeichnis geladen (wie durch die spezifizierte fs.checkpoint.dir Eigentum) und in das aktuelle Verzeichnis gespeichert.

      Syntax: hadoop NameNode [-format] | [-upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]

      Beispiel: hadoop NameNode -finalize

    • Sekundäre NameNode: Führt den sekundären NameNode. Wenn Sie angeben, -Kontrollpunkt, ein Kontrollpunkt auf dem sekundären NameNode durchgeführt wird, wenn die Größe des EditLog (ein Transaktionsprotokoll, das jede Änderung aufzeichnet, die auf das Dateisystem-Metadaten auftritt) größer als oder gleich fs.checkpoint.size- angeben -Kraft und ein Checkpoint ausgeführt wird, unabhängig von der EditLog Size- angeben -geteditsize und die EditLog Größe gedruckt.

      Syntax: hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]

      Beispiel: hadoop secondarynamenode -geteditsize

    • Tasktracker: Führt eine MapReduce Tasktracker Knoten.

      Syntax: hadoop Tasktracker

      Beispiel: hadoop Tasktracker

    Das Hadoop dfsadmin Befehlsoptionen

    Das dfsadmin Werkzeuge sind eine bestimmte Gruppe von Tools, die Sie Informationen des verteilten Dateisystem über Ihre Hadoop ausrotten zu helfen, entworfen (HDFS). Als zusätzlichen Bonus, können Sie sie verwenden auch einige Verwaltungsvorgänge auf HDFS auszuführen.

    OptionWas es macht
    -BerichtBerichte grundlegende Dateisysteminformationen und Statistiken.
    -Safemode eingeben | verlassen | erhalten | wartenVerwaltet Safe Modus, ein NameNode Zustand, in dem TO THE Namensraum verändert werden nicht akzeptiert und Blöcke können neitherreplicated noch gelöscht werden. Die NameNode ist im abgesicherten Modus duringstart-up, so dass sie nicht vorzeitig replicatingblocks starten, obwohl es bereits genug Repliken in thecluster.
    -refreshNodesErzwingt die NameNode seine Konfiguration neu zu lesen, einschließlich derdfs.hosts.exclude Datei. Die NameNodedecommissions Knoten nach ihrer Blöcke wurden ontomachines repliziert, die aktiv bleiben wird.
    -finalizeUpgradeVervollständigt den Upgrade-Prozess HDFS. Datanodes und die NameNodedelete Arbeitsverzeichnisse von der vorherigen Version.
    -upgradeProgress Status | Details | KraftErsucht den Standard oder detaillierte aktuellen Stand der thedistributed Upgrade, oder zwingt die Aktualisierung fortzufahren.
    -metasave DateinameSpeichert die primären Datenstrukturen der NameNode zu Dateiname in einem Verzeichnis, das durch die that'sspecified hadoop.log.dir property.File Dateiname, die isoverwritten, wenn es bereits vorhanden ist, enthält eine Zeile für jede ofthese Elemente: a) die Datanodes Takte mit theNameNode- b) Blöcke tauschen, die darauf warten, replicated- c sein) blocksthat replicated- werden, und d) Blöcke, die zu warten werden dabei gelöscht.
    -setQuota ... Legt eine Obergrenze für die Anzahl der Namen in der directorytree. Sie können diese Grenze (eine lange ganze Zahl) gesetzt für eine oder moredirectories gleichzeitig.
    -clrQuota... Löscht die obere Grenze für die Anzahl von Namen in dem directorytree. Sie können directoriessimultaneously für eine oder mehrere dieser Grenze löschen.
    -restoreFailedStorage true | falsch | CheckEin- bzw. Ausschalten der automatischen Versuche failedstorage Repliken wiederherzustellen. Wenn eine ausgefallene Lagerort availableagain wird, versucht das System die Änderungen wiederherzustellen und die fsimage während eines Checkpoints. Die Check-Option gibt die aktuelle Einstellung.
    -help [cmd]Zeigt Hilfeinformationen für den gegebenen Befehl oder für allcommands falls keiner angegeben ist.

    Menü