Hadoop für Dummies

Computer & Software / Große Daten / Datenmanagement

Das Hadoop Schale

Hadoop verwaltungsbefehle
Das hadoop dfsadmin befehlsoptionen

ist eine Familie von Befehlen, die Sie von Ihrem Betriebssystem der Kommandozeile ausgeführt werden können. Die Schale hat zwei Sätze von Befehlen: eine für Dateimanipulation (ähnlich in Zweck und Syntax zu Linux-Befehle, die viele von uns kennen und lieben) und eine für Hadoop Verwaltung. Die folgende Liste fasst den ersten Satz von Befehlen für Sie, was darauf hinweist, was der Befehl sowie Nutzung tut und Beispiele, wo anwendbar.

Katze: Kopiert Quellpfade zu stdout.
Verwendung: hdfs dfs -cat URI [URI # 133-]
Beispiel:

hdfs dfs -cat hdfs: /// file1
hdfs dfs-cat file: /// file2 / user / Hadoop / file3

chgrp: Ändert die Gruppenzugehörigkeit von Dateien. Mit -R, macht die Änderung der Verzeichnisstruktur rekursiv durch. Der Benutzer muss die Datei Eigentümer oder der Superuser sein.

Verwendung: hdfs dfs -chgrp [-R] GROUP URI [URI # 133-]

chmod: Ändert die Berechtigungen von Dateien. Mit -R, macht die Änderung der Verzeichnisstruktur rekursiv durch. Der Benutzer muss die Datei Eigentümer oder der Superuser sein,

Verwendung: hdfs dfs -chmod [-R] URI [URI # 133-]

Beispiel:hdfs dfs -chmod 777Test / data1.txt

chown: Ändert den Besitzer von Dateien. Mit -R, macht die Änderung der Verzeichnisstruktur rekursiv durch. Der Benutzer muss der Superuser sein.

Verwendung: hdfs dfs -chown [-R] [OWNER] [: [GROUP]] URI [URI]

Beispiel:hdfs dfs -chown -R hduser2 / opt / Hadoop / logs

copyFromLocal: Funktioniert ähnlich wie die stellen Befehl, mit der Ausnahme, dass die Quelle in einer lokalen Datei Bezug beschränkt.

Verwendung: hdfs dfs -copyFromLocal URI

Beispiel: hdfs dfs -copyFromLocal Eingang / docs / data2.txt hdfs: //localhost/user/rosemary/data2.txt

copyToLocal: Funktioniert ähnlich wie die bekommen Befehl, mit der Ausnahme, dass das Ziel in einer lokalen Datei Bezug beschränkt.

Verwendung: hdfs dfs -copyToLocal [-ignorecrc] [-CRC] URI

Beispiel: hdfs dfs -copyToLocal data2.txt data2.copy.txt

Graf: Zählt die Anzahl der Verzeichnisse, Dateien und Bytes unter den Pfaden, die dem angegebenen Dateimuster entsprechen.

Verwendung: hdfs dfs -count [-q]

Beispiel: hdfs dfs -count hdfs: //nn1.example.com/file1 hdfs: //nn2.example.com/file2

cp: Kopiert eine oder mehrere Dateien von einer bestimmten Quelle zu einem angegebenen Ziel. Wenn Sie mehrere Quellen angeben, muss das angegebene Ziel ein Verzeichnis sein.

Verwendung: hdfs dfs -cp URI [URI # 133-]

Beispiel: hdfs dfs -cp / user / Hadoop / file1 / user / Hadoop / file2 / user / Hadoop / dir

du: Zeigt die Größe der angegebenen Datei, oder die Größe der Dateien und Verzeichnisse, die in dem angegebenen Verzeichnis enthalten sind. Wenn Sie die angeben -s Option, zeigt eine aggregierte Zusammenfassung der Dateigrößen und nicht einzelne Dateigrößen. Wenn Sie die angeben -h Option, formatiert die Dateigrößen in einem "menschenlesbaren" Art und Weise.

Verwendung: hdfs dfs -du [-s] [-h] URI [URI # 133-]

Beispiel: hdfs dfs -du / user / Hadoop / dir1 / user / Hadoop / file1

dus: Zeigt eine Zusammenfassung der Datei Größen- entspricht hdfs dfs -du -s.

Verwendung: hdfs dfs -dus

auslöschen: Leert den Papierkorb. Wenn Sie eine Datei löschen, wird sie nicht sofort von HDFS entfernt, aber in einer Datei in die umbenannt wird /Müll Verzeichnis. Solange die Datei dort bleibt, können Sie es wiederherstellen, wenn Sie Ihre Meinung ändern, wenn auch nur die aktuellste Kopie der gelöschten Datei wiederhergestellt werden kann.

Verwendung: hdfs dfs -expunge

bekommen: Kopiert Dateien auf dem lokalen Dateisystem. Dateien, die eine zyklische Redundanzprüfung (CRC) fehlschlagen kann noch kopiert werden, wenn Sie die angeben -ignorecrcOption. Der CRC ist eine übliche Technik für Fehler bei der Datenübertragung zu erfassen. CRC-Prüfsumme Dateien haben die .crc Verlängerung und werden verwendet, um die Datenintegrität einer anderen Datei verifizieren. Diese Dateien kopiert werden, wenn Sie die angeben -crc Option.

Verwendung: hdfs dfs -get [-ignorecrc] [-CRC]

Beispiel: hdfs dfs -get / user / Hadoop / file3 localfile

getmerge: Verkettet die Dateien in srcund schreibt das Ergebnis in dem angegebenen lokalen Zieldatei. Um ein Newline-Zeichen am Ende jeder Datei hinzufügen, geben Sie die addnl Option.

Verwendung: hdfs dfs -getmerge [Addnl]

Beispiel:hdfs dfs -getmerge / user / Hadoop / mydir / ~ / result_file addnl

ls: Liefert Statistikdaten für die angegebenen Dateien oder Verzeichnisse.

Verwendung: hdfs dfs -ls

Beispiel: hdfs dfs -ls / user / Hadoop / file1

lsr: Dient als die rekursive Version ls- ähnlich dem Unix-Befehl ls -R.

Verwendung: hdfs dfs -lsr

Beispiel: hdfs dfs -lsr / user / hadoop

mkdir: Erzeugt Verzeichnisse auf einen oder mehrere bestimmte Pfade. Sein Verhalten ist ähnlich dem Unix mkdir -p Befehl, der alle Verzeichnisse erstellt, die in das angegebene Verzeichnis führen, wenn sie nicht bereits vorhanden sind.

Verwendung: hdfs dfs -mkdir

Beispiel: hdfs dfs -mkdir / user / Hadoop / dir5 / temp

moveFromLocal: Funktioniert ähnlich wie die stellen Befehl, mit der Ausnahme, dass die Quelle gelöscht wird, nachdem sie kopiert wird.

Verwendung: hdfs dfs -moveFromLocal

Beispiel: hdfs dfs -moveFromLocal localfile1 localfile2 / user / Hadoop / hadoopdir

mv: Verschiebt eine oder mehrere Dateien von einer bestimmten Quelle zu einem angegebenen Ziel. Wenn Sie mehrere Quellen angeben, muss das angegebene Ziel ein Verzeichnis sein. Das Verschieben von Dateien über Dateisysteme ist nicht gestattet.

Verwendung: hdfs dfs -MV URI [URI # 133-]

Beispiel: hdfs dfs -MV / user / Hadoop / file1 / user / Hadoop / file2

stellen: Kopiert Dateien aus dem lokalen Dateisystem in das Zieldateisystem. Dieser Befehl kann auch lesen Eingabe von stdin und schreiben Sie an die Zieldateisystem.

Verwendung: hdfs dfs -Setzen ...

Beispiel: hdfs dfs -Setzen localfile1 localfile2 / user / Hadoop / hadoopdir- hdfs dfs -Setzen - / user / Hadoop / hadoopdir (Eingabe von stdin liest)

rm: Löscht eine oder mehrere bestimmte Dateien. Dieser Befehl löscht nicht leere Verzeichnisse oder Dateien. Um den Müll umgehen (wenn es aktiviert ist) und löschen Sie die angegebenen Dateien sofort, geben Sie die -skipTrash Option.

Verwendung: hdfs dfs -rm [-skipTrash] URI [URI # 133-]

Beispiel: hdfs dfs -rm hdfs: //nn.example.com/file9

RMR: Dient als die rekursive Version -rm.

Verwendung: hdfs dfs -rmr [-skipTrash] URI [URI # 133-]

Beispiel: hdfs dfs -rmr / user / Hadoop / dir

setrep: Ändert den Replikationsfaktor für eine bestimmte Datei oder ein Verzeichnis. Mit -R, macht die Änderung der Verzeichnisstruktur rekursiv durch.

Verwendung: hdfs dfs -setrep [-R]

Beispiel: hdfs dfs -setrep 3 -R / user / Hadoop / dir1

stat: Zeigt Informationen über den angegebenen Pfad.

Verwendung: hdfs dfs -stat URI [URI # 133-]

Beispiel: hdfs dfs -stat / user / Hadoop / dir1

Schwanz: Zeigt das letzte Kilobyte einer angegebenen Datei zu stdout. Die Syntax unterstützt die Unix -f Option, die die angegebene Datei ermöglicht überwacht werden. Als neue Zeilen werden durch einen anderen Prozess zur Datei hinzugefügt, tkränkeln aktualisiert die Anzeige.

Verwendung: hdfs dfs -tail [-f] URI

Beispiel: hdfs dfs -tail / user / Hadoop / dir1

Test: Gibt Attribute der angegebenen Datei oder des Verzeichnisses. Gibt -e ob die Datei oder das Verzeichnis zu bestimmen exists- -z um zu bestimmen, ob die Datei oder das Verzeichnis ist Leer- und -d um zu bestimmen, ob der URI ein Verzeichnis ist.

Verwendung: hdfs dfs -test - [ezd] URI

Beispiel: hdfs dfs -Test / user / Hadoop / dir1

Text: Gibt eine angegebene Quelldatei im Textformat. Die gültige Eingabe-Dateiformate Reißverschluss und TextRecordInputStream.

Verwendung: hdfs dfs -Text

Beispiel: hdfs dfs -Text /user/hadoop/file8.zip

touchz: Erstellt eine neue, leere Datei der Größe 0 in dem angegebenen Pfad.

Verwendung: hdfs dfs -touchz

Beispiel: hdfs dfs -touchz / user / Hadoop / file12

Hadoop Verwaltungsbefehle

Jeder Hadoop Administrator wert sein Salz muss einen umfassenden Satz von Befehlen für die Clusterverwaltung zu meistern. Die folgende Liste fasst die wichtigsten Befehle, was darauf hinweist, was der Befehl sowie Syntax tut und Beispiele. Kennen Sie sie, und Sie werden einen langen Weg auf dem Weg zu Hadoop Weisheit vorantreiben.

Balancer: Führt das Cluster-Balancing-Dienstprogramm. Der angegebene Grenzwert, der einen Prozentsatz der Plattenkapazität darstellt, verwendet wird, kann der voreingestellte Schwellenwert (10 Prozent) zu überschreiben. Um die Neuausgleichsprozess, drücken Sie Strg + C beenden.
Syntax:hadoop Balancer [-Schwelle ]
Beispiel: hadoop Balancer -Schwelle 20
daemonlog: Ruft die Protokollebene für jeden Daemon (auch als Service bezeichnet). zum Anschluss http: // host: port / logLevel log = Name und druckt oder setzt die Protokollebene des Daemon, der läuft auf Host: Port. Hadoop Daemons generieren Protokolldateien, die Ihnen helfen, festzustellen, was auf dem System passiert, und Sie können die Verwendung daemonlog Befehl, um vorübergehend die Protokollebene eines Hadoop-Komponente ändern, wenn Sie das System debuggen. Die Änderung wird wirksam, wenn der Daemon neu gestartet.
Syntax: hadoop daemonlog -getlevel - hadoop daemonlog -setlevel
Beispiel: hadoop daemonlog -getlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker- hadoop daemonlog -setlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker DEBUG
DataNode: Führt die HDFS DataNode-Service, der den Speicher auf jedem Slave-Knoten koordiniert. Wenn Sie angeben, -Rollback, die DataNode wird auf die vorherige Version zurückgerollt. Stoppen Sie den DataNode und verteilen Sie die vorherige Version von Hadoop, bevor Sie diese Option verwenden.
Syntax: hadoop DataNode [-rollback]
Beispiel: hadoop DataNode -rollback
dfsadmin: Führt eine Reihe von Hadoop Distributed File System (HDFS) administrative Operationen. Verwenden Sie die -Hilfe Option, um eine Liste aller unterstützten Optionen zu sehen. Die allgemeinen Optionen sind eine gemeinsame Reihe von Optionen, die von mehreren Befehlen unterstützt.
Syntax: Hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode eingeben | verlassen | erhalten | warten] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress Status | Details | force] [-metasave Dateiname] [-setQuota ...] [-clrQuota ...] [-restoreFailedStorage True | false | Test] [-help [cmd]]
mradmin: Führt eine Reihe von MapReduce administrativen Vorgänge. Verwenden Sie die -Hilfe Option, um eine Liste aller unterstützten Optionen zu sehen. Auch hier sind die allgemeinen Optionen eine gemeinsame Reihe von Optionen, die von mehreren Befehlen unterstützt werden. Wenn Sie angeben, -refreshServiceAcl, lädt die Berechtigungsrichtliniendatei Service-Level (Jobtracker die Berechtigung Richtliniendatei neu geladen) - -refreshQueues Lädt die Warteschlange Zugriffskontrolllisten (ACLs) und Staat (Jobtracker lädt der mapred-queues.xml Datei)- -refreshNodes erfrischt die Gastgeber Informationen an der JobTracker- -refreshUserToGroupsMappings frischt Benutzer-zu-Gruppen mappings- -refreshSuperUserGroupsConfiguration refreshes Super-User-Proxy-Gruppen mappings- und -help [cmd] Hilfe für den gegebenen Befehl oder für alle Befehle, wenn keine angegeben ist.
Syntax: hadoop mradmin [GENERIC_OPTIONS] [-refreshServiceAcl] [-refreshQueues] [-refreshNodes] [-refreshUserToGroupsMappings] [-refreshSuperUserGroupsConfiguration] [-help [cmd]]
Beispiel: hadoop mradmin -help -refreshNodes
Jobtracker: Führt die MapReduce Jobtracker-Knoten, der das Datenverarbeitungssystem für Hadoop-Koordinaten. Wenn Sie angeben, -dumpConfiguration, die Konfiguration, die von der Jobtracker und der Warteschlange Konfiguration im JSON-Format geschrieben werden auf die Standardausgabe verwendet wird.
Syntax: hadoop Jobtracker [-dumpConfiguration]
Beispiel: hadoop Jobtracker -dumpConfiguration
NameNode: Läuft die NameNode, die die Lagerung für den gesamten Hadoop-Cluster koordiniert. Wenn Sie angeben, -Format, die NameNode gestartet wird, formatiert und dann Stopped mit -Aktualisierung, die NameNode beginnt mit der Upgrade-Option nach einer neuen Hadoop-Version ist distributed- mit -Rollback, die NameNode wird auf die vorherige Version (nicht vergessen, den Cluster zu stoppen und die vorherige Hadoop-Version, bevor Sie diese Option verteilen) rückgängig gemacht - mit -zum Abschluss bringen, der vorherige Zustand des Dateisystems entfernt wird, die letzte Aktualisierung wird permanent, Rollback ist nicht mehr verfügbar, und die NameNode ist Stopped schließlich mit -importCheckpoint, ein Bild wird von dem Checkpoint-Verzeichnis geladen (wie durch die spezifizierte fs.checkpoint.dir Eigentum) und in das aktuelle Verzeichnis gespeichert.
Syntax: hadoop NameNode [-format] | [-upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]
Beispiel: hadoop NameNode -finalize
Sekundäre NameNode: Führt den sekundären NameNode. Wenn Sie angeben, -Kontrollpunkt, ein Kontrollpunkt auf dem sekundären NameNode durchgeführt wird, wenn die Größe des EditLog (ein Transaktionsprotokoll, das jede Änderung aufzeichnet, die auf das Dateisystem-Metadaten auftritt) größer als oder gleich fs.checkpoint.size- angeben -Kraft und ein Checkpoint ausgeführt wird, unabhängig von der EditLog Size- angeben -geteditsize und die EditLog Größe gedruckt.
Syntax: hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]
Beispiel: hadoop secondarynamenode -geteditsize
Tasktracker: Führt eine MapReduce Tasktracker Knoten.
Syntax: hadoop Tasktracker
Beispiel: hadoop Tasktracker

Das Hadoop dfsadmin Befehlsoptionen

Das dfsadmin Werkzeuge sind eine bestimmte Gruppe von Tools, die Sie Informationen des verteilten Dateisystem über Ihre Hadoop ausrotten zu helfen, entworfen (HDFS). Als zusätzlichen Bonus, können Sie sie verwenden auch einige Verwaltungsvorgänge auf HDFS auszuführen.

Option	Was es macht
-Bericht	Berichte grundlegende Dateisysteminformationen und Statistiken.
-Safemode eingeben \| verlassen \| erhalten \| warten	Verwaltet Safe Modus, ein NameNode Zustand, in dem TO THE Namensraum verändert werden nicht akzeptiert und Blöcke können neitherreplicated noch gelöscht werden. Die NameNode ist im abgesicherten Modus duringstart-up, so dass sie nicht vorzeitig replicatingblocks starten, obwohl es bereits genug Repliken in thecluster.
-refreshNodes	Erzwingt die NameNode seine Konfiguration neu zu lesen, einschließlich derdfs.hosts.exclude Datei. Die NameNodedecommissions Knoten nach ihrer Blöcke wurden ontomachines repliziert, die aktiv bleiben wird.
-finalizeUpgrade	Vervollständigt den Upgrade-Prozess HDFS. Datanodes und die NameNodedelete Arbeitsverzeichnisse von der vorherigen Version.
-upgradeProgress Status \| Details \| Kraft	Ersucht den Standard oder detaillierte aktuellen Stand der thedistributed Upgrade, oder zwingt die Aktualisierung fortzufahren.
-metasave Dateiname	Speichert die primären Datenstrukturen der NameNode zu Dateiname in einem Verzeichnis, das durch die that'sspecified hadoop.log.dir property.File Dateiname, die isoverwritten, wenn es bereits vorhanden ist, enthält eine Zeile für jede ofthese Elemente: a) die Datanodes Takte mit theNameNode- b) Blöcke tauschen, die darauf warten, replicated- c sein) blocksthat replicated- werden, und d) Blöcke, die zu warten werden dabei gelöscht.
-setQuota ...	Legt eine Obergrenze für die Anzahl der Namen in der directorytree. Sie können diese Grenze (eine lange ganze Zahl) gesetzt für eine oder moredirectories gleichzeitig.
-clrQuota...	Löscht die obere Grenze für die Anzahl von Namen in dem directorytree. Sie können directoriessimultaneously für eine oder mehrere dieser Grenze löschen.
-restoreFailedStorage true \| falsch \| Check	Ein- bzw. Ausschalten der automatischen Versuche failedstorage Repliken wiederherzustellen. Wenn eine ausgefallene Lagerort availableagain wird, versucht das System die Änderungen wiederherzustellen und die fsimage während eines Checkpoints. Die Check-Option gibt die aktuelle Einstellung.
-help [cmd]	Zeigt Hilfeinformationen für den gegebenen Befehl oder für allcommands falls keiner angegeben ist.

Hadoop für Dummies

Hadoop Verwaltungsbefehle

Das Hadoop dfsadmin Befehlsoptionen

Ähnliche

Menü