Ihr erstes Hadoop-Programm: Hallo Hadoop!

Nach dem Hadoop-Cluster installiert und ausgeführt wird, können Sie Ihre erste Hadoop-Programm. Diese Anwendung ist sehr einfach, und berechnet die Gesamt Meilen für alle Flüge innerhalb eines Jahres geflogen geflogen. Das Jahr wird durch die Datendatei, die Sie in Ihrer Anwendung lesen definiert.

Um die Dinge ein bisschen hier einfacher, werden Sie ein Schwein Skript ausführen, um die insgesamt geflogenen Meilen zu berechnen. Sie werden die Karte zu sehen und zu reduzieren Phasen in der Ausgabe von Fliegen.

Hier ist der Code für dieses Schwein Skript:

Aufzeichnungen = LOAD '2013_subset.csv' weiter verwenden PigStorage ( ',') AS(Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,Dest,Distance:int,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay, LateAircraftDelay) -milage_recs = GROUP zeichnet ALL-tot_miles = FOREACH milage_recs SUM GENE (records.Distance) -STORE tot_miles IN / user / root / totalmiles-

Sie wollen sich auf Ihre VM, diesen Code in einer Datei eingeben, damit zunächst eine Datei erstellen. rechts, klicken Sie auf den Desktop Ihres VM und wählen Sie Dokument aus dem Kontextmenü erstellen, der das Dokument angezeigt wird und zu benennen. Dann öffnen Sie das Dokument in einem Editor, in dem Code einfügen, und die Datei speichern.

Von der Befehlszeile den folgenden Befehl, um das Schwein Skript auszuführen:

Schwein totalmiles.pig

Sie werden viele Zeilen der Ausgabe finden und dann schließlich ein # 147-Erfolg! # 148- Nachricht, um mehr Statistiken gefolgt, und dann schließlich die Eingabeaufforderung. Nach dem Schwein Auftrag abgeschlossen ist, können Sie Ihre Ausgabe sehen:

hdfs dfs -cat / user / root / totalmiles / Teil-r-00000

Paukenwirbel, bitte # 133- Und die Antwort lautet: 775009272

Und damit haben Sie Ihre erste Hadoop Anwendung ausführen!

Menü