Wie zu verwenden Apache Mahout für Predictive Analytics

Ein Open-Source-Tool, das einzigartig nützlich in Predictive Analytics ist Apache Mahout. Diese Maschine-Learning-Bibliothek umfasst große Versionen des Clustering, Klassifikation, kollaboratives Filtern und anderen Daten-Mining-Algorithmen, die eine groß angelegte Predictive Analytics-Modell unterstützen kann.

Eine sehr empfehlenswerte Möglichkeit, die Daten, die für ein solches Modell zu verarbeiten ist Mahout in einem System auszuführen, die Hadoop ist bereits ausgeführt. Hadoop bezeichnet eine Master-Maschine, die die anderen Maschinen (wie Map Maschinen und reduzieren Maschinen) verwendet in seiner verteilten Verarbeitung orchestriert. Mahout sollte an diesem Master-Maschine installiert werden.

Stellen Sie sich vor Sie große Menge von gestreamten Daten haben - Google News-Artikel - und Sie würden thematisch zu bündeln möchten, eine der Clustering-Algorithmen. Nachdem Sie Hadoop und Mahout installieren, können Sie einen der Algorithmen ausführen - wie K-Mittel - auf Ihre Daten.

Die Implementierung der K-Mittel unter Mahout verwendet einen MapReduce-Ansatz, der es unterscheidet sich von der normalen Anwendung der K-Mittel macht. Mahout Unterteilt die K-Means-Algorithmus in dieser Teilverfahren:

  • KmeansMapper liest die Eingabedatei und wird jeden Eingabepunkt zu seinem nächsten ursprünglich ausgewählten Mittel (Cluster Vertreter) zuweisen.

  • KmeansCombiner Paare - - Verfahren werden alle Datensätze nehmen produziert von KmeansMapper und erzeugt Teilsummen auf die Berechnung der nachfolgenden Cluster Vertreter zu erleichtern.

  • KmeansReducer empfängt die von allen Teilaufgaben (Kombinatoren) erzeugten Werte der tatsächlichen Zentroide der Cluster zu berechnen, welche die endgültige Ausgabe der K-Mittel ist.

  • KmeansDriver den Prozess behandelt die Iterationen, bis alle Cluster angenähert haben. Die Ausgabe einer gegebenen Iteration, eine Teil clustering Ausgang wird als Eingang für die nächste Iteration verwendet. Der Prozess der Zuordnung und die Verringerung der Datenmenge, bis die Zuordnung von Datensätzen und Clustern zeigen keine weiteren Änderungen.

Apache Mahout ist eine neu entwickelte projekt- seine Funktionalität noch viel Platz hat Erweiterungen gerecht zu werden. In der Zwischenzeit nutzt Mahout bereits MapReduce Klassifizierung zu implementieren, Clustering und andere Maschinenlerntechniken - und können so in großem Maßstab tun.

Menü