R auf Hadoop und die R Sprache

Die Maschine Lernen Disziplin hat eine reiche und umfangreichen Katalog von Techniken. Mahout bringt eine Reihe von statistischen Werkzeugen und Algorithmen zum Tisch, aber es fängt nur einen Bruchteil dieser Techniken und Algorithmen, da die Aufgabe, diese Modelle an einen MapReduce Rahmen der Umwandlung eine Herausforderung ist.

Im Laufe der Zeit ist Mahout sicher, dass seine statistische Toolbox weiter auszubauen, aber alle Daten Wissenschaftler und Statistiker bis dahin dort bewusst alternative statistische Modellierungssoftware sein müssen - das ist, wo R kommt.

Die R-Sprache ist eine leistungsstarke und beliebte Open-Source-Statistik Sprache und Entwicklungsumgebung. Es bietet ein reichhaltiges Analyse Ökosystem, das Daten Wissenschaftler mit Daten Exploration, Visualisierung, statistische Analyse und Datenverarbeitung, Modellierung, maschinelles Lernen und Simulation unterstützen. Die R Sprache wird von Statistikern, Data-Mining, Datenanalysten und (heute) Daten Wissenschaftler häufig verwendet.

R Sprache Programmierer haben Zugriff auf die Umfassende R Archive Network (CRAN) Bibliotheken, die ab dem Zeitpunkt des Schreibens dieses Artikels, enthält mehr als 3000 statistische Analysepakete. Diese Add-ons können in jedes R Projekt gezogen werden, die Bereitstellung reichhaltiger Analysetools für die Ausführung von Klassifizierung, Regression, Clustering, lineare Modellierung und mehr spezialisierte Algorithmen für maschinelles Lernen.

Die Sprache ist zugänglich für diejenigen, die mit einfachen Datenstrukturtypen - Vektoren, Skalare, Datenrahmen (Matrizen) und dergleichen - häufig von den Statistikern sowie Programmierern verwendet.

Out of the box, eine der wichtigsten Fallen mit der R-Sprache ist der Mangel an Unterstützung, die es für die Ausführung von gleichzeitigen Aufgaben bietet. Statistische Sprach-Tools wie R zeichnen sich rigorose Analyse, aber es fehlt die Skalierbarkeit und native Unterstützung für parallele Berechnungen.

Diese Systeme sind nicht ausschüttungs und wurden nicht für die moderne Petabyte-Welt der großen Daten skalierbar sein entwickelt. Vorschläge für diese Einschränkungen überwinden müssen R Umfang über In-Memory-Laden und einzelnen Computer Ausführungsumgebungen zu erweitern, während für leicht einsetzbares statistische Algorithmen R Flair beibehalten wird.

Menü