Faktoren, die den Umfang der statistischen Analyse in Hadoop erhöhen

Der Grund, warum die Menschen ihre Daten Probe vor der statistischen Analyse in Hadoop ausgeführt ist, dass diese Art der Analyse oft erhebliche Rechenressourcen erfordert. Dies ist nicht nur über Datenvolumen: fünf wichtigsten Faktoren, die das Ausmaß der statistischen Analyse beeinflussen:

  • Dieser ist einfach, aber wir müssen es zu erwähnen: das Volumen der Daten, auf denen Sie die Analyse durchführen wird bestimmt auf jeden Fall den Umfang der Analyse.

  • Die Zahl der Transformationen auf die vor der Anwendung statistischer Modelle gesetzt Daten benötigt wird, ist definitiv ein Faktor.

  • Die Anzahl der paarweise Korrelationen Sie brauchen, um zu berechnen, eine Rolle spielt.

  • Der Grad der Komplexität der statistischen Berechnungen angewendet werden, ist ein Faktor.

  • Die Zahl der statistischen Modelle angewendet werden, um Ihren Datensatz eine bedeutende Rolle spielt.

Hadoop bietet einen Ausweg aus diesem Dilemma durch Bereitstellung einer Plattform, massiv parallele Verarbeitung Berechnungen auf Daten in Hadoop auszuführen.

Dabei ist es möglich, die analytischen Daten Flow- anstatt bewegen, um die Daten aus dem Repository auf den Analyseserver, Hadoop liefert Analysen direkt auf die Daten zu spiegeln. Genauer gesagt, HDFS können Sie Ihre Berge von Daten zu speichern und dann die Berechnung Knoten an die Slave-bringen (in Form von MapReduce Aufgaben).

Die gemeinsame Herausforderung durch von der traditionellen symmetrischen Multiprocessing statistischen Systeme (SMP) zu Hadoop-Architektur bewegt, ist der Ort der Daten. Auf traditionelle SMP-Plattformen teilen mehrere Prozessoren Zugriff auf einen einzigen Hauptspeicher Ressource.

In Hadoop, repliziert HDFS Partitionen von Daten über mehrere Knoten und Maschinen. Auch statistische Algorithmen, die für die Verarbeitung von Daten im Speicher entwickelt wurden, müssen passen nun auf Datensätze, die mehrere Knoten / Racks erstrecken und könnte nicht in einem einzigen Speicherblock passen hoffen.

Menü